c-repl/src/tokenize.cpp

#include <regex>
#include <vector>
#include <iostream>
#include "include/tokenize.h"
using namespace std;

regex NUMBER_REGEX ("\\d+(\\.\\d+)?");
regex TYPE_INT_REGEX ("int\\s");
regex IDENTIFIER_REGEX ("[A-Za-z_]\\w*");

void _debug_print_token(Token token) {
    switch (token.type) {
        case TokenType::Type:
            cout << "Type(INT)";
        break;
        case TokenType::Int:
            cout << "Number(" << get<int>(token.data) << ")";
        break;
        case TokenType::Identifier:
            cout << "Identifier(" << get<string>(token.data) << ")";
        break;
        case TokenType::Plus:
            cout << "+";
        break;
        case TokenType::Minus:
            cout << "-";
        break;
        case TokenType::DoublePlus:
            cout << "++";
        break;
        case TokenType::DoubleMinus:
            cout << "--";
        break;
        case TokenType::Star:
            cout << "*";
        break;
        case TokenType::Slash:
            cout << "/";
        break;
        case TokenType::Percent:
            cout << "%";
        break;
        case TokenType::Equal:
            cout << "=";
        break;
        case TokenType::Semicolon:
            cout << ";";
        break;
        case TokenType::LParenthese:
            cout << "(";
        break;
        case TokenType::RParenthese:
            cout << ")";
        break;
    }
}

void _debug_print_tokens(vector<Token> tokens) {
    for (Token token : tokens) {
        _debug_print_token(token);
        cout << " ";
    }
    cout << endl;
}

vector<Token> tokenize(string str) {
    vector<Token> tokens;

    while (str.size() > 0) {
        smatch m;
        if (regex_search(str, m, NUMBER_REGEX, regex_constants::match_continuous)) {
            Token token = {
                .type = TokenType::Int,
                .data = stoi(m.str())
            };
            tokens.emplace_back(token);
            str.erase(0, m.str().length());
        }
        else if (regex_search(str, m, TYPE_INT_REGEX, regex_constants::match_continuous)) {
            Token token = {
                .type = TokenType::Type,
                .data = Type::Int
            };
            tokens.emplace_back(token);
            str.erase(0, m.str().length());
        }
        else if (regex_search(str, m, IDENTIFIER_REGEX, regex_constants::match_continuous)) {
            Token token = {
                .type = TokenType::Identifier,
                .data = m.str()
            };
            tokens.emplace_back(token);
            str.erase(0, m.str().length());
        }
        else if (str.size() >= 2 && str[0] == '+' && str[1] == '+') {
            Token token = { .type = TokenType::DoublePlus };
            tokens.emplace_back(token);
            str.erase(0, 2);
        }
        else if (str.size() >= 2 && str[0] == '-' && str[1] == '-') {
            Token token = { .type = TokenType::DoubleMinus };
            tokens.emplace_back(token);
            str.erase(0, 2);
        }
        else if (str[0] == '+') {
            Token token = { .type = TokenType::Plus };
            tokens.emplace_back(token);
            str.erase(0, 1);
        }
        else if (str[0] == '-') {
            Token token = { .type = TokenType::Minus };
            tokens.emplace_back(token);
            str.erase(0, 1);
        }
        else if (str[0] == '*') {
            Token token = { .type = TokenType::Star };
            tokens.emplace_back(token);
            str.erase(0, 1);
        }
        else if (str[0] == '/') {
            Token token = { .type = TokenType::Slash };
            tokens.emplace_back(token);
            str.erase(0, 1);
        }
        else if (str[0] == '%') {
            Token token = { .type = TokenType::Percent };
            tokens.emplace_back(token);
            str.erase(0, 1);
        }
        else if (str[0] == '=') {
            Token token = { .type = TokenType::Equal };
            tokens.emplace_back(token);
            str.erase(0, 1);
        }
        else if (str[0] == ';') {
            Token token = { .type = TokenType::Semicolon };
            tokens.emplace_back(token);
            str.erase(0, 1);
        }
        else if (str[0] == '(') {
            Token token = { .type = TokenType::LParenthese };
            tokens.emplace_back(token);
            str.erase(0, 1);
        }
        else if (str[0] == ')') {
            Token token = { .type = TokenType::RParenthese };
            tokens.emplace_back(token);
            str.erase(0, 1);
        }
        else if (isspace(str[0]) || str[0] == '\0') {
            str.erase(0, 1);
        }
        else {
            throw TokenError("Unknown token {}");
        }
    }

    return tokens;
}
Add tokenizer 2023-10-27 16:56:54 +02:00			`#include <regex>`
			`#include <vector>`
			`#include <iostream>`
			`#include "include/tokenize.h"`
			`using namespace std;`

			`regex NUMBER_REGEX ("\\d+(\\.\\d+)?");`
			`regex TYPE_INT_REGEX ("int\\s");`
			`regex IDENTIFIER_REGEX ("[A-Za-z_]\\w*");`

Add _debug_print_tree 2023-11-10 19:04:24 +01:00			`void _debug_print_token(Token token) {`
			`switch (token.type) {`
			`case TokenType::Type:`
			`cout << "Type(INT)";`
			`break;`
			`case TokenType::Int:`
			`cout << "Number(" << get<int>(token.data) << ")";`
			`break;`
			`case TokenType::Identifier:`
			`cout << "Identifier(" << get<string>(token.data) << ")";`
			`break;`
			`case TokenType::Plus:`
			`cout << "+";`
			`break;`
			`case TokenType::Minus:`
			`cout << "-";`
			`break;`
Added ParIdentifier, ++, -- (tokens & ast for now) 2023-11-14 17:00:34 +01:00			`case TokenType::DoublePlus:`
			`cout << "++";`
			`break;`
			`case TokenType::DoubleMinus:`
			`cout << "--";`
			`break;`
Add _debug_print_tree 2023-11-10 19:04:24 +01:00			`case TokenType::Star:`
			`cout << "*";`
			`break;`
			`case TokenType::Slash:`
			`cout << "/";`
			`break;`
			`case TokenType::Percent:`
			`cout << "%";`
			`break;`
			`case TokenType::Equal:`
			`cout << "=";`
			`break;`
			`case TokenType::Semicolon:`
			`cout << ";";`
			`break;`
			`case TokenType::LParenthese:`
			`cout << "(";`
			`break;`
			`case TokenType::RParenthese:`
			`cout << ")";`
			`break;`
			`}`
			`}`

Add interpreter 2023-11-10 17:35:33 +01:00			`void _debug_print_tokens(vector<Token> tokens) {`
Add tokenizer 2023-10-27 16:56:54 +02:00			`for (Token token : tokens) {`
Add _debug_print_tree 2023-11-10 19:04:24 +01:00			`_debug_print_token(token);`
Add tokenizer 2023-10-27 16:56:54 +02:00			`cout << " ";`
			`}`
			`cout << endl;`
			`}`

			`vector<Token> tokenize(string str) {`
			`vector<Token> tokens;`

			`while (str.size() > 0) {`
			`smatch m;`
			`if (regex_search(str, m, NUMBER_REGEX, regex_constants::match_continuous)) {`
			`Token token = {`
Add interpreter 2023-11-10 17:35:33 +01:00			`.type = TokenType::Int,`
			`.data = stoi(m.str())`
Add tokenizer 2023-10-27 16:56:54 +02:00			`};`
			`tokens.emplace_back(token);`
			`str.erase(0, m.str().length());`
			`}`
			`else if (regex_search(str, m, TYPE_INT_REGEX, regex_constants::match_continuous)) {`
			`Token token = {`
			`.type = TokenType::Type,`
Replace unions with variants 2023-11-10 13:42:53 +01:00			`.data = Type::Int`
Add tokenizer 2023-10-27 16:56:54 +02:00			`};`
			`tokens.emplace_back(token);`
			`str.erase(0, m.str().length());`
			`}`
			`else if (regex_search(str, m, IDENTIFIER_REGEX, regex_constants::match_continuous)) {`
			`Token token = {`
			`.type = TokenType::Identifier,`
Replace unions with variants 2023-11-10 13:42:53 +01:00			`.data = m.str()`
Add tokenizer 2023-10-27 16:56:54 +02:00			`};`
			`tokens.emplace_back(token);`
			`str.erase(0, m.str().length());`
			`}`
Added ParIdentifier, ++, -- (tokens & ast for now) 2023-11-14 17:00:34 +01:00			`else if (str.size() >= 2 && str[0] == '+' && str[1] == '+') {`
			`Token token = { .type = TokenType::DoublePlus };`
			`tokens.emplace_back(token);`
			`str.erase(0, 2);`
			`}`
			`else if (str.size() >= 2 && str[0] == '-' && str[1] == '-') {`
			`Token token = { .type = TokenType::DoubleMinus };`
			`tokens.emplace_back(token);`
			`str.erase(0, 2);`
			`}`
Add tokenizer 2023-10-27 16:56:54 +02:00			`else if (str[0] == '+') {`
			`Token token = { .type = TokenType::Plus };`
			`tokens.emplace_back(token);`
			`str.erase(0, 1);`
			`}`
			`else if (str[0] == '-') {`
			`Token token = { .type = TokenType::Minus };`
			`tokens.emplace_back(token);`
			`str.erase(0, 1);`
			`}`
			`else if (str[0] == '*') {`
			`Token token = { .type = TokenType::Star };`
			`tokens.emplace_back(token);`
			`str.erase(0, 1);`
			`}`
			`else if (str[0] == '/') {`
			`Token token = { .type = TokenType::Slash };`
			`tokens.emplace_back(token);`
			`str.erase(0, 1);`
			`}`
			`else if (str[0] == '%') {`
			`Token token = { .type = TokenType::Percent };`
			`tokens.emplace_back(token);`
			`str.erase(0, 1);`
			`}`
			`else if (str[0] == '=') {`
			`Token token = { .type = TokenType::Equal };`
			`tokens.emplace_back(token);`
			`str.erase(0, 1);`
			`}`
			`else if (str[0] == ';') {`
			`Token token = { .type = TokenType::Semicolon };`
			`tokens.emplace_back(token);`
			`str.erase(0, 1);`
			`}`
			`else if (str[0] == '(') {`
			`Token token = { .type = TokenType::LParenthese };`
			`tokens.emplace_back(token);`
			`str.erase(0, 1);`
			`}`
			`else if (str[0] == ')') {`
			`Token token = { .type = TokenType::RParenthese };`
			`tokens.emplace_back(token);`
			`str.erase(0, 1);`
			`}`
Small fixes 2023-11-10 17:50:00 +01:00			`else if (isspace(str[0]) \|\| str[0] == '\0') {`
Add tokenizer 2023-10-27 16:56:54 +02:00			`str.erase(0, 1);`
			`}`
			`else {`
Add more tests 2023-11-15 11:59:38 +01:00			`throw TokenError("Unknown token {}");`
Add tokenizer 2023-10-27 16:56:54 +02:00			`}`
			`}`

			`return tokens;`
			`}`