LL(1)語法分析器：從語法規則到語法樹

在編譯原理中，語法分析是編譯器的一個重要階段。語法分析器的作用是將代碼轉換成語法樹，以便後續階段進行處理。LL(1)語法分析器是語法分析器的一種，它採用的是自頂向下的分析方法，可以通過一個預測表來進行分析。下面將從幾個方面對LL(1)語法分析器進行詳細的闡述。

一、LL(1)語法分析器的概念

LL(1)語法分析器是一種自頂向下的語法分析器，它可以通過一個預測表來進行分析。LL(1)語法分析器的「LL」代表的是「左側掃描，左推導(Derivation)，1個向前查看符號(Lookahead)」。

LL(1)語法分析器的輸入是一個代碼串，輸出是一個語法樹。它首先需要根據代碼所遵循的語法規則，建立文法。然後再通過文法，生成一個可以預測的分析表。最後，使用該預測表對代碼串進行分析，生成語法樹。

二、LL(1)語法分析器的文法設計

在LL(1)語法分析器的文法設計中，需要考慮以下幾個問題：

1、如何表示終結符和非終結符？

在文法設計中，終結符是一種不可再分的符號。例如，加號「+」就是一個終結符。而非終結符則表示一個語法結構，例如，表達式就是一個非終結符。終結符一般用小寫字母表示，非終結符一般用大寫字母表示。

2、如何設計產生式？

產生式是一條用於生成語法結構的規則。它的格式通常是非終結符 -> 符號串，其中符號串可以由終結符和非終結符組成。

3、如何進行語法規則的歸併與提取？

在設計文法時，需要將一些重複的產生式進行合併，以便簡化文法。同時，需要進行一些產生式的提取，以便後續的語法分析。

三、LL(1)語法分析器的預測表生成

LL(1)語法分析器的預測表是一個二維的表格，它的行表示文法的非終結符，列表示文法的終結符和一個特殊的「$」符號（代表輸入串結束）。表格中的每個元素代表了採取相應非終結符和終結符時的產生式編號。預測表的生成就是根據文法的有效產生式生成。

在預測表生成過程中，需要考慮以下幾個問題：

1、如何消除文法的左遞歸？

左遞歸是文法的一種特殊形式，其在預測表生成中會帶來一些問題。需要將左遞歸進行消除，以便生成預測表。

2、如何進行FIRST、FOLLOW集的計算？

FIRST集表示文法每個符號可能的最左推導串集合，FOLLOW集表示在每個非終結符後面可能跟隨的符號集合。它們是預測表生成的基礎。

3、如何進行預測表的生成？

預測表可以通過計算FIRST、FOLLOW集來進行生成。如果對於某個非終結符A，它的FIRST集中包括了某個終結符a，那麼就將文法中A -> α產生式中，將FIRST(α)中的所有符號都映射到預測表中，行為A，列為a。如果同時存在多個產生式需要映射到同一行上，則說明文法不是LL(1)文法。

四、LL(1)語法分析器的語法分析

LL(1)語法分析器在進行語法分析時，需要使用預測表來匹配輸入符號，進行分析。匹配成功後，就可以根據預測表中對應的產生式，將輸入符號替換成文法中的非終結符或空串（ε）。直到匹配到輸入串的結束符號「$」為止，最後生成語法樹。

在語法分析過程中，可能會出現一些錯誤。例如，輸入串無法匹配預測表中的任何產生式，或者預測表中的不同產生式映射到同一行上。這些錯誤需要進行處理，以便生成正確的語法樹。

五、LL(1)語法分析器的代碼示例

#include <iostream>
#include <stack>
#include <vector>

using namespace std;

class LR_Syntax_Analyzer
{
public:
    LR_Syntax_Analyzer()
    {
        init_sta_table();
    }

    bool analyze(vector<string> inputs)
    {
        // 將輸入符號表插入一個結束標識符 $
        vector<string> input_symbols = inputs;
        input_symbols.push_back("$");

        // 初始化狀態棧和符號棧
        int n = input_symbols.size();
        sta_stack.push(0);
        sym_stack.push("$");

        int i = 0;
        while(i < n)
        {
            string a = input_symbols[i];
            int s = sta_stack.top();
            int t = get_sta_table_index(s, a);

            if(t == -1)
            {
                // 找不到與輸入符號匹配的產生式
                return false;
            }
            else if(t > 0)
            {
                // 移進操作
                sta_stack.push(t);
                sym_stack.push(a);
                i++;
            }
            else if(t < 0)
            {
                // 規約操作
                int p = -t;
                p = p - 1;

                // 彈出產生式右部的符號
                for(int j = 0; j < prod_len[p]; j++)
                {
                    sta_stack.pop();
                    sym_stack.pop();
                }

                // 獲取新的狀態
                int s_new = sta_stack.top();
                string x = prod_left[p];

                // 在表中查找 goto(s_new, x)
                int q = get_sta_table_index(s_new, x);

                // 更新狀態棧和符號棧
                sta_stack.push(q);
                sym_stack.push(x);
            }
            else
            {
                // 找到空產生式
                i++;
            }
        }

        return true;
    }

private:
    stack<int> sta_stack; // 狀態棧
    stack<string> sym_stack; // 符號棧

    // 文法的產生式
    vector<string> prod_left = {"S", "S", "L", "L", "L", "E", "E"};
    vector<vector<string>> prod_right = {
            {"L", "=", "R"},
            {"R"},
            {"L", "+", "R"},
            {"L", "-", "R"},
            {"E"},
            {},
            {"(", "L", ")"}
    };
    vector<int> prod_len = {3, 1, 3, 3, 1, 0, 3};

    // 狀態轉換表
    vector<vector<int>> sta_table = {
            {0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0},
            {0, 0, 0, 0, 0, 0, 0, 0, -1, -1, 0},
            {3, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0},
            {0, 0, 5, 6, 0, 0, 0, 0, 0, 0, 0},
            {0, 0, 8, 9, 0, 0, 0, 0, -2, -2, 0},
            {3, 4, 0, 0, 10, 0, 0, 0, 0, 0, 0},
            {0, 0, 0, 0, 0, 0, 0, 0, 11, 2, 0},
            {0, 0, 0, 0, 0, 0, 12, 13, 0, 0, 0}
    };

    void init_sta_table()
    {
        sta_table.resize(8, vector<int>(11, 0));

        // 初始化表中的移進和規約操作
        sta_table[0][8] = 1;
        sta_table[0][9] = 2;

        sta_table[2][1] = 3;
        sta_table[2][2] = 4;
        sta_table[2][8] = -5;
        sta_table[2][9] = -5;
        sta_table[2][10] = 3;

        sta_table[3][1] = 6;
        sta_table[3][2] = 7;

        sta_table[4][1] = -1;
        sta_table[4][2] = -1;
        sta_table[4][8] = -1;
        sta_table[4][9] = -1;

        sta_table[5][4] = 11;
        sta_table[5][5] = 12;
        sta_table[5][8] = -3;
        sta_table[5][9] = -3;
        sta_table[5][10] = 11;

        sta_table[6][0] = 13;

        sta_table[7][1] = 6;
        sta_table[7][2] = 7;
        sta_table[7][9] = 14;
    }

    int get_sta_table_index(int s, string a)
    {
        int i = -1;

        if(a == "=") i = 0;
        else if(a == "+") i = 1;
        else if(a == "-") i = 2;
        else if(a == "*") i = 3;
        else if(a == "/") i = 4;
        else if(a == "(") i = 5;
        else if(a == ")") i = 6;
        else if(a == "id") i = 7;
        else if(a == "$") i = 8;

        if(i != -1)
        {
            return sta_table[s][i];
        }
        else
        {
            return -1;
        }
    }
};

原創文章，作者：MEEZX，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/372714.html