關於字符串解析的一點理解（以解析一段HTML字符串為例）詳情 - 前端,算法,template-engine,vue-loader,webpack 你好2007 博客

在分析一段字符串的時候，可以藉助字符串的indexOf等方法，或者是正則表達式，可是，如果需要解析的是下面這段字符串：

<group>
    <arc c-bind:cx='_width*0.5' c-bind:cy='_height*0.5' c-bind:radius1='_min*0.5' radius2='100' deg='120deg'>
    </arc>
    <group c-for='value in dataList'>
        <circle c-bind:cx='value' c-on:click='doit0' c-bind:cy='value' radius='10'></circle>
        <text c-bind:x='value+20' c-bind:y='value' c-bind:content='value' fill-color='red'></text>
    </group>
    <path>
        <move-to x='10' y='10'></move-to>
        <line-to x='100' y='100'></line-to>
    </path>
    <text c-bind:x='_width*0.5' c-bind:y='_height*0.5'>文字</text>
</group>

什麼時候可能會需要解析類似這樣的字符串？比如你可能希望的nodejs環境開發一個爬蟲，分析爬到的頁面內容，或者是像上面的設計，用html來表達希望繪製什麼樣的圖形後通過js在canvas畫布上繪製出用户的意圖等。

下面，我們來一起看看，具體的怎麼一步步分析處理上面的字符串包含的信息的。

我們把分析分為這幾個步驟：分析出符號 → 分析出單詞 → 單詞信息分析 → 獲取整體信息

## 分析出符號

我們把一個最小的類似"語句"的稱為單詞（和編譯原理中的單詞加以區分），比如這裏的一個標籤，而為了得到單詞，首先需要分析的稱為符號。比如對 "<div>你好</div>"而言，就存在三個符號： "<div>"、"你好"和"</div>"。

因此，符號就是容易分析出且在此基礎上很容易分析出單詞的存在，具體什麼是符號，取決於分析的內容和目標。

上面的內容，分析出符號的最終結果就是：

比如第二個符號，原始代碼是"<arc c-bind:cx='_width*0.5' c-bind:cy='_height*0.5' c-bind:radius1='_min*0.5' radius2='100' deg='120deg'>"，經過分析得到，他是一個標籤的開始部分，名稱叫arc，有一些屬性等。

那麼，這樣的符號是如何分析出來的？很簡單，通過while循環即可。

在分析一個符號開始前，如果遇到的第一個非空白字符是"<"，説明這是一個標籤（可能是開始、結束或自閉合的），直到遇到">"的時候，分析結束，也就是獲取了一個符號。

而如果在分析一個符號開始前，遇到的第一個非空白字符不是"<"，説明這是一段文本，等遇到"<"的時候，回退一步即可獲得一段文本符號。

而對於標籤符號，只要在分析的時候額外加些判斷，就可以獲取更豐富的信息並獲取屬性值等。從而，就得到了上面的符號列表。

## 分析出單詞

在上面符號列表的基礎上，我們接下來將分析出下面的單詞列表：