C++如何實現(xiàn)xml解析器

發(fā)布時間：2022-08-13 09:51:22 來源：億速云閱讀：234 作者：iii 欄目：開發(fā)技術(shù)

這篇文章主要介紹“C++如何實現(xiàn)xml解析器”，在日常操作中，相信很多人在C++如何實現(xiàn)xml解析器問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”C++如何實現(xiàn)xml解析器”的疑惑有所幫助！接下來，請跟著小編一起來學(xué)習(xí)吧！

xml格式簡單介紹

<?xml version="1.0"?>
<!--這是注釋-->
<workflow>
    <work name="1" switch="on">
        <plugin name="echoplugin.so" switch="on" />
    </work>
</workflow>

我們來簡單觀察下上面的xml文件，xml格式和html格式十分類似，一般用于存儲需要屬性的配置或者需要多個嵌套關(guān)系的配置。

xml一般使用于項目的配置文件，相比于其他的ini格式或者yaml格式，它的優(yōu)勢在于可以將一個標(biāo)簽擁有多個屬性，比如上述xml文件格式是用于配置工作流的，其中有name屬性和switch屬性，且再work標(biāo)簽中又嵌套了plugin標(biāo)簽，相比較其他配置文件格式是要靈活很多的。

具體的應(yīng)用場景有很多，比如使用過Java中Mybatis的同學(xué)應(yīng)該清楚，Mybatis的配置文件就是xml格式，而且也可以通過xml格式進(jìn)行sql語句的編寫，同樣Java的maven項目的配置文件也是采用的xml文件進(jìn)行配置。

而我為什么要寫一個xml解析器呢？很明顯，我今后要寫的C++項目需要用到。

xml格式解析過程淺析

同樣回到之前的那段代碼，實際上已經(jīng)把xml文件格式的不同情況都列出來了。

從整體上看，所有的xml標(biāo)簽分為：

xml聲明（包含版本、編碼等信息）
注釋
xml元素：1.單標(biāo)簽元素。 2.成對標(biāo)簽元素。

其中xml聲明和注釋都是非必須的。而xml元素，至少需要一個成對標(biāo)簽元素，而且在最外層有且只能有一個，它作為根元素。

從xml元素來看，分為：

名稱
屬性
內(nèi)容
子節(jié)點

根據(jù)之前的例子，很明顯，名稱是必須要有的而且是唯一的，其他內(nèi)容則是可選。根據(jù)元素的結(jié)束形式，我們把他們分為單標(biāo)簽和雙標(biāo)簽元素。

代碼實現(xiàn)

完整代碼倉庫：xml-parser

實現(xiàn)存儲解析數(shù)據(jù)的類——Element

代碼如下：

namespace xml
{
    using std::vector;
    using std::map;
    using std::string_view;
    using std::string;
    class Element
    {
    public:
        using children_t = vector<Element>;
        using attrs_t = map<string, string>;
        using iterator = vector<Element>::iterator;
        using const_iterator = vector<Element>::const_iterator;
        string &Name()
        {
            return m_name;
        }
        string &Text()
        {
            return m_text;
        }
        //迭代器方便遍歷子節(jié)點
        iterator begin()
        {
            return m_children.begin();
        }
        [[nodiscard]] const_iterator begin() const
        {
            return m_children.begin();
        }
        iterator end()
        {
            return m_children.end();
        }
        [[nodiscard]] const_iterator end() const
        {
            return m_children.end();
        }
        void push_back(Element const &element)//方便子節(jié)點的存入
        {
            m_children.push_back(element);
        }
        string &operator[](string const &key) //方便key-value的存取
        {
            return m_attrs[key];
        }
        string to_string()
        {
            return _to_string();
        }
    private:
        string _to_string();
    private:
        string m_name;
        string m_text;
        children_t m_children;
        attrs_t m_attrs;
    };
}

上述代碼，我們主要看成員變量。

我們用string類型表示元素的name和text
用vector嵌套表示孩子節(jié)點
用map表示key-value對的屬性

其余的方法要么是Getter/Setter，要么是方便操作孩子節(jié)點和屬性。當(dāng)然還有一個to_string()方法這個待會講。

關(guān)鍵代碼1——實現(xiàn)整體的解析

關(guān)于整體結(jié)構(gòu)我們分解為下面的情形：

C++如何實現(xiàn)xml解析器

代碼如下：

Element xml::Parser::Parse()
{
    while (true)
    {
        char t = _get_next_token();
        if (t != '<')
        {
            THROW_ERROR("invalid format", m_str.substr(m_idx, detail_len));
        }
        //解析版本號
        if (m_idx + 4 < m_str.size() && m_str.compare(m_idx, 5, "<?xml") == 0)
        {
            if (!_parse_version())
            {
                THROW_ERROR("version parse error", m_str.substr(m_idx, detail_len));
            }
            continue;
        }
        //解析注釋
        if (m_idx + 3 < m_str.size() && m_str.compare(m_idx, 4, "<!--") == 0)
        {
            if (!_parse_comment())
            {
                THROW_ERROR("comment parse error", m_str.substr(m_idx, detail_len));
            }
            continue;
        }
        //解析element
        if (m_idx + 1 < m_str.size() && (isalpha(m_str[m_idx + 1]) || m_str[m_idx + 1] == '_'))
        {
            return _parse_element();
        }
        //出現(xiàn)未定義情況直接拋出異常
        THROW_ERROR("error format", m_str.substr(m_idx, detail_len));
    }
}

上述代碼我們用while循環(huán)進(jìn)行嵌套的原因在于注釋可能有多個。

關(guān)鍵代碼2——解析所有元素

C++如何實現(xiàn)xml解析器

對應(yīng)代碼：

Element xml::Parser::_parse_element()
{
    Element element;
    auto pre_pos = ++m_idx; //過掉<
    //判斷name首字符合法性
    if (!(m_idx < m_str.size() && (std::isalpha(m_str[m_idx]) || m_str[m_idx] == '_')))
    {
        THROW_ERROR("error occur in parse name", m_str.substr(m_idx, detail_len));
    }
    //解析name
    while (m_idx < m_str.size() && (isalpha(m_str[m_idx]) || m_str[m_idx] == ':' ||
                                    m_str[m_idx] == '-' || m_str[m_idx] == '_' || m_str[m_idx] == '.'))
    {
        m_idx++;
    }
    if (m_idx >= m_str.size())
        THROW_ERROR("error occur in parse name", m_str.substr(m_idx, detail_len));
    element.Name() = m_str.substr(pre_pos, m_idx - pre_pos);
    //正式解析內(nèi)部
    while (m_idx < m_str.size())
    {
        char token = _get_next_token();
        if (token == '/') //1.單元素，直接解析后結(jié)束
        {
            if (m_str[m_idx + 1] == '>')
            {
                m_idx += 2;
                return element;
            } else
            {
                THROW_ERROR("parse single_element failed", m_str.substr(m_idx, detail_len));
            }
        }
        if (token == '<')//2.對應(yīng)三種情況：結(jié)束符、注釋、下個子節(jié)點
        {
            //結(jié)束符
            if (m_str[m_idx + 1] == '/')
            {
                if (m_str.compare(m_idx + 2, element.Name().size(), element.Name()) != 0)
                {
                    THROW_ERROR("parse end tag error", m_str.substr(m_idx, detail_len));
                }
                m_idx += 2 + element.Name().size();
                char x = _get_next_token();
                if (x != '>')
                {
                    THROW_ERROR("parse end tag error", m_str.substr(m_idx, detail_len));
                }
                m_idx++; //千萬注意把 '>' 過掉，防止下次解析被識別為初始的tag結(jié)束，實際上這個element已經(jīng)解析完成
                return element;
            }
            //是注釋的情況
            if (m_idx + 3 < m_str.size() && m_str.compare(m_idx, 4, "<!--") == 0)
            {
                if (!_parse_comment())
                {
                    THROW_ERROR("parse comment error", m_str.substr(m_idx, detail_len));
                }
                continue;
            }
            //其余情況可能是注釋或子元素，直接調(diào)用parse進(jìn)行解析得到即可
            element.push_back(Parse());
            continue;
        }
        if (token == '>') //3.對應(yīng)兩種情況：該標(biāo)簽的text內(nèi)容，下個標(biāo)簽的開始或者注釋（直接continue跳到到下次循環(huán)即可
        {
            m_idx++;
            //判斷下個token是否為text，如果不是則continue
            char x = _get_next_token();
            if (x == '<')//不可能是結(jié)束符，因為xml元素不能為空body，如果直接出現(xiàn)這種情況也有可能是中間夾雜了注釋
            {
                continue;
            }
            //解析text再解析child
            auto pos = m_str.find('<', m_idx);
            if (pos == string::npos)
                THROW_ERROR("parse text error", m_str.substr(m_idx, detail_len));
            element.Text() = m_str.substr(m_idx, pos - m_idx);
            m_idx = pos;
            //注意：有可能直接碰上結(jié)束符，所以需要continue，讓element里的邏輯來進(jìn)行判斷
            continue;
        }
        //4.其余情況都為屬性的解析
        auto key = _parse_attr_key();
        auto x = _get_next_token();
        if (x != '=')
        {
            THROW_ERROR("parse attrs error", m_str.substr(m_idx, detail_len));
        }
        m_idx++;
        auto value = _parse_attr_value();
        element[key] = value;
    }
    THROW_ERROR("parse element error", m_str.substr(m_idx, detail_len));
}

開發(fā)技巧

無論是C++開發(fā)，還是各種其他語言的造輪子，在這個造輪子的過程中，不可能是一帆風(fēng)順的，需要不斷的debug，然后再測試，然后再debug。。。實際上這類格式的解析，單純的進(jìn)行程序的調(diào)試效率是非常低下的！

特別是你用的語言還是C++，那么如果出現(xiàn)意外宕機(jī)行為，debug幾乎是不可能簡單的找出原因的，所以為了方便調(diào)試，或者是意外宕機(jī)行為，我們還是多做一些錯誤、異常處理的工作比較好。

比如上述的代碼中，我們大量的用到了 THROW_ERROR 這個宏，實際上這個宏輸出的內(nèi)容是有便于調(diào)試和快速定位的。具體代碼如下：

//用于返回較為詳細(xì)的錯誤信息，方便錯誤追蹤
#define THROW_ERROR(error_info, error_detail) \
    do{                                    \
    string info = "parse error in ";              \
    string file_pos = __FILE__;                          \
    file_pos.append(":");                                \
    file_pos.append(std::to_string(__LINE__));\
    info += file_pos;                                  \
    info += ", ";                          \
    info += (error_info);                    \
    info += "\ndetail:";                          \
    info += (error_detail);\
    throw std::logic_error(info); \
}while(false)

如果發(fā)生錯誤，這個異常攜帶的信息如下：

C++如何實現(xiàn)xml解析器

打印出了兩個非常關(guān)鍵的信息：

內(nèi)部的C++代碼解析拋出異常的位置

解析發(fā)生錯誤的字符串

按理來說這些信息應(yīng)該是用日志來進(jìn)行記錄的，但是由于這個項目比較小型，直接用日常信息當(dāng)日志來方便調(diào)試也未嘗不可????

有關(guān)C++的優(yōu)化

眾所周知在C++中，一個類有八個默認(rèn)函數(shù)：

默認(rèn)構(gòu)造函數(shù)
默認(rèn)拷貝構(gòu)造函數(shù)
默認(rèn)析構(gòu)函數(shù)
默認(rèn)重載賦值運(yùn)算符函數(shù)
默認(rèn)重載取址運(yùn)算符函數(shù)
默認(rèn)重載取址運(yùn)算符const函數(shù)
默認(rèn)移動構(gòu)造函數(shù)（C++11）
默認(rèn)重載移動賦值操作符函數(shù)（C++11）

我們一般情況需要注意的構(gòu)造函數(shù)和賦值函數(shù)函數(shù)需要的是以下三類：

拷貝構(gòu)造。
移動構(gòu)造。
析構(gòu)函數(shù)。

以下面的代碼為例來說明默認(rèn)的行為：

class Data{
    ...
}
class test{
pvivate:
    Data m_data;
}

額外注意

默認(rèn)情況的模擬

class Data{
    ...
}
class test{
public:
    //拷貝構(gòu)造
    test(test const&src) = default;//等價于下面的代碼
    //test(test const& src):m_data(src.m_data){}
    //移動構(gòu)造
    test(test &&src) = default;//等價于下面代碼
    //tset(test&& src):m_data(std::move(src.m_data)){}
pvivate:
    Data m_data;
}

從上述情況可以看出，如果一個類的數(shù)據(jù)成員中含有原始指針數(shù)據(jù)，那么拷貝構(gòu)造和移動構(gòu)造都需要自定義，如果成員中全都用的標(biāo)準(zhǔn)庫里的東西，那么我們就用默認(rèn)的就行，因為標(biāo)準(zhǔn)庫的所有成員都自己實現(xiàn)了拷貝和移動構(gòu)造！比如我們目前的Element就全都用默認(rèn)的就好。

需要特別注意的點

顯式定義了某個構(gòu)造函數(shù)或者賦值函數(shù)，那么相應(yīng)的另一個構(gòu)造或者賦值就會被刪除默認(rèn)，需要再次顯式定義了。舉個例子：比如我顯式定義了移動構(gòu)造（關(guān)于顯式定義，手動創(chuàng)建算顯式，手動寫default也算顯示），那么就會造成所有的默認(rèn)拷貝（拷貝構(gòu)造和拷貝賦值）被刪除。相反顯式定義了移動賦值也是類似的，默認(rèn)的拷貝行為被刪除。拷貝的對于顯式的默認(rèn)行為處理也是一模一樣。
如果想要使用默認(rèn)的構(gòu)造/賦值函數(shù)，那么對應(yīng)的成員也都必須支持。例如以下代碼：

class Data{
    ...
}
class test{
pvivate:
    Data m_data;
}

由于test類沒有寫任何構(gòu)造函數(shù)，那么這8個默認(rèn)構(gòu)造函數(shù)按理來說都是有的，但如果Data類中的拷貝構(gòu)造由于某些顯式定義情況而被刪除了，那么test類就不再支持拷貝構(gòu)造（對我們造成的影響就是：沒法再直接通過等號初始化）。

最后，通過上述規(guī)則我們發(fā)現(xiàn)，如果想要通過默認(rèn)的構(gòu)造函數(shù)偷懶，那么首先你的成員得支持對應(yīng)的構(gòu)造函數(shù)，還有就是不要畫蛇添足：比如本來我什么都不用寫，它自動生成8大默認(rèn)函數(shù)，然后你手寫了一個拷貝構(gòu)造=default，好了，你的默認(rèn)函數(shù)從此少了兩個，又得你一個個手動去補(bǔ)了！

故如果成員變量對移動和拷貝行為都是支持的，那么你就千萬不要再畫蛇添足了，除非你需要自定義某些特殊行為（比如打日志什么的）。如果你的成員變量中含有原始指針，那么一定需要手動寫好移動和拷貝行為。如果成員變量對拷貝和移動行為部分支持，那么根據(jù)你的使用情況來進(jìn)行選擇是否需要手動補(bǔ)充這些行為！

到此，關(guān)于“C++如何實現(xiàn)xml解析器”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識，請繼續(xù)關(guān)注億速云網(wǎng)站，小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>

向AI問一下細(xì)節(jié)

C++如何實現(xiàn)xml解析器

xml格式簡單介紹

xml格式解析過程淺析

代碼實現(xiàn)

實現(xiàn)存儲解析數(shù)據(jù)的類&mdash;&mdash;Element

關(guān)鍵代碼1&mdash;&mdash;實現(xiàn)整體的解析

關(guān)鍵代碼2&mdash;&mdash;解析所有元素

開發(fā)技巧

有關(guān)C++的優(yōu)化

額外注意

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽

實現(xiàn)存儲解析數(shù)據(jù)的類——Element

關(guān)鍵代碼1——實現(xiàn)整體的解析

關(guān)鍵代碼2——解析所有元素