溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

java詞法分析器DDL遞歸怎么應用

發(fā)布時間:2022-07-15 10:12:00 來源:億速云 閱讀:167 作者:iii 欄目:開發(fā)技術(shù)

這篇文章主要講解了“java詞法分析器DDL遞歸怎么應用”,文中的講解內(nèi)容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“java詞法分析器DDL遞歸怎么應用”吧!

intellij plugin

考慮到我們主要是用PyCharm開發(fā),正好jetbrains也提供了SDK用于開發(fā)插件,所以UI層面可以不用額外考慮了。

使用流程很簡單,只需要導入DDL語句就可以生成Python所需要的Model代碼。

例如導入以下 DDL:

CREATE TABLE `user` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `userName` varchar(20) DEFAULT NULL COMMENT '用戶名',
  `password` varchar(100) DEFAULT NULL COMMENT '密碼',
  `roleId` int(11) DEFAULT NULL COMMENT '角色ID',
  PRIMARY KEY (`id`),  
) ENGINE=InnoDB AUTO_INCREMENT=7 DEFAULT CHARSET=utf8

便會生成對應的 Python 代碼:

class User(db.Model):
    __tablename__ = 'user'
    id = db.Column(db.Integer, primary_key=True, autoincrement=True)
    userName = db.Column(db.String)  # 用戶名
    password = db.Column(db.String)  # 密碼
    roleId = db.Column(db.Integer)  # 角色ID

詞法解析

仔細對比源文件及目標代碼會很容易找出規(guī)律,無非就是解析出表名、字段、及字段的屬性(是否為主鍵、類型、長度),最后再轉(zhuǎn)換為Python所需要的模板即可。

在我動手之前我認為是非常簡單的,無非就是解析字符串,但實際上手后發(fā)現(xiàn)不是那么回事;主要是有以下幾個問題:

  • 如何識別出表名稱?

  • 同樣的如何識別出字段名稱,同時還得關(guān)聯(lián)上該字段的類型、長度、注釋。

  • 如何識別出主鍵?

總結(jié)一句話,如何通過一系列規(guī)則識別出一段字符串中的關(guān)鍵信息,這同樣也是 MySQL Server 所做的事情。

在開始真正解析 DDL 之前,先來看下一段簡單的腳本如何解析:

x = 20

按照我們平時開發(fā)的經(jīng)驗,這條語句分為以下幾部分:

  • x表示變量

  • =表示賦值符號

  • 20表示賦值結(jié)果

所以我們對這段腳本的解析結(jié)果應當為:

VAR x

GE =

VAL 100

這個解析過程在編譯原理中稱為”詞法解析“,可能大家聽到編譯原理這幾個字就頭大(我也是);對于剛才那段腳本我們可以編寫一個非常簡單的詞法解析器生成這樣的結(jié)果。

狀態(tài)遷移

再開始之前先捋一下思路,可以看到上文的結(jié)果中通過VAR表示變量、GE表示賦值符號 ”=“、VAL表示賦值結(jié)果,現(xiàn)在需要重點記住這三個狀態(tài)。

在依次讀取字符解析時,程序就是在這幾個狀態(tài)中來回切換,如下圖:

java詞法分析器DDL遞歸怎么應用

  • 默認為初始狀態(tài)。

  • 當字符為字母時進入VAR狀態(tài)。

  • 當字符為 ”=“ 符號時進入GE狀態(tài)。

java詞法分析器DDL遞歸怎么應用

同理,當不滿足這幾個狀態(tài)時候又會回到初始從而再次確認新的狀態(tài)。

光看圖有點抽象,直接來看核心代碼:

public class Result{
    public TokenType tokenType ;
    public StringBuilder text = new StringBuilder();
}

首先定義了一個結(jié)果類,收集最終的解析結(jié)果;其中的TokenType就對應了圖中的三種狀態(tài),簡單的用枚舉值來表示。

public enum TokenType {
    INIT,
    VAR,
    GE,
    VAL
}

首先對應到第一張圖:初始化狀態(tài)。

需要對當前解析的字符定義一個TokenType

java詞法分析器DDL遞歸怎么應用

和圖中描述的流程一致,判斷當前字符給定一個狀態(tài)即可。

接著對應到第二張圖:狀態(tài)之間的轉(zhuǎn)換。

java詞法分析器DDL遞歸怎么應用

會根據(jù)不同的狀態(tài)進入不同的case,在不同的case中判斷是否應當跳轉(zhuǎn)到其他狀態(tài)(進入INIT狀態(tài)后會重新生成狀態(tài))。

舉個例子:x = 20:

首選會進入VAR狀態(tài),接著下一個字符為空格,自然在 38 行中重新進入初始狀態(tài),導致再次確定下一個字符=進入GE狀態(tài)。

當腳本為ab = 30:
第一個字符為 a 也是進入VAR狀態(tài),第二個字符為 b,依然為字母,所以進入 36 行,狀態(tài)不會改變,同時將 b 這個字符追加進來;后續(xù)步驟就和上一個例子一致了。

多說無益,建議大家自己跑一下單測就會明白:

https://github.com/crossoverJie/sqlalchemy-transfer/blob/master/src/test/java/top/crossoverjie/plugin/core/lab/TestLexerTest.java

java詞法分析器DDL遞歸怎么應用

java詞法分析器DDL遞歸怎么應用

DDL 解析

簡單的解析完成后來看看DDL這樣的腳本應當如何解析:

CREATE TABLE `user` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `userName` varchar(20) DEFAULT NULL COMMENT '用戶名',
  `password` varchar(100) DEFAULT NULL COMMENT '密碼',
  `roleId` int(11) DEFAULT NULL COMMENT '角色ID',
  PRIMARY KEY (`id`),  
) ENGINE=InnoDB AUTO_INCREMENT=7 DEFAULT CHARSET=utf8

原理類似,首先還是要看出規(guī)律(也就是語法):

  • 表名是第一行語句,同時以CREATE TABLE開頭。

  • 每一個字段的信息(名稱、類型、長度、備注)都是以 “`” 符號開頭 “,” 結(jié)尾。

  • 主鍵是以 PRIMART 字符串開頭的字段,以)結(jié)尾。

根據(jù)我們需要解析的數(shù)據(jù)種類,我這里定義了這個枚舉:

java詞法分析器DDL遞歸怎么應用

然后在初始化類型時進行判斷賦值:

java詞法分析器DDL遞歸怎么應用

由于需要解析的數(shù)據(jù)不少,所以這里的判斷條件自然也就多了。

遞歸解析

針對于DDL的語法規(guī)則,我們這里還有需要有特殊處理的地方;比如解析具體字段信息時如何關(guān)聯(lián)起來?

舉個例子:

`userName` varchar(20) DEFAULT NULL COMMENT '用戶名',
`password` varchar(100) DEFAULT NULL COMMENT '密碼',

這里我們解析出來的數(shù)據(jù)得有一個映射關(guān)系:

java詞法分析器DDL遞歸怎么應用

所以我們只能一個字段的全部信息解析完成并且關(guān)聯(lián)好之后才能解析下一個字段。

于是這里我采用了遞歸的方式進行解析(不一定是最好的,歡迎大家提出更優(yōu)的方案)。

} else if (value == '`' && pStatus == Status.BASE_INIT) {
    result.tokenType = DDLTokenType.FI;
    result.text.append(value);
}

當當前字符為 ”`“ 符號時,將狀態(tài)置為 “FI”(FieldInfo),同時當解析到為 “,” 符號時便進入遞歸處理。

java詞法分析器DDL遞歸怎么應用

可以理解為將這一段字符串單獨提取出來處理:

`userName` varchar(20) DEFAULT NULL COMMENT '用戶名',

接著再將這段字符遞歸調(diào)用當前方法再次進行解析,這時便按照字段名稱、類型、長度、注釋的規(guī)則解析即可。

同時既然存在遞歸,還需要將子遞歸的數(shù)據(jù)關(guān)聯(lián)起來,所以我在返回結(jié)果中新增了一個pid的字段,這個也容易理解。

默認值為 0,一旦遞歸后便自增 +1,保證每次遞歸的數(shù)據(jù)都是唯一的。

用同樣的方法在解析主鍵時也是先將整個字符串提取出來:

PRIMARY KEY (`id`)

只不過是 “P” 打頭 “)” 結(jié)尾。

} else if (value == 'P' && pStatus == Status.BASE_INIT) {
    result.tokenType = DDLTokenType.P_K;
    result.text.append(value);
}

java詞法分析器DDL遞歸怎么應用

也是將整段字符串遞歸解析,再遞歸的過程中進行狀態(tài)切換P_K ---> P_K_V最終獲取到主鍵。

java詞法分析器DDL遞歸怎么應用

所以通過對剛才那段DDL解析得到的結(jié)果如下:

java詞法分析器DDL遞歸怎么應用

這樣每個字段也通過了pid進行了區(qū)分關(guān)聯(lián)。

所以現(xiàn)在只需要對這個詞法解析器進行封裝,便可以提供一個簡單的API來獲取表中的數(shù)據(jù)了。

java詞法分析器DDL遞歸怎么應用

感謝各位的閱讀,以上就是“java詞法分析器DDL遞歸怎么應用”的內(nèi)容了,經(jīng)過本文的學習后,相信大家對java詞法分析器DDL遞歸怎么應用這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關(guān)知識點的文章,歡迎關(guān)注!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI