結(jié)構(gòu)化文本計(jì)算示例（一）

發(fā)布時(shí)間：2020-07-18 05:16:45 來源：網(wǎng)絡(luò) 閱讀：216 作者：raqsoft 欄目：大數(shù)據(jù)

結(jié)構(gòu)化文本是很常見的文件格式，對(duì)結(jié)構(gòu)化文本的計(jì)算也是很常見的需求。在實(shí)現(xiàn)這種計(jì)算時(shí)，一種很容易想到的辦法是將文件導(dǎo)入數(shù)據(jù)庫(kù)后再計(jì)算，但這會(huì)消耗大量時(shí)間以及昂貴的數(shù)據(jù)庫(kù)資源，而且有的場(chǎng)合下并沒有合適的數(shù)據(jù)庫(kù)可用。這樣一來，我們就會(huì)有一個(gè)自然的想法，如果能夠直接計(jì)算就會(huì)方便多了。可惜的是，一般高級(jí)語言都沒有提供針對(duì)結(jié)構(gòu)化文本的基本運(yùn)算類庫(kù)，而想要通過硬編碼完成這些運(yùn)算又非常繁瑣，不僅代碼復(fù)雜，可維護(hù)性還很差。

作為專業(yè)的結(jié)構(gòu)化數(shù)據(jù)計(jì)算類庫(kù)，集算器SPL封裝了豐富的結(jié)構(gòu)化計(jì)算函數(shù)，支持集合運(yùn)算、關(guān)聯(lián)運(yùn)算、有序運(yùn)算，因此可輕松實(shí)現(xiàn)結(jié)構(gòu)化文本的運(yùn)算。此外，SPL還可以通過JDBC調(diào)用接口向Java應(yīng)用提供運(yùn)算結(jié)果（可參考【Java 如何調(diào)用 SPL 腳本】），極大地方便集成工作。

下面我們就來看一下常見的結(jié)構(gòu)化文本計(jì)算案例，以及SPL對(duì)應(yīng)的解法。

維護(hù)

增加記錄

???????? 在sales.txt的第2行插入1條記錄。源文件如下：

OrderID	Client	SellerId	Amount	OrderDate
26	TAS	1	2142.4	2009-08-05
33	DSGC	1	613.2	2009-08-14
84	GC	1	88.5	2009-10-16
133	HU	1	1419.8	2010-12-12
32	JFS	3	468	2009-08-13
39	NR	3	3016	2010-08-21
43	KT	3	2169	2009-08-27

???????? 代碼

	A
1	=file("D:\\sales.txt").import@t()
2	=A1.insert(2,200,"MS",20,2000,date("2015-02-02"))
3	=file("D:\\sales.txt").export@t(A1)

?????????

結(jié)果????

OrderID	Client	SellerId	Amount	OrderDate
26	TAS	1	2142.4	2009-08-05
200	MS	20	2000	2015-02-02
33	DSGC	1	613.2	2009-08-14
84	GC	1	88.5	2009-10-16
133	HU	1	1419.8	2010-12-12
32	JFS	3	468	2009-08-13
39	NR	3	3016	2010-08-21
43	KT	3	2169	2009-08-27

函數(shù)insert插入記錄，第1個(gè)參數(shù)是插入位置，當(dāng)該參數(shù)為0時(shí)，表示追加記錄。

???????? 如果只是向文件追加記錄，那么不必讀入文件，只需用函數(shù)export@a，代碼如下：

	A
1	=create(OrderID,Client,SellerId,Amount,OrderDate).record([200,"MS",20,2000,date("2015-02-02")])
2	=file("D:\\sales.txt").export@a(A1)

函數(shù)create新建二維表，函數(shù)record向二維表追加記錄。

另外，可以通過insert@r批量插入記錄，代碼如下：

	A
1	=file("D:\\sales.txt").import@t()
2	=create(OrderID,Client,SellerId,Amount,OrderDate)
3	=A2.record([200,"MS",20,2000,date("2015-02-02"), 300,"Ora",30,3000,date("2015-03-03")])
4	=A1.insert@r(2:A2)

???????? 為節(jié)省篇幅起見，下文都將省略導(dǎo)出文件的代碼。

刪除記錄

???????? 刪除sales.txt中的第2條記錄。代碼如下：

	A
1	=file("D:\\sales.txt").import@t()
2	=A1.delete(2)

???????? 函數(shù)delete支持批量刪除，比如刪除第2,3,5,6,7條記錄：A1.delete([2,3]|to(5,7))

???????? 也可以按條件刪除，比如刪除Amount小于1000的記錄：A1.delete(A1.select(Amount<1000))

修改記錄

???????? 修改sales.txt的第2條記錄，將SellerId改為100，Amount改為1000，代碼如下：

	A
1	=file("D:\\sales.txt").import@t()
2	=A1.modify(2,100:SellerId,1000:Amount)

???????? 也可以批量修改，比如將前10條記錄的Amount增加10:

???????? A1.modify(1:10,Amount+10:Amount)

增加列

???????? 在sales.txt增加列year，填入訂單日期OrerDate中的年份。代碼：

	A
1	=file("D:\\sales.txt").import@t()
2	=A1.derive(year(OrderDate):year)

???????? 結(jié)果：

結(jié)構(gòu)化文本計(jì)算示例（一）

刪除列

???????? 物理上刪除列效率較低，通常用“取出保留列”來代替。比如sales.txt中刪除Client、SellerId，相當(dāng)于保留OrderID、Amount、OrderDate，代碼如下：

	A
1	=file("D:\\sales.txt").import@t()
2	=A1.new(OrderID,Amount,OrderDate)

???????? 結(jié)果：

結(jié)構(gòu)化文本計(jì)算示例（一）

修改列

???????? 將sales.txt的Amount列增加10%，代碼如下：

	A
1	=file("D:\\sales.txt").import@t()
2	=A1.run(Amount*1.1:Amount)

結(jié)果：

結(jié)構(gòu)化文本計(jì)算示例（一）

???????? 注意函數(shù)run跟函數(shù)modify的區(qū)別：修改整列（所有記錄的對(duì)應(yīng)字段）需要用run，只修改指定記錄的某列（特定字段）用modify。

基本運(yùn)算

查詢

???????? 指定時(shí)間段，按參數(shù)查詢sales.txt。代碼：

	A
1	=file("D:\\sales.txt").import@t()
2	=A1.select(OrderDate>=startDate ? && OrderDate<=endDate)

???????? startDate和endDate是輸入?yún)?shù)，比如2010-01-01至2010-12-31。結(jié)果：

結(jié)構(gòu)化文本計(jì)算示例（一）

排序

針對(duì)sales.txt，按照客戶代碼(Client)降序排序，按照訂單日期(OrderDate)升序排序。

代碼：

	A
1	=file("D:\\sales.txt").import@t()
2	=A1.sort(-Client,OrderDate)

注意：降序時(shí)在字段前面使用英文的減號(hào)來表示，即“-”，默認(rèn)按照升序。

結(jié)果：

結(jié)構(gòu)化文本計(jì)算示例（一）

分組匯總

計(jì)算出每個(gè)銷售員每年的銷售額和訂單數(shù)，即按照銷售員分組，對(duì)銷售額求和，對(duì)記錄計(jì)數(shù)。

代碼：

	A
1	=file("D:\\sales.txt").import@t()
2	=A1.groups(SellerId,year(OrderDate);sum(Amount),count(~))

函數(shù)groups可在分組的同時(shí)進(jìn)行匯總，其中，~表示每組或當(dāng)前組，count(~)等于count(OrderID)。

結(jié)果：

結(jié)構(gòu)化文本計(jì)算示例（一）

獲得唯一值

列出sales.txt中的客戶名單，即獲取所有Client的唯一值。

代碼：

	A
1	=file("D:\\sales.txt").import@t()
2	=A1.id(Client)

結(jié)果：

結(jié)構(gòu)化文本計(jì)算示例（一）

去除重復(fù)

保留sales.txt中每個(gè)客戶每個(gè)銷售員的第一條記錄。獲取唯一值也是一種去重，這里是另外一種通過分組來去除重復(fù)的方式。

代碼：

	A
1	=file("D:\\sales.txt").import@t()
2	=A1.group@1(Client,SellerId)

通過函數(shù)group進(jìn)行分組（和groups不同，這里可以不匯總），@1表示取每組第1條記錄。

結(jié)果：

結(jié)構(gòu)化文本計(jì)算示例（一）

TopN

???????? 找到每個(gè)銷售員銷售額最大的3筆訂單。

代碼：

	A
1	=file("D:\\sales.txt").import@t()
2	=A1.group(SellerId;~.top(3;-Amount):t).conj(t)

函數(shù)top過濾出TopN，”-”表示逆序，函數(shù)conj用于合并結(jié)果。

計(jì)算結(jié)果：

結(jié)構(gòu)化文本計(jì)算示例（一）

如果只取最大的一筆訂單，還可以用maxp函數(shù)，不過 maxp直接返回表達(dá)式描述的最大記錄，因此不用再加符號(hào)”-”來描述排序方式。由于分組后的字段t的內(nèi)容是記錄，因此不能用conj(t)來合并，而是需要使用A.(t)方式直接取出t字段。所以取每個(gè)銷售的最大一筆訂單表達(dá)式為：=A1.group(SellerId;~.maxp(Amount):t).(t)

向AI問一下細(xì)節(jié)

結(jié)構(gòu)化文本計(jì)算示例（一）

維護(hù)

增加記錄

刪除記錄

修改記錄

增加列

刪除列

修改列

基本運(yùn)算

查詢

排序

分組匯總

獲得唯一值

去除重復(fù)

TopN

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽