溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

專利:結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議

發(fā)布時間:2020-07-20 13:40:14 來源:網(wǎng)絡 閱讀:353 作者:fanyzidb 欄目:數(shù)據(jù)庫

發(fā)明專利技術(shù)

結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議

發(fā)明人:樊永正

269779216@qqqq.com

技術(shù)領(lǐng)域

結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是一種通信協(xié)議,也是一種讓數(shù)據(jù)成為合格的結(jié)構(gòu)化大數(shù)據(jù)的技術(shù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議也類似于ETL,ETL是處理現(xiàn)有的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)的問題,而結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是在設計信息系統(tǒng)之初就開始預防數(shù)據(jù)產(chǎn)生問題。ETL是為數(shù)據(jù)治病,結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是預防數(shù)據(jù)產(chǎn)生疾病。ETL是對現(xiàn)有技術(shù)所產(chǎn)生的問題進行小修小補,結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議提出了新的數(shù)據(jù)處理方案。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議也是一種軟件開發(fā)模式,利用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所建立的各種信息系統(tǒng)都是大數(shù)據(jù)信息系統(tǒng),只要以鏡像的方式把各大數(shù)據(jù)信息系統(tǒng)中的數(shù)據(jù)上傳到大數(shù)據(jù)中心即可累加成合格的結(jié)構(gòu)化大數(shù)據(jù)。合格的結(jié)構(gòu)化大數(shù)據(jù)是不經(jīng)ETL轉(zhuǎn)換即可高效挖掘的結(jié)構(gòu)化數(shù)據(jù)。

背景技術(shù)

隨著大數(shù)據(jù)時代的到來,人們發(fā)現(xiàn)各行各業(yè)已有很多信息系統(tǒng),然而信息系統(tǒng)雖多卻不能滿足大數(shù)據(jù)時代的需求,信息孤島嚴重,難以互聯(lián)互通,數(shù)據(jù)共享困難,各行各業(yè)已有很多數(shù)據(jù),然而數(shù)據(jù)雖多,卻難以高效挖掘。目前是利用關(guān)系數(shù)據(jù)庫來解決這些問題,但只能解決局部的問題,不能從根本上解決問題。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是針對這些問題而創(chuàng)立的。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議來源于模仿大腦記憶、聯(lián)想、思維,始于1982年,那時想讓計算機模仿大腦的聯(lián)想功能。

發(fā)明內(nèi)容

結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是通過對數(shù)據(jù)的優(yōu)化及軟件開發(fā)模式的改變而避免信息孤島問題、互聯(lián)互通問題、數(shù)據(jù)共享問題產(chǎn)生,并使數(shù)據(jù)容易挖掘。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議可使數(shù)據(jù)具有12個技術(shù)特性:“唯一性、歸屬性、可識別性、獨立性、完整性、規(guī)范性、與系統(tǒng)的耦合性(耦合度為零)、結(jié)構(gòu)統(tǒng)一性、可累加性、可移植性、時間性、真實性”,只有同時滿足12個技術(shù)特性的數(shù)據(jù)才是合格的結(jié)構(gòu)化大數(shù)據(jù)。

發(fā)明所要解決的技術(shù)問題

發(fā)明所要解決的技術(shù)問題是大數(shù)據(jù)4V中“數(shù)據(jù)類型多(Variety)”問題及“數(shù)據(jù)速度快(velocity)”問題。所針對的具體的技術(shù)問題:各行各業(yè)已有很多信息系統(tǒng),然而信息系統(tǒng)雖多卻不能滿足大數(shù)據(jù)時代的需求,信息孤島嚴重,難以互聯(lián)互通,數(shù)據(jù)共享困難;各行各業(yè)已有很多數(shù)據(jù),然而數(shù)據(jù)雖多,卻難以高效挖掘。

有益效果

實現(xiàn)互聯(lián)互通、數(shù)據(jù)共享容易,查詢速度快,數(shù)據(jù)挖掘容易。

具體實施方式

結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的創(chuàng)新表現(xiàn)在如下5個方面:

1、首次提出了結(jié)構(gòu)化大數(shù)據(jù)的12個技術(shù)特性,只有同時滿足12個技術(shù)特性的數(shù)據(jù)才能成為合格的結(jié)構(gòu)化大數(shù)據(jù)。為使數(shù)據(jù)滿足12個技術(shù)特性,創(chuàng)立了與12個技術(shù)特性相對應的12個數(shù)據(jù)優(yōu)化方法。

2、通信的基礎(chǔ)是雙方必須采用同一個協(xié)議。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所提出的“結(jié)構(gòu)化大數(shù)據(jù)的12個技術(shù)特性”就是結(jié)構(gòu)化數(shù)據(jù)互聯(lián)互通的“通信協(xié)議”。

3、在結(jié)構(gòu)化大數(shù)據(jù)的每一條數(shù)據(jù)中都增加了體現(xiàn)“數(shù)據(jù)的唯一性”和“數(shù)據(jù)的歸屬性”的數(shù)據(jù)項?,F(xiàn)有數(shù)據(jù)庫技術(shù)由于都是用于處理小數(shù)據(jù),都沒有考慮這兩個數(shù)據(jù)項的作用,現(xiàn)有的數(shù)據(jù)中也都沒有這兩個數(shù)據(jù)項。這兩個數(shù)據(jù)項是表明一個數(shù)據(jù)是不是合格的結(jié)構(gòu)化大數(shù)據(jù)的關(guān)鍵數(shù)據(jù)項。

4、特別強調(diào)數(shù)據(jù)的標準化、規(guī)范化。因為大數(shù)據(jù)環(huán)境中,標準化、規(guī)范化的數(shù)據(jù)能自動模仿大腦的聯(lián)想功能,從而大幅度提高查詢數(shù)據(jù)的速度和靈活性。關(guān)系數(shù)據(jù)庫對數(shù)據(jù)不加任何限制,完全由數(shù)據(jù)庫的設計人員自己定義;結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議對數(shù)據(jù)的限制非常嚴格,絕對不充許設計人員任意定義數(shù)據(jù),所有數(shù)據(jù)都必須是規(guī)范的,這也是讓大數(shù)據(jù)容易挖掘的一項重要措施。

5、利用結(jié)構(gòu)化大數(shù)據(jù)的12個技術(shù)特性為大數(shù)據(jù)的真實性提供保障。小數(shù)據(jù)只是在某個單位內(nèi)部使用,大數(shù)據(jù)是在很多單位之間使用,因此大數(shù)據(jù)的真實性、公證性、權(quán)威、不可悔改性就顯得非常重要。

結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議在對數(shù)據(jù)優(yōu)化時是以“萬能數(shù)據(jù)結(jié)構(gòu)表”(如表一所示)來存貯數(shù)據(jù),“萬能數(shù)據(jù)結(jié)構(gòu)表”可以用一張表存貯各種各樣的結(jié)構(gòu)化數(shù)據(jù)。

表一:萬能數(shù)據(jù)結(jié)構(gòu)表存貯數(shù)據(jù)的例子

ID

事物代號

事物屬性

事物屬性值

超長屬性值

單位

附件

時間

1099

1280

數(shù)據(jù)來源

廣州第一醫(yī)院




2014.5.3

1100

1280

事物分類

病歷




2014.5.3

1101

1280

事物分類

住院病歷




2014.5.3

1102

1280

事物分類

醫(yī)療費用




2014.5.3

1103

1280

×××號

XXXXXXXXXX




2014.5.3

1104

1280

住院號

XXXXXXXXXX




2014.5.3

1105

1280

姓名

張三




2014.5.3

1106

1280

性別




2014.5.3

1107

1280

中藥費

56



2014.5.3

1108

1280

西藥費

72



2014.5.3

1109

1280

其它費用

180



2014.5.3

說明1:合格的結(jié)構(gòu)化大數(shù)據(jù)的12個技術(shù)特性及12個數(shù)據(jù)優(yōu)化方法

合格的結(jié)構(gòu)化大數(shù)據(jù)具有12個技術(shù)特性,或者說只有同時滿足12個技術(shù)特性的結(jié)構(gòu)化數(shù)據(jù)才是合格的結(jié)構(gòu)化大數(shù)據(jù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是使結(jié)構(gòu)化數(shù)據(jù)滿足12個技術(shù)特性的方法。為使數(shù)據(jù)擁有結(jié)構(gòu)化大數(shù)據(jù)的12個技術(shù)特性,結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議提出了12種相應的數(shù)據(jù)優(yōu)化方法。

1、數(shù)據(jù)的唯一性

數(shù)據(jù)的唯一性:同一事物的各種數(shù)據(jù)在生存周期中,在不同的信息系統(tǒng)中,都應該是唯一的、可識別的,不能因時間、空間的變化而變成不可識別的數(shù)據(jù)。

數(shù)據(jù)的唯一性所針對的問題:當前的同一事物的各種數(shù)據(jù)在不同的信息系統(tǒng)中的表達形式各不相同,在大數(shù)據(jù)挖掘時難以準確地識別。例如,同一商品,在不同的經(jīng)銷商的信息系統(tǒng)中具有不同的編碼;同一患者在不同的醫(yī)院就醫(yī)時,患者的住院號各不相同,在大數(shù)據(jù)環(huán)境中查患者病史時,會因為與患者相關(guān)的數(shù)據(jù)沒有一個統(tǒng)一的標識碼而難以查詢。

數(shù)據(jù)優(yōu)化方法一:讓同一事物的所有數(shù)據(jù),在不同的時間、空間、環(huán)境中,都必須含有一個(或若干個)唯一的、統(tǒng)一的大數(shù)據(jù)識別碼。大數(shù)據(jù)識別碼是數(shù)據(jù)的×××、車牌號。大數(shù)據(jù)識別碼與關(guān)系數(shù)據(jù)庫中的ID有本質(zhì)的差異,ID只是在一張表的范圍內(nèi)標識數(shù)據(jù),大數(shù)據(jù)識別碼是在大數(shù)據(jù)的范圍內(nèi)標識數(shù)據(jù)。

大數(shù)據(jù)范圍:不同的大數(shù)據(jù)所涉及到的范圍不同。在國際貿(mào)易中,大數(shù)據(jù)范圍是全球,國家醫(yī)療大數(shù)據(jù)的大數(shù)據(jù)范圍是醫(yī)療行業(yè),廣州大數(shù)據(jù)的數(shù)據(jù)范圍是廣州市。

大數(shù)據(jù)識別碼可分為兩種,一種是某個具體事物的識別碼,猶如設備的序列號,但與設備的序列號有本質(zhì)的差異,設備序列號是企業(yè)自己編寫的,大數(shù)據(jù)識別碼需要按國際統(tǒng)一的標準來編碼;另一種是某類事物的識別碼。例如,在了解某種型號的手機在各個經(jīng)銷商的銷售情況時,就需要該種型號手機的大數(shù)據(jù)識別碼,因為手機由全世界數(shù)十萬個經(jīng)銷商銷售,手機廠家需要與全世界數(shù)十萬信息系統(tǒng)互聯(lián)互通。與人相關(guān)的數(shù)據(jù)全應含有×××號,以確保在全球范圍內(nèi),在任何時間段,與某人相關(guān)的數(shù)據(jù)都是唯一的,可識別為同一個人的。大數(shù)據(jù)會涉及到多個不同的信息系統(tǒng),而小數(shù)據(jù)只是在同一個信息系統(tǒng)中生存,因此在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)的唯一性就非常重要,沒有統(tǒng)一的、標準的、規(guī)范的識別碼會導致數(shù)據(jù)挖掘非常困難。數(shù)據(jù)的唯一性是大數(shù)據(jù)挖掘、分析的基礎(chǔ)。大數(shù)據(jù)識別碼必須使可以方便數(shù)據(jù)分類統(tǒng)計。

2、數(shù)據(jù)的歸屬性

數(shù)據(jù)的歸屬性:數(shù)據(jù)不僅要反映事物的各種屬性,也要反映出數(shù)據(jù)是歸誰所有(或者說由誰采集、或者說從何而來)。

數(shù)據(jù)優(yōu)化方法二:每一個事物的數(shù)據(jù)中都要含有“數(shù)據(jù)來源”數(shù)據(jù)項?!皵?shù)據(jù)來源”是結(jié)構(gòu)化數(shù)據(jù)具有了“歸屬性”,一般情況下,可用單位名稱來表示“數(shù)據(jù)來源”。

大數(shù)據(jù)源于成千上萬家單位,若不標明“數(shù)據(jù)來源”,在大數(shù)據(jù)挖掘時會引起識別混亂。

3、數(shù)據(jù)的識別性

數(shù)據(jù)的識別性:是指讓信息系統(tǒng)可識別,讓人也可識別。進一步而言,不但要讓自己的信息系統(tǒng)識別,也要能讓他人的信息系統(tǒng)識別,不但要讓自己能識別,也要讓他人能識別。

數(shù)據(jù)的識別性所針對的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只有數(shù)據(jù)庫的設計人員自己和自己的信息系統(tǒng)可識別。其它人、其它信息系統(tǒng)只能通過軟件對數(shù)據(jù)庫中的數(shù)據(jù)進行解釋、注釋、翻譯之后才能識別。

數(shù)據(jù)優(yōu)化方法三:以適當?shù)娜哂嗍箶?shù)據(jù)可識別,盡量用標準的、規(guī)范的自然語言來表達數(shù)據(jù),盡量避免用代碼來表達數(shù)據(jù)。在對數(shù)據(jù)進行優(yōu)化時的原則是“讓相應領(lǐng)域的技術(shù)人員能看懂,讓別人的信息系統(tǒng)也能識別,而不能只是數(shù)據(jù)庫的設計人員能看懂,也不只是自己的系統(tǒng)能識別?!?/span>

在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)的最重要、最關(guān)鍵的一個特性就是“數(shù)據(jù)的識別性”。關(guān)系數(shù)據(jù)庫的一個策略是:盡量減少數(shù)據(jù)冗余。關(guān)系數(shù)據(jù)庫在降低了數(shù)據(jù)冗余的同時卻增加了識別數(shù)據(jù)的難度。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略與關(guān)系數(shù)據(jù)庫正好相反。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略:以適當?shù)娜哂喽箶?shù)據(jù)具有可識別性,從而使數(shù)據(jù)可以讓他人讀懂,也讓他人的信息系統(tǒng)能識別。

關(guān)系數(shù)據(jù)庫是一種“數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)、程序、數(shù)據(jù)庫系統(tǒng)四者密不可分的數(shù)據(jù)庫”。因為關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)脫離具體的表結(jié)構(gòu)和程序以后就變成了無意義的數(shù)據(jù),關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只有在特定的表中才具有意義。

“萬能數(shù)據(jù)結(jié)構(gòu)表”是一種“數(shù)據(jù)與程序無關(guān)的數(shù)據(jù)結(jié)構(gòu)”,或者說是一種“是什么就是什么,與程序無關(guān)”。因為“萬能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)脫離其數(shù)據(jù)結(jié)構(gòu)后,其數(shù)據(jù)的真實含義不變。“萬能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)是用標準的、規(guī)范的自然語言而表達的,只要懂自然語言,誰都可以看懂“萬能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)的真實含義。

從表面上看,關(guān)系數(shù)據(jù)庫減少了數(shù)據(jù)冗余,這是其一大優(yōu)點。然而,這也是關(guān)系數(shù)據(jù)庫的最大缺點之一。關(guān)系數(shù)據(jù)庫在減少了數(shù)據(jù)冗余的同時,也導致了數(shù)據(jù)失真。數(shù)據(jù)失真的結(jié)果就導致了“信息交換、信息孤島、數(shù)據(jù)挖掘難”等等問題。在關(guān)系數(shù)據(jù)庫中,只有通過編寫大量的程序,才能解決數(shù)據(jù)失真問題。無數(shù)事實表明,關(guān)系數(shù)據(jù)庫因數(shù)據(jù)冗余問題而付出了非常高昂的代價。當“數(shù)據(jù)與程序密不可分”時,要存貯、讀取、查詢數(shù)據(jù)就必須編寫大量的程序。當“數(shù)據(jù)與程序無關(guān)時”,只要編寫一個通用的程序,其它人借助這個程序就可以非常方便地存貯、讀取、查詢數(shù)據(jù),而不必每開發(fā)一個數(shù)據(jù)庫都開發(fā)大量的軟件。

結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的一個原則:基本上不考慮數(shù)據(jù)冗余問題,以空間換取智能和使用方便,讓數(shù)據(jù)自己說話,而不是讓程序替數(shù)據(jù)說話。而關(guān)系數(shù)據(jù)則是通過應用程序而代替數(shù)據(jù)說話。用數(shù)據(jù)代替程序:寧愿增加大量的“冗余”,也要使數(shù)據(jù)具有獨立性、完整性、可識別性?;蛘哒f為了使數(shù)據(jù)具有獨立性、完整性、可識別性,不考慮數(shù)據(jù)冗余問題,無論增加多少冗余都可以。在用關(guān)系數(shù)據(jù)庫設計信息系統(tǒng)時,總是用程序來解讀數(shù)據(jù)庫中的數(shù)據(jù)。這種策略所帶來的嚴重惡果就是在處理數(shù)據(jù)時需要編寫大量的程序,不編寫程序就無法處理數(shù)據(jù)。

  • 結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略:不惜一切代價,讓數(shù)據(jù)自己說話,杜絕用程序當翻譯!

 “讓數(shù)據(jù)自已說話”的目的是:無論把一個數(shù)據(jù)放到任何地方、任何環(huán)境中都能獨立地、完整地表達出同樣的、完整的含義。在大數(shù)據(jù)時代,一個數(shù)據(jù)會出現(xiàn)在不同的信息系統(tǒng)中,因此,必須確保數(shù)據(jù)在不同的信息系統(tǒng)中、不同的環(huán)境中都有相同的含義。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議使數(shù)據(jù)具有“獨立性、完整性、識別性、唯一性、歸屬性”的目的就是讓數(shù)據(jù)自己說話,在大數(shù)據(jù)環(huán)境中,這樣可以大幅度地減少編寫程序的數(shù)量。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)沒有獨立性,也沒有完整性,關(guān)系數(shù)據(jù)庫做不到“讓數(shù)據(jù)自己說話”。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)需要借助各種“關(guān)系”才能表達出完整的含義。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議可以讓數(shù)據(jù)自己說話,而關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)需要配備“七大姑八大姨”的“關(guān)系”才能準確地表達出相應的含義。

關(guān)系數(shù)據(jù)庫的“七大姑八大姨”的“關(guān)系”:數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)具有密不可分的關(guān)系,數(shù)據(jù)與表結(jié)構(gòu)具有密不可分的關(guān)系,數(shù)據(jù)與應用程序具有密不可分的關(guān)系,數(shù)據(jù)與數(shù)據(jù)庫中的眾多表之間具有密不可分的關(guān)系。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)必須依靠關(guān)系數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型、應用程序才具有意義。當關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)脫離了相應的關(guān)系數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型、應用程序之后就變成了無意義的數(shù)據(jù)。當前的信息系統(tǒng)所存在的“信息孤島問題、信息交換問題、數(shù)據(jù)接口問題、互聯(lián)互通問題、系統(tǒng)的升級換代問題”等等,都是由于關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)不能自己說話而造成的。

用關(guān)系數(shù)據(jù)庫系統(tǒng)設計電子病歷系統(tǒng)時,對“患者基本情況”會采用如下形式:

表二:患者基本情況表(關(guān)系數(shù)據(jù)庫中的表)

ID

HZXM

GZDW

ZB

XB

ZZ

NL

RQ

HF

BXRQ

MZ

CSZ

26

胡鳳

橡膠廠

工人

0

蒙古路2

32

1991-4-3

1991-4-3

本人

上述形式的數(shù)據(jù)是小數(shù)據(jù)時代的經(jīng)典結(jié)構(gòu)形式。其實“字段名”也是很重要的信息,必須用標準的、規(guī)范的自然語言來描述?!盎颊呋厩闆r”經(jīng)過結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議進行優(yōu)化之后,在“萬能數(shù)據(jù)結(jié)構(gòu)表”中的表達形式:

表三:患者基本情況表(萬能數(shù)據(jù)結(jié)構(gòu)表)

ID

事物代號

事物屬性

事物屬性值

超長屬性值

單位

附件

時間

100

1001

數(shù)據(jù)來源

上海市第一醫(yī)院





101

1001

事物分類

病歷





102

1001

事物分類

住院病歷





103

1001

事物分類

入院病歷





104

1001

事物分類

患者基本情況





105

1001

患者編號

SH10-199103Z21





106

1001

健康卡號

XXXXXXXXXXXX09





107

1001

×××號

XXXXXXXXXXXXXX





108

1001

姓名

胡風





109

1001

工作單位

上海橡膠廠





110

1001

職別

工人





111

1001

性別





112

1001

住址

蒙古路20





113

1001

年齡

32





114

1001

入院日期

1991-4-30





115

1001

婚否

已婚





116

1001

病史采取日期

1991-4-30





117

1001

民族





118

1001

病情陳述者

本人





通過上述兩張表的對比發(fā)現(xiàn),用“萬能數(shù)據(jù)結(jié)構(gòu)表”所表達的信息是一種完全用自然語言所表達的不失真的信息,這種信息無論放在什么地方其含義都是一樣的。

從表面上看用“萬能數(shù)據(jù)結(jié)構(gòu)表”所存貯的信息會多占據(jù)一倍左右的存貯空間,但這樣存貯數(shù)據(jù)可以減少很多復雜的數(shù)據(jù)抽取、轉(zhuǎn)換工作。“萬能數(shù)據(jù)結(jié)構(gòu)表”中的“數(shù)據(jù)冗余”就是讓“數(shù)據(jù)自己說話”,讓數(shù)據(jù)不依賴數(shù)據(jù)庫系統(tǒng)、不依賴數(shù)據(jù)結(jié)構(gòu),不依賴數(shù)據(jù)類型,不依賴應用程序。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略是“以空間換智能及使用方便”。與30年前相比,目前硬盤的存貯容量已提高了10萬倍以上,多占據(jù)一倍左右的存貯空間的代價很低,可以忽略不計?!白寯?shù)據(jù)自己說話”就是讓數(shù)據(jù)猶如自然語言那樣,可以準確、無誤地表達應有的含義,不需要注釋,也不需要應用程序的解讀。

4、數(shù)據(jù)的獨立性

數(shù)據(jù)的獨立性:數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應用程序而獨立地表達出某種含義。

針對的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具有獨立性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應用程序才能解讀數(shù)據(jù)的含義。關(guān)系數(shù)據(jù)庫中的很多表的字段名用的是不規(guī)范的字母縮寫,在呈現(xiàn)給用戶時,需要通過信息系統(tǒng)為表加上表頭才能表達出數(shù)據(jù)的真正含義。

數(shù)據(jù)優(yōu)化方法四:通過一定的數(shù)據(jù)冗余而是數(shù)據(jù)可以自己說話,讓“數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應用程序而獨立地表達出某種含義”,如上表三所示的萬能數(shù)據(jù)結(jié)構(gòu)表可實現(xiàn)數(shù)據(jù)的獨立性。

5、數(shù)據(jù)的完整性

數(shù)據(jù)的完整性:數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應用程序而完整地表達出某種含義。

針對的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具有完整性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應用程序才能解讀數(shù)據(jù)完整的含義。

數(shù)據(jù)優(yōu)化方法五:通過一定的數(shù)據(jù)冗余而是數(shù)據(jù)可以自己說話,讓“數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應用程序而獨立地表達出某種含義”,如上表三所示的萬能數(shù)據(jù)結(jié)構(gòu)表可實現(xiàn)數(shù)據(jù)的獨立性。

6、數(shù)據(jù)的規(guī)范性

數(shù)據(jù)的規(guī)范性:數(shù)據(jù)應為標準的、規(guī)范的、統(tǒng)一的、無歧義的。

針對的問題:當前的各種信息系統(tǒng)中的數(shù)據(jù)不規(guī)范導致數(shù)據(jù)挖掘非常困難。

數(shù)據(jù)優(yōu)化方法六:應在信息系統(tǒng)設計、數(shù)據(jù)采集階段就確保數(shù)據(jù)是規(guī)范的。

數(shù)據(jù)的規(guī)范性需要建立在“國標大數(shù)據(jù)標準、國家大數(shù)據(jù)標準、行業(yè)大數(shù)據(jù)標準”的基礎(chǔ)之上,而不是建立在某個單位內(nèi)部的數(shù)據(jù)標準、規(guī)范的基礎(chǔ)之上。只有符合“國標大數(shù)據(jù)標準、國家大數(shù)據(jù)標準、行業(yè)大數(shù)據(jù)標準”的規(guī)范的數(shù)據(jù)才有資格成為合格的結(jié)構(gòu)化大數(shù)據(jù)。當前的問題是各家單位的數(shù)據(jù)規(guī)范只是自己制訂的,各不相同,沒有“國標大數(shù)據(jù)標準、國家大數(shù)據(jù)標準、行業(yè)大數(shù)據(jù)標準”,這是阻礙大數(shù)據(jù)發(fā)展的一個大障礙。有了標準、規(guī)范,并按標準、規(guī)范執(zhí)行,那么在對大數(shù)據(jù)進行挖掘時,不再需要ETL。

如何體現(xiàn)結(jié)構(gòu)化大數(shù)據(jù)的規(guī)范性:在設計信息系統(tǒng)時就要考慮數(shù)據(jù)的規(guī)范性,在采集、生成數(shù)據(jù)時,必須嚴格按照“國標大數(shù)據(jù)標準、國家大數(shù)據(jù)標準、各行各業(yè)大數(shù)據(jù)標準”輸入數(shù)據(jù)、生成數(shù)據(jù),只有這樣,信息系統(tǒng)所生成的數(shù)據(jù)才是規(guī)范的數(shù)據(jù)。

各行各業(yè)的數(shù)據(jù)的標準化、規(guī)范化是一項工程量巨大的工程。只有做好這項工作,才能確?!敖Y(jié)構(gòu)化大數(shù)據(jù)的規(guī)范性”。數(shù)據(jù)的標準化是大數(shù)據(jù)的基礎(chǔ)??梢哉f沒有數(shù)據(jù)的標準化就沒有合格的大數(shù)據(jù)。大數(shù)據(jù)工程,標準先行。從某一方面而言,由于目前國際上、國內(nèi)的各行各業(yè)都未能做好數(shù)據(jù)標準化工作,所以目前根本就沒有合格的大數(shù)據(jù)!

信息系統(tǒng)名、數(shù)據(jù)庫名、表名、字段名、數(shù)據(jù)庫中的數(shù)據(jù)”都要用標準的、規(guī)范的、統(tǒng)一的自然語言,盡量避免使用不規(guī)范的代碼,這是讓數(shù)據(jù)自然形成“聯(lián)想關(guān)系”的關(guān)鍵,也是實現(xiàn)萬能查詢的關(guān)鍵。這也是結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議主張數(shù)據(jù)規(guī)范化的一個非常重要的原因!在大數(shù)據(jù)環(huán)境中,這種“聯(lián)想關(guān)系”可為數(shù)據(jù)挖掘帶來極大的便利,可以大幅度地提高查詢數(shù)據(jù)的速度。

關(guān)系數(shù)據(jù)庫理論對數(shù)據(jù)基本上沒有任何限制,全部由設計人員任意定義。這是關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)非常難以挖掘的一個根本原因。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議對數(shù)據(jù)的要求、限制非常嚴格。嚴格要求數(shù)據(jù)必須是標準的、規(guī)范的、統(tǒng)一的,必須滿足12個技術(shù)特性,每一個數(shù)據(jù)都必須嚴格符合國際標準、國家標準、行業(yè)標準。嚴禁設計人員任意私自定義數(shù)據(jù)。數(shù)據(jù)猶如通用機械地零部件,必須標準化才可以。

大數(shù)據(jù)標準涉及到每一個行業(yè),也涉及到各種各樣的業(yè)務。大數(shù)據(jù)標準涉及數(shù)據(jù)的標準、數(shù)據(jù)結(jié)構(gòu)的標準、業(yè)務的標準、業(yè)務流程的標準、信息系統(tǒng)標準等。

在大數(shù)據(jù)時代,一定要在信息系統(tǒng)中采用統(tǒng)一的、標準的、規(guī)范的自然言,盡量避免用代碼。這是確保數(shù)據(jù)獨立性、數(shù)據(jù)的完整性和數(shù)據(jù)的識別性,降低數(shù)據(jù)與系統(tǒng)的耦合度的必要措施。

7、數(shù)據(jù)與系統(tǒng)的耦合性

數(shù)據(jù)與系統(tǒng)的耦合性:數(shù)據(jù)與系統(tǒng)的耦合度越高,數(shù)據(jù)對系統(tǒng)的依賴程度就越高。當數(shù)據(jù)對系統(tǒng)的依賴程度比較高時,數(shù)據(jù)一旦脫離了原有的系統(tǒng)就變成了無意義的數(shù)據(jù)。如果說一個數(shù)據(jù)不需要任何信息系統(tǒng)的解讀,用戶就能讀懂,那么該數(shù)據(jù)與信息系統(tǒng)的耦合度為零。

針對的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與信息系統(tǒng)的耦合度非常高。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)、與數(shù)據(jù)結(jié)構(gòu)、與應用程序是密不可分的,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)一旦脫離了原信息系統(tǒng)到了大數(shù)據(jù)環(huán)境中之后,就變成了無意義的數(shù)據(jù)。

數(shù)據(jù)優(yōu)化方法七:必須確保每一個數(shù)據(jù)與信息系統(tǒng)的耦合度為零。以適當?shù)臄?shù)據(jù)冗余而使數(shù)據(jù)具有獨立性、完整性、識別性、規(guī)范性、唯一性、歸屬性,以數(shù)據(jù)的獨立性、數(shù)據(jù)的完整性、數(shù)據(jù)的識別性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性而確保每一個數(shù)據(jù)都是與信息系統(tǒng)耦合度為零的數(shù)據(jù)。

大數(shù)據(jù)的數(shù)據(jù)來源于成千上萬家單位的系統(tǒng),因此,大數(shù)據(jù)中的數(shù)據(jù)應該是與系統(tǒng)的耦合度為零的數(shù)據(jù),否則就需要編寫很多的應用程度來解讀數(shù)據(jù),這會增加處理數(shù)據(jù)的難度、成本。人們用自然語言所編寫的各種文章就是相應專業(yè)的人員可直接讀懂的,不需要任何的信息系統(tǒng)的解讀,因此,這種數(shù)據(jù)與信息系統(tǒng)的耦合度為零。在大數(shù)據(jù)中,其數(shù)據(jù)量數(shù)以千億條計,如果其中的每一個數(shù)據(jù)都與系統(tǒng)都有一定的耦合度,那么就需要編寫海量的程序才能解讀大數(shù)據(jù)。如果說大數(shù)據(jù)中的每一個數(shù)據(jù)都是與信息系統(tǒng)的耦合度為零的數(shù)據(jù),那么在處理大數(shù)據(jù)時,就不必再編寫任何程序?qū)?shù)據(jù)進行解讀。

關(guān)系數(shù)據(jù)庫的設計者習慣用代碼來表示各種數(shù)據(jù)。例如,有的設計人員用“0”代表女性,用“1”代表男性,而有的設計人員用“W”代表女性,用“M”代表男性。面對成千上萬的信息系統(tǒng)所產(chǎn)生的數(shù)千億條以上的數(shù)據(jù),這種不標準、不規(guī)范的代碼就會為大數(shù)據(jù)挖掘帶來巨大災難。

用關(guān)系數(shù)據(jù)庫所建立的信息系統(tǒng)之所以會產(chǎn)生嚴重的信息孤島問題,一個重要原因在于關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)是不完整的、不獨立的、難以識別的。關(guān)系數(shù)據(jù)庫是用各種“關(guān)系”來表達各種事物間的關(guān)系。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與關(guān)系數(shù)據(jù)庫系統(tǒng)、表結(jié)構(gòu)以及相應的應用程序密不可分,一旦分開,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)將會變成無意義的數(shù)據(jù),正是這種“關(guān)系”導致關(guān)系數(shù)據(jù)庫必然產(chǎn)生“信息孤島”。

“萬能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)、表結(jié)構(gòu)及應用程序無關(guān),可以完全脫離數(shù)據(jù)庫系統(tǒng)、表結(jié)構(gòu)及應用程序而獨立地存在?!氨硪弧敝械臄?shù)據(jù)是經(jīng)過結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議進行優(yōu)化后的數(shù)據(jù),這樣的數(shù)據(jù)即使脫離表結(jié)構(gòu)也能表達出原來的含義。

大數(shù)據(jù)的原則:盡量避免代碼,盡量用標準的自然語言。

判斷數(shù)據(jù)是不是合格的大數(shù)據(jù)的方法:與信息系統(tǒng)耦合度為零的數(shù)據(jù)才有資格成為合格的大數(shù)據(jù)。

推論:由于當前的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)全部都是與信息系統(tǒng)密切耦合的數(shù)據(jù),所以當前的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)都不是合格的大數(shù)據(jù)。

8、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性

數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性:合格的結(jié)構(gòu)化大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)必須是統(tǒng)一的。目前只有“萬能數(shù)據(jù)結(jié)構(gòu)表”可以使數(shù)據(jù)實現(xiàn)“數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”。

針對的問題:各個關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)各不相同。

數(shù)據(jù)優(yōu)化方法八:結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議利用“萬能數(shù)據(jù)結(jié)構(gòu)表”(如下表四所示)來實現(xiàn)數(shù)據(jù)的“數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議不充許設計人員設計任何數(shù)據(jù)結(jié)構(gòu),所有結(jié)構(gòu)化數(shù)據(jù)都必須存貯在一張,或若干張結(jié)構(gòu)完全一樣的、標準的、統(tǒng)一的表中。用關(guān)系數(shù)據(jù)庫理論做不到數(shù)據(jù)結(jié)構(gòu)的標準化。

表四:萬能數(shù)據(jù)結(jié)構(gòu)表可實現(xiàn)數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性

ID

事物代號

事物屬性

事物屬性

超長屬性

單位

附件

時間

100

1001

數(shù)據(jù)來源

上海市第一人民醫(yī)院





101

1001

事物分類

病歷





102

1001

事物分類

住院病歷





103

1001

事物分類

入院病歷





104

1001

事物分類

患者基本情況





105

1001

患者編號

SH10-19910430Z21





106

1001

健康卡號

XXXXXXXXXXXXX09





107

1001

×××號

XXXXXXXXXXXXXXX





108

1001

姓名

胡風





109

1001

工作單位

上海橡膠廠





110

1001

職別

工人





111

1001

性別





112

1001

住址

上海市蒙古路20





113

1001

年齡

32





114

1001

入院日期

1991/4/30





115

1001

婚否

已婚





116

1001

病史采取日期

1991-4-30





117

1001

民族





118

1001

病情陳述者

本人





10000

52367

數(shù)據(jù)來源

廣州動物園





10001

52367

事物分類

動物管理系統(tǒng)





10002

52367

事物分類

企鵝





10003

52367

事物分類

帝企鵝





10004

52367

事物分類

動物檔案





10005

52367

大數(shù)據(jù)識別碼

GZQE0003





10006

52367

名字

漢武帝





10007

52367

購入日期

2013-3-21





10008

52367

身高

1.2


 m



10009

52367

體重

20


 kg



10010

52367

出生日期

2011-4-2





10011

52367

照片




JPG


10012

52367

籠舍編號

098





10013

52367

管理員

張三





10014

52367

GZQE0001





10015

52367

GZQE0002





10016

52367

性別





關(guān)系數(shù)據(jù)庫的最大問題就是數(shù)據(jù)結(jié)構(gòu)不標準。關(guān)系數(shù)據(jù)庫理論對數(shù)據(jù)結(jié)構(gòu)沒有任何限制,完全由設計人員自由定義數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)結(jié)構(gòu)標準化是處理大數(shù)據(jù)的基礎(chǔ),數(shù)據(jù)結(jié)構(gòu)不標準會導致數(shù)據(jù)處理非常困難。

9、數(shù)據(jù)的累加性

數(shù)據(jù)的累加性:是指“使數(shù)據(jù)可以(猶如圖書那樣)不經(jīng)任何處理即可累加在一起”。

針對的問題:當前的關(guān)系數(shù)據(jù)庫系統(tǒng)已產(chǎn)生了很多數(shù)據(jù),然而這些數(shù)據(jù)都不能累加成大數(shù)據(jù)。

數(shù)據(jù)優(yōu)化方法九:數(shù)據(jù)的累加性可通過“數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性、數(shù)據(jù)的識別性、數(shù)據(jù)的獨立性、數(shù)據(jù)的完整性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)與系統(tǒng)的耦合性、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”來實現(xiàn)的,也可以說只有同時擁有這些屬性的數(shù)據(jù)才具有累加性。

傳統(tǒng)的寫在紙上的信息具有可累加性,圖書館就是眾多圖書之和,檔案館就是眾多檔案之和。數(shù)據(jù)若具有累加性,那么,廣州市政府各部門的數(shù)據(jù)全部以鏡像方式集中存貯到云平臺之后就等于建立了廣州市大數(shù)據(jù),全國97.8萬家醫(yī)療機構(gòu)的所有數(shù)據(jù)全部以鏡像的方式上傳到國家醫(yī)療大數(shù)據(jù)中心就等于建成了國家醫(yī)療大數(shù)據(jù)??上У氖牵斍暗母鞣N信息系統(tǒng)中的數(shù)據(jù)不具有累加性。

10、數(shù)據(jù)的移植性

數(shù)據(jù)的移植性:“無論把數(shù)據(jù)移植到任何環(huán)境中,數(shù)據(jù)都能保持原有含義不變,能讓各種信息系統(tǒng)識別,能讓用戶識別”,這樣的數(shù)據(jù)才具有移植性。

針對的問題:用關(guān)系數(shù)據(jù)庫所建立的信息系統(tǒng)難以互聯(lián)互通,即一個系統(tǒng)中數(shù)據(jù)不能移植到另一個系統(tǒng)中。

數(shù)據(jù)優(yōu)化方法十:數(shù)據(jù)的移植性是通過“數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性、數(shù)據(jù)的識別性、數(shù)據(jù)的獨立性、數(shù)據(jù)的完整性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)與系統(tǒng)的耦合性、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”來實現(xiàn)的,也可以說只有同時具有這些屬性的數(shù)據(jù)才具有移植性。

數(shù)據(jù)的移植性關(guān)系到信息系統(tǒng)的互聯(lián)互通。具有移植性的數(shù)據(jù)才能任意地在各個系統(tǒng)之間互聯(lián)互通。數(shù)據(jù)的移植性與數(shù)據(jù)的累加性是一樣的,具有移植性的數(shù)據(jù)也具有累加性,只是數(shù)據(jù)的移植性是用來體現(xiàn)數(shù)據(jù)是否可以在各個系統(tǒng)之間互聯(lián)互通,數(shù)據(jù)的累加性指的是能否把眾多的小數(shù)據(jù)累加成大數(shù)據(jù)。

11、數(shù)據(jù)的時間性

數(shù)據(jù)的時間性:大數(shù)據(jù)中的每一個數(shù)據(jù)都應有相應的時間。

數(shù)據(jù)優(yōu)化方法十一:為每一個數(shù)據(jù)增加時間戳。

12、數(shù)據(jù)的真實性

數(shù)據(jù)的真實性:小數(shù)據(jù)猶如自己記帳而產(chǎn)生的數(shù)據(jù),大數(shù)據(jù)猶如不同單位之間的資金來往而產(chǎn)生的數(shù)據(jù),因此大數(shù)據(jù)的真實性就是非常重要的。

數(shù)據(jù)優(yōu)化方法十二:必須把數(shù)據(jù)防偽、數(shù)據(jù)防篡改當作重要工作,可通過第三方認證、第三方公證、第三方數(shù)據(jù)備案的方法使數(shù)據(jù)的真實性得到保證。


向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI