您好,登錄后才能下訂單哦!
發(fā)明專利技術(shù)
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議
發(fā)明人:樊永正
269779216@qqqq.com
技術(shù)領(lǐng)域
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是一種通信協(xié)議,也是一種讓數(shù)據(jù)成為合格的結(jié)構(gòu)化大數(shù)據(jù)的技術(shù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議也類似于ETL,ETL是處理現(xiàn)有的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)的問題,而結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是在設計信息系統(tǒng)之初就開始預防數(shù)據(jù)產(chǎn)生問題。ETL是為數(shù)據(jù)治病,結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是預防數(shù)據(jù)產(chǎn)生疾病。ETL是對現(xiàn)有技術(shù)所產(chǎn)生的問題進行小修小補,結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議提出了新的數(shù)據(jù)處理方案。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議也是一種軟件開發(fā)模式,利用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所建立的各種信息系統(tǒng)都是大數(shù)據(jù)信息系統(tǒng),只要以鏡像的方式把各大數(shù)據(jù)信息系統(tǒng)中的數(shù)據(jù)上傳到大數(shù)據(jù)中心即可累加成合格的結(jié)構(gòu)化大數(shù)據(jù)。合格的結(jié)構(gòu)化大數(shù)據(jù)是不經(jīng)ETL轉(zhuǎn)換即可高效挖掘的結(jié)構(gòu)化數(shù)據(jù)。
背景技術(shù)
隨著大數(shù)據(jù)時代的到來,人們發(fā)現(xiàn)各行各業(yè)已有很多信息系統(tǒng),然而信息系統(tǒng)雖多卻不能滿足大數(shù)據(jù)時代的需求,信息孤島嚴重,難以互聯(lián)互通,數(shù)據(jù)共享困難,各行各業(yè)已有很多數(shù)據(jù),然而數(shù)據(jù)雖多,卻難以高效挖掘。目前是利用關(guān)系數(shù)據(jù)庫來解決這些問題,但只能解決局部的問題,不能從根本上解決問題。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是針對這些問題而創(chuàng)立的。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議來源于模仿大腦記憶、聯(lián)想、思維,始于1982年,那時想讓計算機模仿大腦的聯(lián)想功能。
發(fā)明內(nèi)容
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是通過對數(shù)據(jù)的優(yōu)化及軟件開發(fā)模式的改變而避免信息孤島問題、互聯(lián)互通問題、數(shù)據(jù)共享問題產(chǎn)生,并使數(shù)據(jù)容易挖掘。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議可使數(shù)據(jù)具有12個技術(shù)特性:“唯一性、歸屬性、可識別性、獨立性、完整性、規(guī)范性、與系統(tǒng)的耦合性(耦合度為零)、結(jié)構(gòu)統(tǒng)一性、可累加性、可移植性、時間性、真實性”,只有同時滿足12個技術(shù)特性的數(shù)據(jù)才是合格的結(jié)構(gòu)化大數(shù)據(jù)。
發(fā)明所要解決的技術(shù)問題
發(fā)明所要解決的技術(shù)問題是大數(shù)據(jù)4V中“數(shù)據(jù)類型多(Variety)”問題及“數(shù)據(jù)速度快(velocity)”問題。所針對的具體的技術(shù)問題:各行各業(yè)已有很多信息系統(tǒng),然而信息系統(tǒng)雖多卻不能滿足大數(shù)據(jù)時代的需求,信息孤島嚴重,難以互聯(lián)互通,數(shù)據(jù)共享困難;各行各業(yè)已有很多數(shù)據(jù),然而數(shù)據(jù)雖多,卻難以高效挖掘。
有益效果
實現(xiàn)互聯(lián)互通、數(shù)據(jù)共享容易,查詢速度快,數(shù)據(jù)挖掘容易。
具體實施方式
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的創(chuàng)新表現(xiàn)在如下5個方面:
1、首次提出了結(jié)構(gòu)化大數(shù)據(jù)的12個技術(shù)特性,只有同時滿足12個技術(shù)特性的數(shù)據(jù)才能成為合格的結(jié)構(gòu)化大數(shù)據(jù)。為使數(shù)據(jù)滿足12個技術(shù)特性,創(chuàng)立了與12個技術(shù)特性相對應的12個數(shù)據(jù)優(yōu)化方法。
2、通信的基礎(chǔ)是雙方必須采用同一個協(xié)議。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所提出的“結(jié)構(gòu)化大數(shù)據(jù)的12個技術(shù)特性”就是結(jié)構(gòu)化數(shù)據(jù)互聯(lián)互通的“通信協(xié)議”。
3、在結(jié)構(gòu)化大數(shù)據(jù)的每一條數(shù)據(jù)中都增加了體現(xiàn)“數(shù)據(jù)的唯一性”和“數(shù)據(jù)的歸屬性”的數(shù)據(jù)項?,F(xiàn)有數(shù)據(jù)庫技術(shù)由于都是用于處理小數(shù)據(jù),都沒有考慮這兩個數(shù)據(jù)項的作用,現(xiàn)有的數(shù)據(jù)中也都沒有這兩個數(shù)據(jù)項。這兩個數(shù)據(jù)項是表明一個數(shù)據(jù)是不是合格的結(jié)構(gòu)化大數(shù)據(jù)的關(guān)鍵數(shù)據(jù)項。
4、特別強調(diào)數(shù)據(jù)的標準化、規(guī)范化。因為大數(shù)據(jù)環(huán)境中,標準化、規(guī)范化的數(shù)據(jù)能自動模仿大腦的聯(lián)想功能,從而大幅度提高查詢數(shù)據(jù)的速度和靈活性。關(guān)系數(shù)據(jù)庫對數(shù)據(jù)不加任何限制,完全由數(shù)據(jù)庫的設計人員自己定義;結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議對數(shù)據(jù)的限制非常嚴格,絕對不充許設計人員任意定義數(shù)據(jù),所有數(shù)據(jù)都必須是規(guī)范的,這也是讓大數(shù)據(jù)容易挖掘的一項重要措施。
5、利用結(jié)構(gòu)化大數(shù)據(jù)的12個技術(shù)特性為大數(shù)據(jù)的真實性提供保障。小數(shù)據(jù)只是在某個單位內(nèi)部使用,大數(shù)據(jù)是在很多單位之間使用,因此大數(shù)據(jù)的真實性、公證性、權(quán)威、不可悔改性就顯得非常重要。
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議在對數(shù)據(jù)優(yōu)化時是以“萬能數(shù)據(jù)結(jié)構(gòu)表”(如表一所示)來存貯數(shù)據(jù),“萬能數(shù)據(jù)結(jié)構(gòu)表”可以用一張表存貯各種各樣的結(jié)構(gòu)化數(shù)據(jù)。
表一:萬能數(shù)據(jù)結(jié)構(gòu)表存貯數(shù)據(jù)的例子
ID | 事物代號 | 事物屬性 | 事物屬性值 | 超長屬性值 | 單位 | 附件 | 時間 |
1099 | 1280 | 數(shù)據(jù)來源 | 廣州第一醫(yī)院 | 2014.5.3 | |||
1100 | 1280 | 事物分類 | 病歷 | 2014.5.3 | |||
1101 | 1280 | 事物分類 | 住院病歷 | 2014.5.3 | |||
1102 | 1280 | 事物分類 | 醫(yī)療費用 | 2014.5.3 | |||
1103 | 1280 | ×××號 | XXXXXXXXXX | 2014.5.3 | |||
1104 | 1280 | 住院號 | XXXXXXXXXX | 2014.5.3 | |||
1105 | 1280 | 姓名 | 張三 | 2014.5.3 | |||
1106 | 1280 | 性別 | 男 | 2014.5.3 | |||
1107 | 1280 | 中藥費 | 56 | 元 | 2014.5.3 | ||
1108 | 1280 | 西藥費 | 72 | 元 | 2014.5.3 | ||
1109 | 1280 | 其它費用 | 180 | 元 | 2014.5.3 |
說明1:合格的結(jié)構(gòu)化大數(shù)據(jù)的12個技術(shù)特性及12個數(shù)據(jù)優(yōu)化方法
合格的結(jié)構(gòu)化大數(shù)據(jù)具有12個技術(shù)特性,或者說只有同時滿足12個技術(shù)特性的結(jié)構(gòu)化數(shù)據(jù)才是合格的結(jié)構(gòu)化大數(shù)據(jù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是使結(jié)構(gòu)化數(shù)據(jù)滿足12個技術(shù)特性的方法。為使數(shù)據(jù)擁有結(jié)構(gòu)化大數(shù)據(jù)的12個技術(shù)特性,結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議提出了12種相應的數(shù)據(jù)優(yōu)化方法。
1、數(shù)據(jù)的唯一性
數(shù)據(jù)的唯一性:同一事物的各種數(shù)據(jù)在生存周期中,在不同的信息系統(tǒng)中,都應該是唯一的、可識別的,不能因時間、空間的變化而變成不可識別的數(shù)據(jù)。
數(shù)據(jù)的唯一性所針對的問題:當前的同一事物的各種數(shù)據(jù)在不同的信息系統(tǒng)中的表達形式各不相同,在大數(shù)據(jù)挖掘時難以準確地識別。例如,同一商品,在不同的經(jīng)銷商的信息系統(tǒng)中具有不同的編碼;同一患者在不同的醫(yī)院就醫(yī)時,患者的住院號各不相同,在大數(shù)據(jù)環(huán)境中查患者病史時,會因為與患者相關(guān)的數(shù)據(jù)沒有一個統(tǒng)一的標識碼而難以查詢。
數(shù)據(jù)優(yōu)化方法一:讓同一事物的所有數(shù)據(jù),在不同的時間、空間、環(huán)境中,都必須含有一個(或若干個)唯一的、統(tǒng)一的大數(shù)據(jù)識別碼。大數(shù)據(jù)識別碼是數(shù)據(jù)的×××、車牌號。大數(shù)據(jù)識別碼與關(guān)系數(shù)據(jù)庫中的ID有本質(zhì)的差異,ID只是在一張表的范圍內(nèi)標識數(shù)據(jù),大數(shù)據(jù)識別碼是在大數(shù)據(jù)的范圍內(nèi)標識數(shù)據(jù)。
大數(shù)據(jù)范圍:不同的大數(shù)據(jù)所涉及到的范圍不同。在國際貿(mào)易中,大數(shù)據(jù)范圍是全球,國家醫(yī)療大數(shù)據(jù)的大數(shù)據(jù)范圍是醫(yī)療行業(yè),廣州大數(shù)據(jù)的數(shù)據(jù)范圍是廣州市。
大數(shù)據(jù)識別碼可分為兩種,一種是某個具體事物的識別碼,猶如設備的序列號,但與設備的序列號有本質(zhì)的差異,設備序列號是企業(yè)自己編寫的,大數(shù)據(jù)識別碼需要按國際統(tǒng)一的標準來編碼;另一種是某類事物的識別碼。例如,在了解某種型號的手機在各個經(jīng)銷商的銷售情況時,就需要該種型號手機的大數(shù)據(jù)識別碼,因為手機由全世界數(shù)十萬個經(jīng)銷商銷售,手機廠家需要與全世界數(shù)十萬信息系統(tǒng)互聯(lián)互通。與人相關(guān)的數(shù)據(jù)全應含有×××號,以確保在全球范圍內(nèi),在任何時間段,與某人相關(guān)的數(shù)據(jù)都是唯一的,可識別為同一個人的。大數(shù)據(jù)會涉及到多個不同的信息系統(tǒng),而小數(shù)據(jù)只是在同一個信息系統(tǒng)中生存,因此在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)的唯一性就非常重要,沒有統(tǒng)一的、標準的、規(guī)范的識別碼會導致數(shù)據(jù)挖掘非常困難。數(shù)據(jù)的唯一性是大數(shù)據(jù)挖掘、分析的基礎(chǔ)。大數(shù)據(jù)識別碼必須使可以方便數(shù)據(jù)分類統(tǒng)計。
2、數(shù)據(jù)的歸屬性
數(shù)據(jù)的歸屬性:數(shù)據(jù)不僅要反映事物的各種屬性,也要反映出數(shù)據(jù)是歸誰所有(或者說由誰采集、或者說從何而來)。
數(shù)據(jù)優(yōu)化方法二:每一個事物的數(shù)據(jù)中都要含有“數(shù)據(jù)來源”數(shù)據(jù)項?!皵?shù)據(jù)來源”是結(jié)構(gòu)化數(shù)據(jù)具有了“歸屬性”,一般情況下,可用單位名稱來表示“數(shù)據(jù)來源”。
大數(shù)據(jù)源于成千上萬家單位,若不標明“數(shù)據(jù)來源”,在大數(shù)據(jù)挖掘時會引起識別混亂。
3、數(shù)據(jù)的識別性
數(shù)據(jù)的識別性:是指讓信息系統(tǒng)可識別,讓人也可識別。進一步而言,不但要讓自己的信息系統(tǒng)識別,也要能讓他人的信息系統(tǒng)識別,不但要讓自己能識別,也要讓他人能識別。
數(shù)據(jù)的識別性所針對的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只有數(shù)據(jù)庫的設計人員自己和自己的信息系統(tǒng)可識別。其它人、其它信息系統(tǒng)只能通過軟件對數(shù)據(jù)庫中的數(shù)據(jù)進行解釋、注釋、翻譯之后才能識別。
數(shù)據(jù)優(yōu)化方法三:以適當?shù)娜哂嗍箶?shù)據(jù)可識別,盡量用標準的、規(guī)范的自然語言來表達數(shù)據(jù),盡量避免用代碼來表達數(shù)據(jù)。在對數(shù)據(jù)進行優(yōu)化時的原則是“讓相應領(lǐng)域的技術(shù)人員能看懂,讓別人的信息系統(tǒng)也能識別,而不能只是數(shù)據(jù)庫的設計人員能看懂,也不只是自己的系統(tǒng)能識別?!?/span>
在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)的最重要、最關(guān)鍵的一個特性就是“數(shù)據(jù)的識別性”。關(guān)系數(shù)據(jù)庫的一個策略是:盡量減少數(shù)據(jù)冗余。關(guān)系數(shù)據(jù)庫在降低了數(shù)據(jù)冗余的同時卻增加了識別數(shù)據(jù)的難度。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略與關(guān)系數(shù)據(jù)庫正好相反。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略:以適當?shù)娜哂喽箶?shù)據(jù)具有可識別性,從而使數(shù)據(jù)可以讓他人讀懂,也讓他人的信息系統(tǒng)能識別。
關(guān)系數(shù)據(jù)庫是一種“數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)、程序、數(shù)據(jù)庫系統(tǒng)四者密不可分的數(shù)據(jù)庫”。因為關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)脫離具體的表結(jié)構(gòu)和程序以后就變成了無意義的數(shù)據(jù),關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只有在特定的表中才具有意義。
“萬能數(shù)據(jù)結(jié)構(gòu)表”是一種“數(shù)據(jù)與程序無關(guān)的數(shù)據(jù)結(jié)構(gòu)”,或者說是一種“是什么就是什么,與程序無關(guān)”。因為“萬能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)脫離其數(shù)據(jù)結(jié)構(gòu)后,其數(shù)據(jù)的真實含義不變。“萬能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)是用標準的、規(guī)范的自然語言而表達的,只要懂自然語言,誰都可以看懂“萬能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)的真實含義。
從表面上看,關(guān)系數(shù)據(jù)庫減少了數(shù)據(jù)冗余,這是其一大優(yōu)點。然而,這也是關(guān)系數(shù)據(jù)庫的最大缺點之一。關(guān)系數(shù)據(jù)庫在減少了數(shù)據(jù)冗余的同時,也導致了數(shù)據(jù)失真。數(shù)據(jù)失真的結(jié)果就導致了“信息交換、信息孤島、數(shù)據(jù)挖掘難”等等問題。在關(guān)系數(shù)據(jù)庫中,只有通過編寫大量的程序,才能解決數(shù)據(jù)失真問題。無數(shù)事實表明,關(guān)系數(shù)據(jù)庫因數(shù)據(jù)冗余問題而付出了非常高昂的代價。當“數(shù)據(jù)與程序密不可分”時,要存貯、讀取、查詢數(shù)據(jù)就必須編寫大量的程序。當“數(shù)據(jù)與程序無關(guān)時”,只要編寫一個通用的程序,其它人借助這個程序就可以非常方便地存貯、讀取、查詢數(shù)據(jù),而不必每開發(fā)一個數(shù)據(jù)庫都開發(fā)大量的軟件。
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的一個原則:基本上不考慮數(shù)據(jù)冗余問題,以空間換取智能和使用方便,讓數(shù)據(jù)自己說話,而不是讓程序替數(shù)據(jù)說話。而關(guān)系數(shù)據(jù)則是通過應用程序而代替數(shù)據(jù)說話。用數(shù)據(jù)代替程序:寧愿增加大量的“冗余”,也要使數(shù)據(jù)具有獨立性、完整性、可識別性?;蛘哒f為了使數(shù)據(jù)具有獨立性、完整性、可識別性,不考慮數(shù)據(jù)冗余問題,無論增加多少冗余都可以。在用關(guān)系數(shù)據(jù)庫設計信息系統(tǒng)時,總是用程序來解讀數(shù)據(jù)庫中的數(shù)據(jù)。這種策略所帶來的嚴重惡果就是在處理數(shù)據(jù)時需要編寫大量的程序,不編寫程序就無法處理數(shù)據(jù)。
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略:不惜一切代價,讓數(shù)據(jù)自己說話,杜絕用程序當翻譯!
“讓數(shù)據(jù)自已說話”的目的是:無論把一個數(shù)據(jù)放到任何地方、任何環(huán)境中都能獨立地、完整地表達出同樣的、完整的含義。在大數(shù)據(jù)時代,一個數(shù)據(jù)會出現(xiàn)在不同的信息系統(tǒng)中,因此,必須確保數(shù)據(jù)在不同的信息系統(tǒng)中、不同的環(huán)境中都有相同的含義。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議使數(shù)據(jù)具有“獨立性、完整性、識別性、唯一性、歸屬性”的目的就是讓數(shù)據(jù)自己說話,在大數(shù)據(jù)環(huán)境中,這樣可以大幅度地減少編寫程序的數(shù)量。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)沒有獨立性,也沒有完整性,關(guān)系數(shù)據(jù)庫做不到“讓數(shù)據(jù)自己說話”。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)需要借助各種“關(guān)系”才能表達出完整的含義。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議可以讓數(shù)據(jù)自己說話,而關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)需要配備“七大姑八大姨”的“關(guān)系”才能準確地表達出相應的含義。
關(guān)系數(shù)據(jù)庫的“七大姑八大姨”的“關(guān)系”:數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)具有密不可分的關(guān)系,數(shù)據(jù)與表結(jié)構(gòu)具有密不可分的關(guān)系,數(shù)據(jù)與應用程序具有密不可分的關(guān)系,數(shù)據(jù)與數(shù)據(jù)庫中的眾多表之間具有密不可分的關(guān)系。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)必須依靠關(guān)系數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型、應用程序才具有意義。當關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)脫離了相應的關(guān)系數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型、應用程序之后就變成了無意義的數(shù)據(jù)。當前的信息系統(tǒng)所存在的“信息孤島問題、信息交換問題、數(shù)據(jù)接口問題、互聯(lián)互通問題、系統(tǒng)的升級換代問題”等等,都是由于關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)不能自己說話而造成的。
用關(guān)系數(shù)據(jù)庫系統(tǒng)設計電子病歷系統(tǒng)時,對“患者基本情況”會采用如下形式:
表二:患者基本情況表(關(guān)系數(shù)據(jù)庫中的表)
ID | HZXM | GZDW | ZB | XB | ZZ | NL | RQ | HF | BXRQ | MZ | CSZ |
26 | 胡鳳 | 橡膠廠 | 工人 | 0 | 蒙古路2號 | 32 | 1991-4-3 | 已 | 1991-4-3 | 漢 | 本人 |
上述形式的數(shù)據(jù)是小數(shù)據(jù)時代的經(jīng)典結(jié)構(gòu)形式。其實“字段名”也是很重要的信息,必須用標準的、規(guī)范的自然語言來描述?!盎颊呋厩闆r”經(jīng)過結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議進行優(yōu)化之后,在“萬能數(shù)據(jù)結(jié)構(gòu)表”中的表達形式:
表三:患者基本情況表(萬能數(shù)據(jù)結(jié)構(gòu)表)
ID | 事物代號 | 事物屬性 | 事物屬性值 | 超長屬性值 | 單位 | 附件 | 時間 |
100 | 1001 | 數(shù)據(jù)來源 | 上海市第一醫(yī)院 | ||||
101 | 1001 | 事物分類 | 病歷 | ||||
102 | 1001 | 事物分類 | 住院病歷 | ||||
103 | 1001 | 事物分類 | 入院病歷 | ||||
104 | 1001 | 事物分類 | 患者基本情況 | ||||
105 | 1001 | 患者編號 | SH10-199103Z21 | ||||
106 | 1001 | 健康卡號 | XXXXXXXXXXXX09 | ||||
107 | 1001 | ×××號 | XXXXXXXXXXXXXX | ||||
108 | 1001 | 姓名 | 胡風 | ||||
109 | 1001 | 工作單位 | 上海橡膠廠 | ||||
110 | 1001 | 職別 | 工人 | ||||
111 | 1001 | 性別 | 女 | ||||
112 | 1001 | 住址 | 蒙古路20號 | ||||
113 | 1001 | 年齡 | 32 | ||||
114 | 1001 | 入院日期 | 1991-4-30 | ||||
115 | 1001 | 婚否 | 已婚 | ||||
116 | 1001 | 病史采取日期 | 1991-4-30 | ||||
117 | 1001 | 民族 | 漢 | ||||
118 | 1001 | 病情陳述者 | 本人 |
通過上述兩張表的對比發(fā)現(xiàn),用“萬能數(shù)據(jù)結(jié)構(gòu)表”所表達的信息是一種完全用自然語言所表達的不失真的信息,這種信息無論放在什么地方其含義都是一樣的。
從表面上看用“萬能數(shù)據(jù)結(jié)構(gòu)表”所存貯的信息會多占據(jù)一倍左右的存貯空間,但這樣存貯數(shù)據(jù)可以減少很多復雜的數(shù)據(jù)抽取、轉(zhuǎn)換工作。“萬能數(shù)據(jù)結(jié)構(gòu)表”中的“數(shù)據(jù)冗余”就是讓“數(shù)據(jù)自己說話”,讓數(shù)據(jù)不依賴數(shù)據(jù)庫系統(tǒng)、不依賴數(shù)據(jù)結(jié)構(gòu),不依賴數(shù)據(jù)類型,不依賴應用程序。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略是“以空間換智能及使用方便”。與30年前相比,目前硬盤的存貯容量已提高了10萬倍以上,多占據(jù)一倍左右的存貯空間的代價很低,可以忽略不計?!白寯?shù)據(jù)自己說話”就是讓數(shù)據(jù)猶如自然語言那樣,可以準確、無誤地表達應有的含義,不需要注釋,也不需要應用程序的解讀。
4、數(shù)據(jù)的獨立性
數(shù)據(jù)的獨立性:數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應用程序而獨立地表達出某種含義。
針對的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具有獨立性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應用程序才能解讀數(shù)據(jù)的含義。關(guān)系數(shù)據(jù)庫中的很多表的字段名用的是不規(guī)范的字母縮寫,在呈現(xiàn)給用戶時,需要通過信息系統(tǒng)為表加上表頭才能表達出數(shù)據(jù)的真正含義。
數(shù)據(jù)優(yōu)化方法四:通過一定的數(shù)據(jù)冗余而是數(shù)據(jù)可以自己說話,讓“數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應用程序而獨立地表達出某種含義”,如上表三所示的萬能數(shù)據(jù)結(jié)構(gòu)表可實現(xiàn)數(shù)據(jù)的獨立性。
5、數(shù)據(jù)的完整性
數(shù)據(jù)的完整性:數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應用程序而完整地表達出某種含義。
針對的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具有完整性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應用程序才能解讀數(shù)據(jù)完整的含義。
數(shù)據(jù)優(yōu)化方法五:通過一定的數(shù)據(jù)冗余而是數(shù)據(jù)可以自己說話,讓“數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應用程序而獨立地表達出某種含義”,如上表三所示的萬能數(shù)據(jù)結(jié)構(gòu)表可實現(xiàn)數(shù)據(jù)的獨立性。
6、數(shù)據(jù)的規(guī)范性
數(shù)據(jù)的規(guī)范性:數(shù)據(jù)應為標準的、規(guī)范的、統(tǒng)一的、無歧義的。
針對的問題:當前的各種信息系統(tǒng)中的數(shù)據(jù)不規(guī)范導致數(shù)據(jù)挖掘非常困難。
數(shù)據(jù)優(yōu)化方法六:應在信息系統(tǒng)設計、數(shù)據(jù)采集階段就確保數(shù)據(jù)是規(guī)范的。
數(shù)據(jù)的規(guī)范性需要建立在“國標大數(shù)據(jù)標準、國家大數(shù)據(jù)標準、行業(yè)大數(shù)據(jù)標準”的基礎(chǔ)之上,而不是建立在某個單位內(nèi)部的數(shù)據(jù)標準、規(guī)范的基礎(chǔ)之上。只有符合“國標大數(shù)據(jù)標準、國家大數(shù)據(jù)標準、行業(yè)大數(shù)據(jù)標準”的規(guī)范的數(shù)據(jù)才有資格成為合格的結(jié)構(gòu)化大數(shù)據(jù)。當前的問題是各家單位的數(shù)據(jù)規(guī)范只是自己制訂的,各不相同,沒有“國標大數(shù)據(jù)標準、國家大數(shù)據(jù)標準、行業(yè)大數(shù)據(jù)標準”,這是阻礙大數(shù)據(jù)發(fā)展的一個大障礙。有了標準、規(guī)范,并按標準、規(guī)范執(zhí)行,那么在對大數(shù)據(jù)進行挖掘時,不再需要ETL。
如何體現(xiàn)結(jié)構(gòu)化大數(shù)據(jù)的規(guī)范性:在設計信息系統(tǒng)時就要考慮數(shù)據(jù)的規(guī)范性,在采集、生成數(shù)據(jù)時,必須嚴格按照“國標大數(shù)據(jù)標準、國家大數(shù)據(jù)標準、各行各業(yè)大數(shù)據(jù)標準”輸入數(shù)據(jù)、生成數(shù)據(jù),只有這樣,信息系統(tǒng)所生成的數(shù)據(jù)才是規(guī)范的數(shù)據(jù)。
各行各業(yè)的數(shù)據(jù)的標準化、規(guī)范化是一項工程量巨大的工程。只有做好這項工作,才能確?!敖Y(jié)構(gòu)化大數(shù)據(jù)的規(guī)范性”。數(shù)據(jù)的標準化是大數(shù)據(jù)的基礎(chǔ)??梢哉f沒有數(shù)據(jù)的標準化就沒有合格的大數(shù)據(jù)。大數(shù)據(jù)工程,標準先行。從某一方面而言,由于目前國際上、國內(nèi)的各行各業(yè)都未能做好數(shù)據(jù)標準化工作,所以目前根本就沒有合格的大數(shù)據(jù)!
“信息系統(tǒng)名、數(shù)據(jù)庫名、表名、字段名、數(shù)據(jù)庫中的數(shù)據(jù)”都要用標準的、規(guī)范的、統(tǒng)一的自然語言,盡量避免使用不規(guī)范的代碼,這是讓數(shù)據(jù)自然形成“聯(lián)想關(guān)系”的關(guān)鍵,也是實現(xiàn)萬能查詢的關(guān)鍵。這也是結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議主張數(shù)據(jù)規(guī)范化的一個非常重要的原因!在大數(shù)據(jù)環(huán)境中,這種“聯(lián)想關(guān)系”可為數(shù)據(jù)挖掘帶來極大的便利,可以大幅度地提高查詢數(shù)據(jù)的速度。
關(guān)系數(shù)據(jù)庫理論對數(shù)據(jù)基本上沒有任何限制,全部由設計人員任意定義。這是關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)非常難以挖掘的一個根本原因。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議對數(shù)據(jù)的要求、限制非常嚴格。嚴格要求數(shù)據(jù)必須是標準的、規(guī)范的、統(tǒng)一的,必須滿足12個技術(shù)特性,每一個數(shù)據(jù)都必須嚴格符合國際標準、國家標準、行業(yè)標準。嚴禁設計人員任意私自定義數(shù)據(jù)。數(shù)據(jù)猶如通用機械地零部件,必須標準化才可以。
大數(shù)據(jù)標準涉及到每一個行業(yè),也涉及到各種各樣的業(yè)務。大數(shù)據(jù)標準涉及數(shù)據(jù)的標準、數(shù)據(jù)結(jié)構(gòu)的標準、業(yè)務的標準、業(yè)務流程的標準、信息系統(tǒng)標準等。
在大數(shù)據(jù)時代,一定要在信息系統(tǒng)中采用統(tǒng)一的、標準的、規(guī)范的自然言,盡量避免用代碼。這是確保數(shù)據(jù)獨立性、數(shù)據(jù)的完整性和數(shù)據(jù)的識別性,降低數(shù)據(jù)與系統(tǒng)的耦合度的必要措施。
7、數(shù)據(jù)與系統(tǒng)的耦合性
數(shù)據(jù)與系統(tǒng)的耦合性:數(shù)據(jù)與系統(tǒng)的耦合度越高,數(shù)據(jù)對系統(tǒng)的依賴程度就越高。當數(shù)據(jù)對系統(tǒng)的依賴程度比較高時,數(shù)據(jù)一旦脫離了原有的系統(tǒng)就變成了無意義的數(shù)據(jù)。如果說一個數(shù)據(jù)不需要任何信息系統(tǒng)的解讀,用戶就能讀懂,那么該數(shù)據(jù)與信息系統(tǒng)的耦合度為零。
針對的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與信息系統(tǒng)的耦合度非常高。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)、與數(shù)據(jù)結(jié)構(gòu)、與應用程序是密不可分的,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)一旦脫離了原信息系統(tǒng)到了大數(shù)據(jù)環(huán)境中之后,就變成了無意義的數(shù)據(jù)。
數(shù)據(jù)優(yōu)化方法七:必須確保每一個數(shù)據(jù)與信息系統(tǒng)的耦合度為零。以適當?shù)臄?shù)據(jù)冗余而使數(shù)據(jù)具有獨立性、完整性、識別性、規(guī)范性、唯一性、歸屬性,以數(shù)據(jù)的獨立性、數(shù)據(jù)的完整性、數(shù)據(jù)的識別性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性而確保每一個數(shù)據(jù)都是與信息系統(tǒng)耦合度為零的數(shù)據(jù)。
大數(shù)據(jù)的數(shù)據(jù)來源于成千上萬家單位的系統(tǒng),因此,大數(shù)據(jù)中的數(shù)據(jù)應該是與系統(tǒng)的耦合度為零的數(shù)據(jù),否則就需要編寫很多的應用程度來解讀數(shù)據(jù),這會增加處理數(shù)據(jù)的難度、成本。人們用自然語言所編寫的各種文章就是相應專業(yè)的人員可直接讀懂的,不需要任何的信息系統(tǒng)的解讀,因此,這種數(shù)據(jù)與信息系統(tǒng)的耦合度為零。在大數(shù)據(jù)中,其數(shù)據(jù)量數(shù)以千億條計,如果其中的每一個數(shù)據(jù)都與系統(tǒng)都有一定的耦合度,那么就需要編寫海量的程序才能解讀大數(shù)據(jù)。如果說大數(shù)據(jù)中的每一個數(shù)據(jù)都是與信息系統(tǒng)的耦合度為零的數(shù)據(jù),那么在處理大數(shù)據(jù)時,就不必再編寫任何程序?qū)?shù)據(jù)進行解讀。
關(guān)系數(shù)據(jù)庫的設計者習慣用代碼來表示各種數(shù)據(jù)。例如,有的設計人員用“0”代表女性,用“1”代表男性,而有的設計人員用“W”代表女性,用“M”代表男性。面對成千上萬的信息系統(tǒng)所產(chǎn)生的數(shù)千億條以上的數(shù)據(jù),這種不標準、不規(guī)范的代碼就會為大數(shù)據(jù)挖掘帶來巨大災難。
用關(guān)系數(shù)據(jù)庫所建立的信息系統(tǒng)之所以會產(chǎn)生嚴重的信息孤島問題,一個重要原因在于關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)是不完整的、不獨立的、難以識別的。關(guān)系數(shù)據(jù)庫是用各種“關(guān)系”來表達各種事物間的關(guān)系。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與關(guān)系數(shù)據(jù)庫系統(tǒng)、表結(jié)構(gòu)以及相應的應用程序密不可分,一旦分開,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)將會變成無意義的數(shù)據(jù),正是這種“關(guān)系”導致關(guān)系數(shù)據(jù)庫必然產(chǎn)生“信息孤島”。
“萬能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)、表結(jié)構(gòu)及應用程序無關(guān),可以完全脫離數(shù)據(jù)庫系統(tǒng)、表結(jié)構(gòu)及應用程序而獨立地存在?!氨硪弧敝械臄?shù)據(jù)是經(jīng)過結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議進行優(yōu)化后的數(shù)據(jù),這樣的數(shù)據(jù)即使脫離表結(jié)構(gòu)也能表達出原來的含義。
大數(shù)據(jù)的原則:盡量避免代碼,盡量用標準的自然語言。
判斷數(shù)據(jù)是不是合格的大數(shù)據(jù)的方法:與信息系統(tǒng)耦合度為零的數(shù)據(jù)才有資格成為合格的大數(shù)據(jù)。
推論:由于當前的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)全部都是與信息系統(tǒng)密切耦合的數(shù)據(jù),所以當前的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)都不是合格的大數(shù)據(jù)。
8、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性
數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性:合格的結(jié)構(gòu)化大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)必須是統(tǒng)一的。目前只有“萬能數(shù)據(jù)結(jié)構(gòu)表”可以使數(shù)據(jù)實現(xiàn)“數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”。
針對的問題:各個關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)各不相同。
數(shù)據(jù)優(yōu)化方法八:結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議利用“萬能數(shù)據(jù)結(jié)構(gòu)表”(如下表四所示)來實現(xiàn)數(shù)據(jù)的“數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議不充許設計人員設計任何數(shù)據(jù)結(jié)構(gòu),所有結(jié)構(gòu)化數(shù)據(jù)都必須存貯在一張,或若干張結(jié)構(gòu)完全一樣的、標準的、統(tǒng)一的表中。用關(guān)系數(shù)據(jù)庫理論做不到數(shù)據(jù)結(jié)構(gòu)的標準化。
表四:萬能數(shù)據(jù)結(jié)構(gòu)表可實現(xiàn)數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性
ID | 事物代號 | 事物屬性 | 事物屬性值 | 超長屬性值 | 單位 | 附件 | 時間 |
100 | 1001 | 數(shù)據(jù)來源 | 上海市第一人民醫(yī)院 | ||||
101 | 1001 | 事物分類 | 病歷 | ||||
102 | 1001 | 事物分類 | 住院病歷 | ||||
103 | 1001 | 事物分類 | 入院病歷 | ||||
104 | 1001 | 事物分類 | 患者基本情況 | ||||
105 | 1001 | 患者編號 | SH10-19910430Z21 | ||||
106 | 1001 | 健康卡號 | XXXXXXXXXXXXX09 | ||||
107 | 1001 | ×××號 | XXXXXXXXXXXXXXX | ||||
108 | 1001 | 姓名 | 胡風 | ||||
109 | 1001 | 工作單位 | 上海橡膠廠 | ||||
110 | 1001 | 職別 | 工人 | ||||
111 | 1001 | 性別 | 女 | ||||
112 | 1001 | 住址 | 上海市蒙古路20號 | ||||
113 | 1001 | 年齡 | 32 | ||||
114 | 1001 | 入院日期 | 1991/4/30 | ||||
115 | 1001 | 婚否 | 已婚 | ||||
116 | 1001 | 病史采取日期 | 1991-4-30 | ||||
117 | 1001 | 民族 | 漢 | ||||
118 | 1001 | 病情陳述者 | 本人 | ||||
10000 | 52367 | 數(shù)據(jù)來源 | 廣州動物園 | ||||
10001 | 52367 | 事物分類 | 動物管理系統(tǒng) | ||||
10002 | 52367 | 事物分類 | 企鵝 | ||||
10003 | 52367 | 事物分類 | 帝企鵝 | ||||
10004 | 52367 | 事物分類 | 動物檔案 | ||||
10005 | 52367 | 大數(shù)據(jù)識別碼 | GZQE0003 | ||||
10006 | 52367 | 名字 | 漢武帝 | ||||
10007 | 52367 | 購入日期 | 2013-3-21 | ||||
10008 | 52367 | 身高 | 1.2 | m | |||
10009 | 52367 | 體重 | 20 | kg | |||
10010 | 52367 | 出生日期 | 2011-4-2 | ||||
10011 | 52367 | 照片 | JPG | ||||
10012 | 52367 | 籠舍編號 | 098 | ||||
10013 | 52367 | 管理員 | 張三 | ||||
10014 | 52367 | 父 | GZQE0001 | ||||
10015 | 52367 | 母 | GZQE0002 | ||||
10016 | 52367 | 性別 | 雄 |
關(guān)系數(shù)據(jù)庫的最大問題就是數(shù)據(jù)結(jié)構(gòu)不標準。關(guān)系數(shù)據(jù)庫理論對數(shù)據(jù)結(jié)構(gòu)沒有任何限制,完全由設計人員自由定義數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)結(jié)構(gòu)標準化是處理大數(shù)據(jù)的基礎(chǔ),數(shù)據(jù)結(jié)構(gòu)不標準會導致數(shù)據(jù)處理非常困難。
9、數(shù)據(jù)的累加性
數(shù)據(jù)的累加性:是指“使數(shù)據(jù)可以(猶如圖書那樣)不經(jīng)任何處理即可累加在一起”。
針對的問題:當前的關(guān)系數(shù)據(jù)庫系統(tǒng)已產(chǎn)生了很多數(shù)據(jù),然而這些數(shù)據(jù)都不能累加成大數(shù)據(jù)。
數(shù)據(jù)優(yōu)化方法九:數(shù)據(jù)的累加性可通過“數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性、數(shù)據(jù)的識別性、數(shù)據(jù)的獨立性、數(shù)據(jù)的完整性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)與系統(tǒng)的耦合性、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”來實現(xiàn)的,也可以說只有同時擁有這些屬性的數(shù)據(jù)才具有累加性。
傳統(tǒng)的寫在紙上的信息具有可累加性,圖書館就是眾多圖書之和,檔案館就是眾多檔案之和。數(shù)據(jù)若具有累加性,那么,廣州市政府各部門的數(shù)據(jù)全部以鏡像方式集中存貯到云平臺之后就等于建立了廣州市大數(shù)據(jù),全國97.8萬家醫(yī)療機構(gòu)的所有數(shù)據(jù)全部以鏡像的方式上傳到國家醫(yī)療大數(shù)據(jù)中心就等于建成了國家醫(yī)療大數(shù)據(jù)??上У氖牵斍暗母鞣N信息系統(tǒng)中的數(shù)據(jù)不具有累加性。
10、數(shù)據(jù)的移植性
數(shù)據(jù)的移植性:“無論把數(shù)據(jù)移植到任何環(huán)境中,數(shù)據(jù)都能保持原有含義不變,能讓各種信息系統(tǒng)識別,能讓用戶識別”,這樣的數(shù)據(jù)才具有移植性。
針對的問題:用關(guān)系數(shù)據(jù)庫所建立的信息系統(tǒng)難以互聯(lián)互通,即一個系統(tǒng)中數(shù)據(jù)不能移植到另一個系統(tǒng)中。
數(shù)據(jù)優(yōu)化方法十:數(shù)據(jù)的移植性是通過“數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性、數(shù)據(jù)的識別性、數(shù)據(jù)的獨立性、數(shù)據(jù)的完整性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)與系統(tǒng)的耦合性、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”來實現(xiàn)的,也可以說只有同時具有這些屬性的數(shù)據(jù)才具有移植性。
數(shù)據(jù)的移植性關(guān)系到信息系統(tǒng)的互聯(lián)互通。具有移植性的數(shù)據(jù)才能任意地在各個系統(tǒng)之間互聯(lián)互通。數(shù)據(jù)的移植性與數(shù)據(jù)的累加性是一樣的,具有移植性的數(shù)據(jù)也具有累加性,只是數(shù)據(jù)的移植性是用來體現(xiàn)數(shù)據(jù)是否可以在各個系統(tǒng)之間互聯(lián)互通,數(shù)據(jù)的累加性指的是能否把眾多的小數(shù)據(jù)累加成大數(shù)據(jù)。
11、數(shù)據(jù)的時間性
數(shù)據(jù)的時間性:大數(shù)據(jù)中的每一個數(shù)據(jù)都應有相應的時間。
數(shù)據(jù)優(yōu)化方法十一:為每一個數(shù)據(jù)增加時間戳。
12、數(shù)據(jù)的真實性
數(shù)據(jù)的真實性:小數(shù)據(jù)猶如自己記帳而產(chǎn)生的數(shù)據(jù),大數(shù)據(jù)猶如不同單位之間的資金來往而產(chǎn)生的數(shù)據(jù),因此大數(shù)據(jù)的真實性就是非常重要的。
數(shù)據(jù)優(yōu)化方法十二:必須把數(shù)據(jù)防偽、數(shù)據(jù)防篡改當作重要工作,可通過第三方認證、第三方公證、第三方數(shù)據(jù)備案的方法使數(shù)據(jù)的真實性得到保證。
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。