您好,登錄后才能下訂單哦!
說明2:數(shù)據(jù)的唯一性是實(shí)現(xiàn)“數(shù)據(jù)全球通”的基礎(chǔ)
在班、組這樣的小環(huán)境中可以用每個人的姓名而區(qū)分出每一個人,然而在全國范圍內(nèi),由于人數(shù)太多,重名的很多,因此僅靠姓名就不能準(zhǔn)確無誤地識別出每一個人。大數(shù)據(jù)時(shí)代以前的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只是應(yīng)用于某個機(jī)構(gòu)內(nèi)部,因此各個數(shù)據(jù)就容易識別,然而如果把關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)放到大數(shù)據(jù)環(huán)境中,那么這些數(shù)據(jù)就成了不可識別的數(shù)據(jù)。在大數(shù)據(jù)環(huán)境中,有關(guān)人的所有數(shù)據(jù)都必須含有“×××號”,這是為了表明數(shù)據(jù)的唯一性。
關(guān)系數(shù)據(jù)庫用“ID”來表明每張表中的數(shù)據(jù)的唯一性。關(guān)系數(shù)據(jù)庫所考慮的只是一張表中的數(shù)據(jù)的唯一性問題,而未考慮大數(shù)據(jù)環(huán)境中的數(shù)據(jù)唯一性問題。例如,在很多醫(yī)療信息系統(tǒng)中,只是用“門診號”、“住院號”來標(biāo)識患者的信息,而未含有患者的×××號。如果要在國家醫(yī)療大數(shù)據(jù)環(huán)境中查詢某個患者的病史數(shù)據(jù),那么,就會由于患者的數(shù)據(jù)中未含有×××號而為查詢造成非常大的困難,因?yàn)榛颊叩牟∈窋?shù)據(jù)有可能包含在全國97.8萬家醫(yī)療機(jī)構(gòu)所產(chǎn)生的數(shù)百萬張以上的表中。
在大數(shù)據(jù)環(huán)境中,每個事物的數(shù)據(jù)的“數(shù)據(jù)的唯一性”就是一個非常重要的問題?!皵?shù)據(jù)的唯一性”是確保數(shù)據(jù)在大數(shù)據(jù)環(huán)境中具有“數(shù)據(jù)的識別性”的一個關(guān)鍵。例如,在生產(chǎn)廠家、經(jīng)銷商的信息系統(tǒng)中,同一件商品的代號都必須是全球唯一的、統(tǒng)一的、標(biāo)準(zhǔn)的,這樣才能確保在大數(shù)據(jù)環(huán)境中數(shù)據(jù)是可識別的。然而,目前國際上還未做到這一點(diǎn),各家企業(yè)的信息系統(tǒng)都有自己的編碼方式,各不相同,針對同一種商品,不同企業(yè)的編碼是不一樣的,這為數(shù)據(jù)的全球通及大數(shù)據(jù)分析造成了很大的困難。
合格的大數(shù)據(jù)應(yīng)該是:在藥店買一盒藥,可以根據(jù)這盒藥上面的唯一的編碼而查詢到這盒藥的整個生產(chǎn)、流通環(huán)節(jié)各種相關(guān)情況,是哪個廠家生產(chǎn)的,何時(shí)生產(chǎn),何時(shí)出廠,中間經(jīng)過了哪幾個中間商。
世界經(jīng)濟(jì)最需要的是“數(shù)據(jù)全球通”,即全球所有企業(yè)的信息系統(tǒng)中的各種數(shù)據(jù)都可以“互聯(lián)互通”,或者說“全球任何兩個企業(yè)的信息系統(tǒng)之間都可以及時(shí)地發(fā)送、接收任何商品的數(shù)據(jù)?!碑?dāng)前的實(shí)際情況是:每家企業(yè)都有獨(dú)有的產(chǎn)品編碼規(guī)則,當(dāng)企業(yè)接到訂單時(shí),還需要手工把訂單數(shù)據(jù)轉(zhuǎn)換為自己的信息系統(tǒng)可識別的數(shù)據(jù),然后自己的系統(tǒng)才能處理客戶的訂單數(shù)據(jù),只有極少數(shù)的企業(yè)的信息系統(tǒng)可以直接處理上游企業(yè)發(fā)來的數(shù)據(jù)。這種“全球數(shù)據(jù)都不通”的現(xiàn)象的根本原因就在于當(dāng)前的數(shù)據(jù)缺乏“數(shù)據(jù)的唯一性”,沒有國際統(tǒng)一的、標(biāo)準(zhǔn)的商品編碼標(biāo)準(zhǔn)為“數(shù)據(jù)的唯一性”提供支持。
要跟蹤一種商品在世界各地的流通情況,“數(shù)據(jù)的唯一性”是基礎(chǔ)。一種商品的數(shù)據(jù)會出現(xiàn)在全球數(shù)百萬個企業(yè)的信息系統(tǒng)中,只有體現(xiàn)“數(shù)據(jù)的唯一性”的大數(shù)據(jù)識別碼才能準(zhǔn)確無誤地從數(shù)百萬個信息系統(tǒng)中把這種商品的數(shù)據(jù)識別出來。全球大數(shù)據(jù)統(tǒng)一編碼、解碼(可稱作為大數(shù)據(jù)識別碼)是大數(shù)據(jù)中的一項(xiàng)非常重要的工作,也是一項(xiàng)非常復(fù)雜的工作。在國際貿(mào)易中訂單、商品的全球統(tǒng)一編碼、解碼就非常重要,這是商品“數(shù)據(jù)全球通”的基礎(chǔ)。
對企業(yè)而言,在大數(shù)據(jù)時(shí)代,訂單、商品數(shù)據(jù)的國際標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)是全球企業(yè)實(shí)現(xiàn)“數(shù)據(jù)全球通”的基礎(chǔ)。沒有訂單、商品的標(biāo)準(zhǔn),企業(yè)就不能進(jìn)入到大數(shù)據(jù)時(shí)代。
說明3:數(shù)據(jù)的歸屬性是區(qū)分大數(shù)據(jù)與小數(shù)據(jù)的一個關(guān)鍵
如果從關(guān)系數(shù)據(jù)庫理論的角度來看,增加“數(shù)據(jù)來源”會使系統(tǒng)中產(chǎn)生大量的冗余數(shù)據(jù)。然而,在大數(shù)據(jù)時(shí)代,所要處理的數(shù)據(jù)來源于數(shù)百萬個以上的信息系統(tǒng),因此,就非常有必要說清楚各個數(shù)據(jù)從何而來,不然,就無法區(qū)分眾多的數(shù)據(jù)。在大數(shù)據(jù)環(huán)境中,“數(shù)據(jù)來源”就是非常關(guān)鍵的數(shù)據(jù),也是必不可少的。在大數(shù)據(jù)中,為每一個數(shù)據(jù)都增加“數(shù)據(jù)來源”數(shù)據(jù)項(xiàng)的目的就是讓數(shù)據(jù)無論在哪里都能獨(dú)立地、完整地表達(dá)出其完整的含義。數(shù)據(jù)如物,人類社會的各種物都有其主,數(shù)據(jù)也應(yīng)有其主。
區(qū)分大數(shù)據(jù)與小數(shù)據(jù)的一個關(guān)鍵指標(biāo)就是數(shù)據(jù)中是否含有“數(shù)據(jù)來源”。凡是不含有“數(shù)據(jù)來源”的數(shù)據(jù)都是小數(shù)據(jù),都是不合格的結(jié)構(gòu)化大數(shù)據(jù),這是關(guān)系數(shù)據(jù)庫高手很難理解的,然而這也是數(shù)據(jù)庫技術(shù)人員的思想觀念是否已轉(zhuǎn)到大數(shù)據(jù)時(shí)代的一個標(biāo)志。大數(shù)據(jù)所面對的是:數(shù)十萬家以上的單位,數(shù)百萬個以上的信息系統(tǒng),數(shù)千萬以上的表,數(shù)萬億以上的數(shù)據(jù)。在大數(shù)據(jù)環(huán)境中,沒有“數(shù)據(jù)來源”就會引起大混亂。在大數(shù)據(jù)時(shí)代,有了“數(shù)據(jù)來源”可以大幅度減少編寫程序代碼的行數(shù),在數(shù)據(jù)交換時(shí)就需要有“數(shù)據(jù)來源”,數(shù)據(jù)共享時(shí),需要有“數(shù)據(jù)來源”。
說明4:數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化是實(shí)現(xiàn)萬能查詢的關(guān)鍵
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是在模仿大腦的記憶、聯(lián)想、思維的基礎(chǔ)上而創(chuàng)立的,開始于1982年,當(dāng)時(shí)是希望計(jì)算機(jī)能模仿人的大腦的聯(lián)想功能(即查詢)。人的大腦在處理數(shù)據(jù)時(shí)所采用的技術(shù)是“超級高保真數(shù)據(jù)處理技術(shù)”。“數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化是實(shí)現(xiàn)萬能查詢的關(guān)鍵”,這需要從人的大腦的超級高保真數(shù)據(jù)處理技術(shù)的角度來理解。目前人們都是從計(jì)算機(jī)技術(shù)的角度來解讀什么是“數(shù)據(jù)”,實(shí)際上從人的大腦記憶、聯(lián)想、思維的角度來解讀什么是“數(shù)據(jù)”才是最合適的。
人的大腦是大自然界最優(yōu)秀的“計(jì)算機(jī)”。人的大腦中所存貯的才是真正合格的“數(shù)據(jù)”。人的大腦中的“數(shù)據(jù)”是“超級高保真數(shù)據(jù)”。人的大腦中的數(shù)據(jù)都是模擬數(shù)據(jù),幾乎是不失真的,是超級的高保真數(shù)據(jù),是真正的數(shù)據(jù),能非常真實(shí)地反映自然界的各種事物,是自然界的各種事物的在大腦中的一個縮影。人的大腦中的數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系是以事物的自然屬性而自然地建立起來的自然關(guān)系,可以真實(shí)地反映到自然界的各種事物之間微妙關(guān)系,這才是大腦具有超強(qiáng)功能的根本。
計(jì)算機(jī)中的數(shù)據(jù)是死的,人的大腦中的信息是活的。大腦可以突破時(shí)間、空間,隨時(shí)地激活大腦中的“各種事物”,回放過去的各種場景。計(jì)算機(jī)也可以放電影,但是計(jì)算機(jī)不能為電影中的各個事物建立聯(lián)想關(guān)系。人的大腦可以由一個場景而聯(lián)想到另一個場景,計(jì)算機(jī)就不能。大腦在回憶北京的故宮、長城時(shí),眨眼間就可回憶起在上海的黃埔,又一眨眼就跑到了貴州黃果樹。大腦可實(shí)現(xiàn)“瞬間數(shù)千年,眨眼九×××”。計(jì)算機(jī)中的數(shù)據(jù)與數(shù)據(jù)之間沒有什么關(guān)系,然而任何輸入到人的大腦中的事物的信息,人的大腦都會自動地與大腦中的相關(guān)事物信息之間形成聯(lián)想關(guān)系,這種聯(lián)想關(guān)系是根據(jù)事物的自然屬性而建立的。
人的大腦的超級高保真數(shù)據(jù)處理技術(shù)主要有四種:1、超級高保真數(shù)據(jù)采集技術(shù);2、超級高保真數(shù)據(jù)存貯及再現(xiàn)技術(shù);3、超級高保真形成數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系技術(shù)(形成聯(lián)想關(guān)系);4、超級高保真利用數(shù)據(jù)之間的關(guān)系技術(shù)(即以聯(lián)想來處理數(shù)據(jù))。
用當(dāng)前的技術(shù)可以比較好地模仿大腦的“超級高保真數(shù)據(jù)采集技術(shù)”及“超級高保真數(shù)據(jù)存貯及再現(xiàn)技術(shù)”。然而現(xiàn)有技術(shù)無法全面實(shí)現(xiàn)(甚至說根本無法模仿)大腦的“超級高保真形成數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系技術(shù)”和大腦的“超級高保真數(shù)據(jù)處理技術(shù)”,這兩種技術(shù)才是大腦具有超級功能的根本。
超級高保真數(shù)據(jù)采集技術(shù):大腦是通過視覺、聽覺、觸覺、嗅覺、味覺、痛覺等感覺器官而采集數(shù)據(jù)。
超級高保真存貯及真實(shí)再現(xiàn)數(shù)據(jù)技術(shù):大腦不但可以以超級高保真的形式存貯數(shù)據(jù),猶如把自然界的事物“搬”到了大腦中,而且還可突破時(shí)間、空間使以往的事物隨意再現(xiàn)(聯(lián)想)。大腦中的數(shù)據(jù)是自然界真實(shí)的具體的事物的縮影。
超級高保真建立數(shù)據(jù)之間的關(guān)系技術(shù):大腦不但可以采集、存貯數(shù)據(jù),更重要的是,大腦可以自動地讓數(shù)據(jù)在大腦中形成相似聯(lián)想、接近聯(lián)想、同時(shí)聯(lián)想關(guān)系。大腦中的數(shù)據(jù)聯(lián)想關(guān)系是根據(jù)事物的自然屬性而自然地建立的。大腦不只是超級高保真存貯了數(shù)據(jù),而且還超級高保真地存貯了數(shù)據(jù)與數(shù)據(jù)之間的自然關(guān)系。這是現(xiàn)有技術(shù)難以模仿的。
超級高保真利用數(shù)據(jù)之間的關(guān)系技術(shù)(數(shù)據(jù)處理技術(shù)):計(jì)算機(jī)所處理的只是數(shù)字信號,而人的大腦所處理的全是模擬信號。大腦以相似聯(lián)想、同時(shí)聯(lián)想、接近聯(lián)想等方式處理超級高保真的模擬數(shù)據(jù)(即大腦思維)?,F(xiàn)有技術(shù)根本無法全面模仿這種技術(shù),只能局部模仿。
下面用事例比較詳細(xì)地說明“大腦的超級高保真數(shù)據(jù)處理技術(shù)”。主要說明:自然事物、事物的屬性、大腦根據(jù)事物的屬性而進(jìn)行聯(lián)想、推理,以及數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)想關(guān)系是根據(jù)事物的自然屬性而建立的。
1、“人可以通過聽聲音而判斷出你是在敲鐵塊,還是在敲木頭?!边@是因?yàn)椋谌说拇竽X的記憶中,敲鐵塊發(fā)出的聲音已非常自然地與鐵塊聯(lián)系在一起,敲木頭的聲音已非常自然地與木頭自然地聯(lián)系在一起,這些信息都是人們在日常生活中所接收到的。因此,人們可以通過聲音而聯(lián)想到相應(yīng)的事物。計(jì)算機(jī)也可以存貯音像文件,然而計(jì)算機(jī)不能實(shí)現(xiàn)聲音與圖像之間的自然聯(lián)系,也不能靈活地識別聲音和圖像。
2、“我在手中輕輕地把松花蛋拋起幾次,就可以判斷出這個松花蛋是不是好的。”這是因?yàn)楹玫乃苫ǖ霸谑种休p拋時(shí),手掌就會感到一種輕微的顫動,而生雞蛋、熟雞蛋就不會產(chǎn)生顫動,壞的松花蛋也不會產(chǎn)生顫動。在我的大腦的記憶中,顫動已與松花蛋自然地建立了聯(lián)系。
3、“買雞蛋時(shí),把雞蛋拿在手中輕輕地?fù)u一搖就可以判斷出雞蛋的好壞?!眽碾u蛋,或者說放時(shí)間長的雞蛋,用手輕輕地?fù)u一搖,雞蛋里面的蛋黃、蛋清就會動,而好雞蛋中的蛋黃蛋清就不會動。在我的大腦記憶中,這些有關(guān)雞蛋的信息,已自然地與雞蛋的好壞建立起了聯(lián)系。
4、“看見窗外樹在動,就知道刮風(fēng)了?!比说拇竽X中已存貯了風(fēng)吹樹動的信息。
5、“看見窗外的樹在動,就知道那是有人在搖樹?!币?yàn)槿藫u樹與風(fēng)吹樹是不一樣的。風(fēng)吹樹,很多樹都動。人搖樹,只有一棵樹在動,其它樹不動。而且人搖樹引起的樹動,與風(fēng)吹樹引起的樹動是有差別的。
與人的大腦相比,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)幾乎是百分之百的失真數(shù)據(jù)。關(guān)系數(shù)據(jù)庫是人為地為數(shù)據(jù)建立關(guān)系,關(guān)系數(shù)據(jù)庫理論認(rèn)為這是關(guān)系數(shù)據(jù)庫的最突出的優(yōu)勢,然而這才是關(guān)系數(shù)據(jù)庫的最致命的缺陷!因?yàn)?,人為地為?shù)據(jù)建立關(guān)系,破壞了自然界的事物之間本身的自然聯(lián)系。關(guān)系數(shù)據(jù)庫不能象人的大腦那樣根據(jù)事物的自然屬性而建立聯(lián)系。關(guān)系數(shù)據(jù)庫的一個優(yōu)點(diǎn)是數(shù)據(jù)冗余非常小。然而這也是關(guān)系數(shù)據(jù)庫的致命缺陷!因?yàn)殛P(guān)系數(shù)據(jù)庫在降低了數(shù)據(jù)冗余的同時(shí)也導(dǎo)致數(shù)據(jù)嚴(yán)重失真。嚴(yán)重失真的數(shù)據(jù)就不能根據(jù)事物的自然屬性而自然地建立關(guān)系。
關(guān)系數(shù)據(jù)庫把數(shù)據(jù)存貯在不同的表中,這樣就割裂了事物與事物之間的自然屬性之間的關(guān)系。關(guān)系數(shù)據(jù)庫把同一類事物的數(shù)據(jù)存貯在同一張表中,不同類的事物的數(shù)據(jù)存貯在不同的表中。大腦是根據(jù)事物的自然屬性而對事物進(jìn)行分類,事物是不是同一類,由事物的自然屬性決定,擁有相同屬性的事物就是同一類事物。塑料盆、塑料杯子、塑料袋子、塑料桶,形態(tài)各不相同,大腦是根據(jù)塑料的自然屬性而把它們歸為一類。對于塑料杯子、玻璃杯子、鋼杯子,大腦是根據(jù)“杯子”的自然屬性而把它們歸為一類。大腦中的數(shù)據(jù)都在同一張表中,大腦根據(jù)事物的自然屬性就可以非常靈活地對各種數(shù)據(jù)進(jìn)行分類。
“數(shù)據(jù)”并不只是一個代號、符號,真正的“數(shù)據(jù)”應(yīng)該是自然界的具體事物的縮影。人的大腦可以把敲鐵塊所發(fā)出的聲音自然地與鐵聯(lián)系在一起,關(guān)系數(shù)據(jù)庫就不能讓“數(shù)據(jù)”實(shí)現(xiàn)這樣的自然聯(lián)系。
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議模仿了大腦的超級高保真數(shù)據(jù)處理技術(shù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是要堅(jiān)決鏟除關(guān)系數(shù)據(jù)庫中的“人為關(guān)系”,讓數(shù)據(jù)獨(dú)立地、自然地根據(jù)事物的自然屬性而建立“自然的關(guān)系”。關(guān)系數(shù)據(jù)庫中的關(guān)系是人為建立的,破壞了事物之間的自然關(guān)系。要想使計(jì)算機(jī)接近人的大腦的超級思維功能,就必須象大腦那樣使數(shù)據(jù)盡量地少失真,使數(shù)據(jù)能夠根據(jù)事物的自然屬性而建立自然的關(guān)系。也必須堅(jiān)決地鏟除人為地為數(shù)據(jù)建立的關(guān)系,因?yàn)槿藶榈年P(guān)系肯定會破壞數(shù)據(jù)與數(shù)據(jù)之間的自然關(guān)系。
計(jì)算機(jī)中的“數(shù)據(jù)”的概念非常狹隘。“數(shù)據(jù)”不應(yīng)該只是“數(shù)字”、“代號”,而且還應(yīng)該是自然界的事物的真實(shí)反映,更重要的是也應(yīng)該反映出“數(shù)據(jù)”與“數(shù)據(jù)”之間的自然關(guān)系。計(jì)算機(jī)中的“手機(jī)”只是數(shù)字,而人的大腦中的“手機(jī)”卻是真實(shí)的“手機(jī)”的真實(shí)的反映,大腦通過視覺、聽覺、觸覺接收到了海量的有關(guān)“手機(jī)”的各種各樣的信號。合格的“數(shù)據(jù)”應(yīng)該是失真程度最少的,能夠比較全面地反映具體的事物,也能真實(shí)反映出事物之間的自然關(guān)系。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不能真實(shí)地反映出數(shù)據(jù)與數(shù)據(jù)之間的自然關(guān)系。數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系絕對不能人為地建立,而應(yīng)該是由事物本身的自然屬性而自然地建立關(guān)系。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是通過一定量的“數(shù)據(jù)冗余”而使數(shù)據(jù)盡量地少失真,使“數(shù)據(jù)”與“數(shù)據(jù)”之間自然地根據(jù)事物的自然屬性而建立“自然的關(guān)系”。
“信息系統(tǒng)名、數(shù)據(jù)庫名、表名、字段名”要用標(biāo)準(zhǔn)化的、統(tǒng)一的、規(guī)范的自然語言,盡量不用代碼,以便實(shí)現(xiàn)“聯(lián)想”。信息系統(tǒng)的名稱、數(shù)據(jù)庫的名稱、表名、字段名都是非常重要的事物屬性,都具有重要含義。關(guān)系數(shù)據(jù)庫系統(tǒng)的設(shè)計(jì)人員習(xí)慣于用代碼、英文縮寫、漢語拼音縮寫作為數(shù)據(jù)庫名、表名、字段名。這就導(dǎo)致普通用戶看不懂關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)。關(guān)系數(shù)據(jù)庫忽視了這種信息,因?yàn)樗幚淼氖切?shù)據(jù)。在大數(shù)據(jù)環(huán)境中,這些信息就是非常重要的,不能缺省。
在結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議中,為了使數(shù)據(jù)具有獨(dú)立性、完整性、可識別性,在每個數(shù)據(jù)中都增加了“信息系統(tǒng)的名稱、數(shù)據(jù)庫的名稱、表名”,“信息系統(tǒng)的名稱、數(shù)據(jù)庫的名稱、表名”實(shí)際上是事物的“分類”,或者說是事物的屬性。這種做法是關(guān)系數(shù)據(jù)高手所難以理解的、不可思議的,因?yàn)檫@種做法增加了大量的數(shù)據(jù)冗余。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議在“數(shù)據(jù)冗余”與“數(shù)據(jù)的獨(dú)立性、數(shù)據(jù)的完整性、數(shù)據(jù)的識別性、數(shù)據(jù)與系統(tǒng)的耦合度”之間選擇后者。其目的是讓不懂技術(shù)的普通人也能看懂?dāng)?shù)據(jù)的真實(shí)含義。
關(guān)系數(shù)據(jù)庫的數(shù)據(jù)冗余非常少,但其代價(jià)是,不懂技術(shù)的普通人看不懂關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只能存貯在相應(yīng)的數(shù)據(jù)庫中,一旦脫離了相應(yīng)的數(shù)據(jù)庫就變成了無意義的數(shù)據(jù)。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)需要通過大量的應(yīng)用程序的翻譯才能讓普通用戶讀懂。
如果數(shù)據(jù)庫中的數(shù)據(jù)都是標(biāo)準(zhǔn)化的、規(guī)范化的,那么,這些數(shù)據(jù)就可以自然地根據(jù)“萬能數(shù)據(jù)結(jié)構(gòu)表”中的“事物屬性”和“事物屬性值”而自動地聯(lián)立起自然的“聯(lián)想”關(guān)系(通過索引而建立)。由于利用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所建立的各種信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)全部存貯在一張,或若干張結(jié)構(gòu)完全一樣的“萬能數(shù)據(jù)結(jié)構(gòu)表”中,所以可以很容易地編寫出通用的“萬能查詢”工具。例如,如果全國的各種醫(yī)療信息系統(tǒng)都是用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議而建立的,那么就可以通過患者的×××號而方便地從國家醫(yī)療大數(shù)據(jù)中心而“聯(lián)想”(查詢)到患者的病史數(shù)據(jù)。因?yàn)榛颊叩牟∈分械拿織l數(shù)據(jù)中都含有×××號(大數(shù)據(jù)識別碼),通過患者的×××號就可以“聯(lián)想”到與患者有關(guān)的所有數(shù)據(jù)。而當(dāng)前的各種醫(yī)療數(shù)據(jù)中不一定含有患者×××號,所以從全國各家醫(yī)院的信息系統(tǒng)中查詢患者的病史數(shù)據(jù)就非常困難。
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議之所以用大量的“數(shù)據(jù)冗余”而使數(shù)據(jù)滿足12個技術(shù)特性,其根本目的就是為了使數(shù)據(jù)成為“高保真的數(shù)據(jù)”,“數(shù)據(jù)冗余”彌補(bǔ)了數(shù)據(jù)的失真,只有“高保真的數(shù)據(jù)”才能使信息系統(tǒng)可以象人的大腦那樣實(shí)現(xiàn)“超級高保真數(shù)據(jù)處理”。
說明5:不必進(jìn)行ETL轉(zhuǎn)換即可高效挖掘并可實(shí)現(xiàn)萬能查詢
要對當(dāng)前的全國的醫(yī)療數(shù)據(jù)進(jìn)行挖掘?qū)⑹欠浅@щy的,原因在于當(dāng)前的各種信息系統(tǒng)中的數(shù)據(jù)不標(biāo)準(zhǔn)、不規(guī)范。例如:醫(yī)療行業(yè)有數(shù)百萬張表,數(shù)千億條記錄,各表的結(jié)構(gòu)各不相同。對如此之多的結(jié)構(gòu)各不相同的表中的數(shù)據(jù)進(jìn)行挖掘、查詢,需要編寫大量的程序。如果全國的各家醫(yī)療機(jī)構(gòu)的各種信息系統(tǒng)全部是按結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議而設(shè)計(jì),那么對這樣的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)進(jìn)行挖掘、查詢將是很容易的。因?yàn)檫@些信息系統(tǒng)全都采用“萬能數(shù)據(jù)結(jié)構(gòu)表”,其中的數(shù)據(jù)全是標(biāo)準(zhǔn)的、規(guī)范的、統(tǒng)一的。
表五:兩種方法的數(shù)據(jù)挖掘、查詢效果對比表
序號 | 對比內(nèi)容 | 用關(guān)系數(shù)據(jù)庫而建設(shè)的當(dāng)前的 全國醫(yī)療的各種信息系統(tǒng) | 用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議而建設(shè)的全國醫(yī)療的各種信息系統(tǒng) |
1 | 表的數(shù)量及結(jié)構(gòu) | 數(shù)百萬張以上的表,各表結(jié)構(gòu)各不相同。 | 數(shù)百萬張表,各表的結(jié)構(gòu)完全相同,全部采用“萬能數(shù)據(jù)結(jié)構(gòu)表”。 |
2 | 數(shù)據(jù)量 | 數(shù)千億條 | 數(shù)千億條 |
3 | ETL、數(shù)據(jù)挖掘 | 因各家醫(yī)療機(jī)構(gòu)的數(shù)據(jù)全都不標(biāo)準(zhǔn)、不規(guī)范、不統(tǒng)一,ETL的難度非常高,數(shù)據(jù)挖掘成本非常高。因性別、癥狀名稱、疾病名稱、藥名各不相同,不統(tǒng)一,數(shù)據(jù)挖掘、統(tǒng)計(jì)、分析非常困難。 | 在信息系統(tǒng)的設(shè)計(jì)階段,在數(shù)據(jù)采集階段,在產(chǎn)生數(shù)據(jù)階段,全部都采用標(biāo)準(zhǔn)的、規(guī)范的、全國統(tǒng)一的數(shù)據(jù),不需要ETL就已是標(biāo)準(zhǔn)的、規(guī)范的、全國統(tǒng)一的數(shù)據(jù),數(shù)據(jù)挖掘、統(tǒng)計(jì)、分析非常容易。 |
4 | 以查詢患者病史為例 | 要對全國的數(shù)百萬張結(jié)構(gòu)各不相同的表進(jìn)行查詢,需要編寫大量的程序,成本非常高。各醫(yī)療機(jī)構(gòu)是以住院號、門診號作為標(biāo)識而記錄患者的各種數(shù)據(jù),而各家醫(yī)院的住院號、門診號的編碼各不相同,相互之間沒有規(guī)律,在全國范圍內(nèi)查患者病史數(shù)據(jù)很難。需要先根據(jù)患者的名稱、×××號從全國97.8萬醫(yī)療機(jī)構(gòu)的信息系統(tǒng)中分別查詢患者是否有就診記錄,若有還要查相應(yīng)的住院號、門診號,然后再根據(jù)住院號、門診號而從各種表中查詢患者的病史數(shù)據(jù)。(注:由于原來沒有“數(shù)據(jù)的唯一性”、大數(shù)據(jù)識別碼的概念,同一患者的醫(yī)療數(shù)據(jù),在不同的醫(yī)療機(jī)構(gòu)的表現(xiàn)形式各不相同,識別方式也各不相同,不能保持“唯一”。) | 數(shù)據(jù)百萬張表,結(jié)構(gòu)完全相同。因此,可以通過技術(shù)處理,編寫一個通用的查詢工具,使用戶在查詢數(shù)據(jù)時(shí)猶如查詢一張表中的內(nèi)容。因?yàn)榕c患者相關(guān)的所有數(shù)據(jù)中都包含了患者×××號,因此只要通過×××號即可查詢到所有數(shù)據(jù)。有了通用的查詢工具后,查詢的難度及工作量大幅度減少(即只是查詢一張表中的數(shù)據(jù))。(注:這也體現(xiàn)出了“數(shù)據(jù)的唯一性”、大數(shù)據(jù)識別碼在大數(shù)據(jù)中強(qiáng)大作用。) |
5 | 萬能查詢 | 要從數(shù)百萬張結(jié)構(gòu)各不相同的表中查詢數(shù)據(jù),不能實(shí)現(xiàn)萬能查詢。 | 經(jīng)技術(shù)處理后,猶如只有一張表,可實(shí)現(xiàn)萬能查詢,只要編寫一個通用的軟件工具即可。 |
“大數(shù)據(jù)的最關(guān)鍵技術(shù)是查詢技術(shù)”:大數(shù)據(jù)的特點(diǎn)是大,正因?yàn)榇?,要想獲得所需數(shù)據(jù)特別困難,因此,從大數(shù)據(jù)中查詢到所需要的數(shù)據(jù)就是最關(guān)鍵的,然后才是對查詢到的數(shù)據(jù)的分析、統(tǒng)計(jì)。因此,可以說“大數(shù)據(jù)就是查詢”,大數(shù)據(jù)的前期工作是為查詢做準(zhǔn)備,大數(shù)據(jù)的后期工作是對查詢到數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析,大數(shù)據(jù)的各種工作都是以查詢?yōu)橹行亩归_的。
說明6:利用結(jié)構(gòu)化大數(shù)據(jù)的12個技術(shù)特性為大數(shù)據(jù)的真實(shí)性提供技術(shù)保障
大數(shù)據(jù)是一種象石油一樣重要的資源。大數(shù)據(jù)的真實(shí)性是大數(shù)據(jù)的基礎(chǔ),失去了真實(shí)性的大數(shù)據(jù)就是數(shù)據(jù)垃圾。因此,在大數(shù)據(jù)時(shí)代,如何確保大數(shù)據(jù)的真實(shí)性,就是一項(xiàng)非常重要的任務(wù)。
在小數(shù)據(jù)時(shí)代,各種信息系統(tǒng)所處理的數(shù)據(jù)主要是各單位內(nèi)部的數(shù)據(jù),數(shù)據(jù)的真實(shí)性主要由各單位自己控制。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)不只是在各單位的內(nèi)部流通,更需要在國內(nèi)外各個單位之間流通,因此,大數(shù)據(jù)的真實(shí)性、公證性、權(quán)威性就需要得到保證,必須使大數(shù)據(jù)象公文那樣具有法律效力。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議從技術(shù)的角度為大數(shù)據(jù)的真實(shí)性提供了保障?!皵?shù)據(jù)的唯一性”是控制大數(shù)據(jù)的“數(shù)據(jù)的真實(shí)性”的關(guān)鍵?!皵?shù)據(jù)的唯一性”可通過大數(shù)據(jù)識別碼來體現(xiàn),控制大數(shù)據(jù)的“數(shù)據(jù)的真實(shí)性”可通過控制大數(shù)據(jù)的識別碼來實(shí)現(xiàn),大數(shù)據(jù)識別碼是事物的數(shù)據(jù)的“×××”,一個事物的數(shù)據(jù)無論處于什么環(huán)境中,其大數(shù)據(jù)識別碼都是唯一的。大數(shù)據(jù)不只數(shù)據(jù)、代碼、符號,也是一種資源,象一種商品,也象物品,也象財(cái)產(chǎn),因此要象對待資源、商品、物品、財(cái)產(chǎn)那樣來管理大數(shù)據(jù)。物流、人流需要大量的交通警察來控制,數(shù)據(jù)流也要控制。國家是通過工商局、海關(guān)等機(jī)構(gòu)來管理控制商品,大數(shù)據(jù)的真實(shí)性也需要采用類似工商局、海關(guān)管理控制商品的方法來管理控制,由各個國家的工商局(或法院、公安部、工信委等)的國家級大數(shù)據(jù)中心負(fù)責(zé)管理控制大數(shù)據(jù)的真實(shí)性比較合適。
各種商品、訂單等的大數(shù)據(jù)識別碼由各國的國家級大數(shù)據(jù)中心負(fù)責(zé)編碼及發(fā)放工作,并對大數(shù)據(jù)識別碼進(jìn)行備案。國家級大數(shù)據(jù)中心負(fù)責(zé)各單位的各種資質(zhì)的審核工作,只有通過了國家級大數(shù)據(jù)中心審核的單位才有資格獲得的商品、訂單等的大數(shù)據(jù)識別碼。國家級大數(shù)據(jù)中心只負(fù)責(zé)發(fā)放大數(shù)據(jù)識別碼,不負(fù)責(zé)商品、訂單等的數(shù)據(jù)的真實(shí)性的審核。數(shù)據(jù)的真實(shí)性出現(xiàn)問題并發(fā)生糾紛時(shí)國家級大數(shù)據(jù)中心的“數(shù)據(jù)警察”對數(shù)據(jù)的真實(shí)性進(jìn)行審核,并根據(jù)審核結(jié)果而進(jìn)行相應(yīng)的處罰,并把結(jié)果記錄在案。猶如交通,司機(jī)對自己的行為負(fù)責(zé),只是出現(xiàn)交通事故時(shí),交警才出現(xiàn)。
獲得了大數(shù)據(jù)識別碼的訂單、公文等要向國家級大數(shù)據(jù)中心或第三方公證機(jī)構(gòu)備案,有第三方公證機(jī)構(gòu)備案的訂單、公文等就猶如蓋了公章一樣具有法律效力。這樣做可以節(jié)約大量的紙質(zhì)文件,也節(jié)省訂單、公文等的傳遞的時(shí)間。
企業(yè)獲得了商品的大數(shù)據(jù)識別碼后需要把商品相應(yīng)的各種數(shù)據(jù)上傳到國家級大數(shù)據(jù)中心進(jìn)行備案。企業(yè)的客戶可以根據(jù)商品的大數(shù)據(jù)編碼通過國家級大數(shù)據(jù)中心而獲得商品的各種數(shù)據(jù)。
由于是全球統(tǒng)一編碼,各企業(yè)信息系統(tǒng)之間可以直接發(fā)送、接收訂單,并對訂單的內(nèi)容進(jìn)行解讀。訂單中的數(shù)據(jù)采用“萬能數(shù)據(jù)結(jié)構(gòu)表”來存貯,并使數(shù)據(jù)具有結(jié)構(gòu)化大數(shù)據(jù)的12個技術(shù)特性。訂單中的各項(xiàng)“事物屬性”(猶如字段名)必須是全球統(tǒng)一的。訂單中的各項(xiàng)“事物屬性”用各種不同的語言來表達(dá)時(shí)會各不相同,因此,也需要制訂全球標(biāo)準(zhǔn),使各項(xiàng)“事物屬性”在各種語言中都能按國際標(biāo)準(zhǔn)一一對應(yīng)。這樣就可以設(shè)計(jì)出通用的數(shù)據(jù)解讀、翻譯軟件工具,由軟件工具自動完成不同語言的訂單的翻譯工作。
當(dāng)前的問題:全球企業(yè)的信息系統(tǒng)之間不能互聯(lián)互通。原因是各個系統(tǒng)所采用的數(shù)據(jù)編碼不統(tǒng)一、不規(guī)范,企業(yè)的信息系統(tǒng)之間不能直接發(fā)送接收訂單數(shù)據(jù),需要人工把訂單數(shù)據(jù)再次錄入到自己的系統(tǒng)中。
大數(shù)據(jù)識別碼的好處:實(shí)現(xiàn)數(shù)據(jù)全球通。以及時(shí)、準(zhǔn)確、全面的數(shù)據(jù)流確保商品流等的順利流通。借助于大數(shù)據(jù)識別碼,企業(yè)可以利用全球數(shù)據(jù)十萬個、數(shù)百萬個信息系統(tǒng)而跟蹤商品在全球各地的銷售、庫存情況。全球企業(yè)信息系統(tǒng)互聯(lián)互通對供應(yīng)鏈上下游的企業(yè)都有好處,可為商品的生產(chǎn)、流通提供保障。
國家級大數(shù)據(jù)中心對各種組織及個人使用大數(shù)據(jù)識別碼的資格的認(rèn)證:各種組織及個人都可以獲得使用大數(shù)據(jù)識別碼的資格,但在使用前需要通過國家級大數(shù)據(jù)中心的審核,審核合格后發(fā)給具有法律效力的“大數(shù)據(jù)電子印章”。經(jīng)國家級大數(shù)據(jù)中心審核、認(rèn)證后可獲得使用大數(shù)據(jù)識別碼的各種相關(guān)功能的資格,可以發(fā)布相關(guān)信息。國家級大數(shù)據(jù)中心的公證性、權(quán)威性確保了大數(shù)據(jù)的“數(shù)據(jù)真實(shí)性”。大數(shù)據(jù)擁有了“數(shù)據(jù)真實(shí)性”之后,可以廣泛地應(yīng)用各個領(lǐng)域。
大數(shù)據(jù)識別碼在產(chǎn)品防假冒、藥品監(jiān)管方面具有廣泛的用途。企業(yè)可為每個商品申請一個大數(shù)據(jù)識別碼、一個驗(yàn)證碼。用戶購買到商品后,可通過手機(jī)根據(jù)商品的大數(shù)據(jù)識別碼而獲得驗(yàn)證碼,驗(yàn)證碼與商品上的相同則為正品,否則是假冒的,或者手機(jī)掃描二維碼即可得知是否假冒。
用大數(shù)據(jù)識別碼可以方便地管理各種證件,證件的驗(yàn)證非常方便,只要根據(jù)大數(shù)據(jù)識別碼就可以在國家級大數(shù)據(jù)中心查到證件的信息。例如可用于如下證件管理:企業(yè)的各種資質(zhì),個人的各種證書,企業(yè)的各種認(rèn)證,公證書,×××證,商檢合格證,結(jié)婚證,畢業(yè)證,駕照(不必再出示駕照,說出號、或出示二維碼即可)。甚至不必再各種發(fā)證書,只要發(fā)一個大數(shù)據(jù)證書即可。
用大數(shù)據(jù)識別碼可以方便地管理“合同、文件、契約、借條、聲明、各種承諾、票據(jù)、訂單、招標(biāo)文件、投標(biāo)文件”等。大數(shù)據(jù)中心也可以成為一個龐大的檔案管理系統(tǒng)。國際大數(shù)據(jù)中心為全球大數(shù)據(jù)的最高管理機(jī)構(gòu),由各個國家組成,負(fù)責(zé)全球大數(shù)據(jù)標(biāo)準(zhǔn)、規(guī)范的制訂,為全球大數(shù)據(jù)立規(guī)矩。
說明7:利用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所建立的各種信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)具有累加性
創(chuàng)立結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的初始想法:大數(shù)據(jù)就是數(shù)據(jù)量很大的數(shù)據(jù),當(dāng)前各行各業(yè)已有很多小數(shù)據(jù),這些小數(shù)據(jù)累加起來能不能稱作是大數(shù)據(jù)呢?可以稱作是大數(shù)據(jù),但不能稱作是合格的大數(shù)據(jù)。因?yàn)閷@些數(shù)據(jù)進(jìn)行挖掘非常困難!那么,如何使這些小數(shù)據(jù)以累加的方式成為合格的大數(shù)據(jù)?當(dāng)前的數(shù)據(jù)為什么不能累加成合格的大數(shù)據(jù)呢?因?yàn)殛P(guān)系數(shù)據(jù)庫產(chǎn)生的數(shù)據(jù)根本就不是真正的數(shù)據(jù),只能稱作是代碼!要真正了解什么是大數(shù)據(jù),需要首先搞清楚什么是“數(shù)據(jù)”,什么是“代碼”。
數(shù)據(jù)的定義:“能讓相應(yīng)專業(yè)的人員看懂的信息才稱作是真正的數(shù)據(jù)?!崩?,有關(guān)醫(yī)療的數(shù)據(jù)應(yīng)該是相應(yīng)的醫(yī)學(xué)專業(yè)人員能直接看懂的數(shù)據(jù),不需要其它注釋、解釋;有關(guān)化學(xué)的數(shù)據(jù)應(yīng)該是化學(xué)專業(yè)的人員能看懂的數(shù)據(jù),不需要其它注釋、解釋。
代碼的定義:“相應(yīng)專業(yè)的人員不能看懂的信息稱作代碼,相應(yīng)的專業(yè)人員需要利用相應(yīng)的應(yīng)用程序、軟件工具對代碼進(jìn)行翻譯、解讀、注釋之后才能看懂代碼的真實(shí)含義。”
對關(guān)系數(shù)據(jù)庫而言,普通用戶所看到的數(shù)據(jù)都是通過信息系統(tǒng)對關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行解讀、翻譯、注釋之后的數(shù)據(jù),并不是關(guān)系數(shù)據(jù)庫中的原始數(shù)據(jù)。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具備“識別性、獨(dú)立性、完整性”,即直接把關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)呈現(xiàn)給普通用戶時(shí),用戶不能“識別”這些“數(shù)據(jù)”,原因在于關(guān)系數(shù)據(jù)庫不能“獨(dú)立地”、“完整地”表達(dá)出應(yīng)有的含義。
合格的數(shù)據(jù)的定義:只有能夠“獨(dú)立地(數(shù)據(jù)的獨(dú)立性)”(不依靠軟件的解讀、不依靠他人的解釋)、“完整地(數(shù)據(jù)的完整性)”表達(dá)出應(yīng)有的含義,并能夠讓人及其它信息系統(tǒng)“識別(數(shù)據(jù)的識別性)”的數(shù)據(jù)才是合格的數(shù)據(jù)。然而關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具備這樣的特性,原因在于關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)是一種“與系統(tǒng)的耦合度非常高的數(shù)據(jù)”。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與關(guān)系數(shù)據(jù)庫系統(tǒng)和應(yīng)用系統(tǒng)是密不可分的。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)一旦脫離了關(guān)系數(shù)據(jù)庫系統(tǒng)及應(yīng)用系統(tǒng),就成了不可識別的、無意義的數(shù)據(jù)。
從結(jié)構(gòu)化大數(shù)據(jù)的12個技術(shù)特性的角度可以這樣來描述關(guān)系數(shù)據(jù)庫中的數(shù)據(jù):由于關(guān)系數(shù)據(jù)庫中的“數(shù)據(jù)”與關(guān)系數(shù)據(jù)庫系統(tǒng)以及應(yīng)用系統(tǒng)密不可分(不具備“與系統(tǒng)的耦合性(耦合度為零)”),所以“數(shù)據(jù)”不能獨(dú)立地(不具備“獨(dú)立性”)、完整地(不具備“完整性”)讓人識別(不具備“可識別性”),也不能讓其它信息系統(tǒng)識別。
由上述分析可得出這樣的結(jié)論:由于關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)“與系統(tǒng)的耦合度非常高”,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)一旦脫離了關(guān)系數(shù)據(jù)庫系統(tǒng)及應(yīng)用系統(tǒng),就成了不可識別的、無意義的數(shù)據(jù),所以關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具備累加性。由于當(dāng)前的各種信息系統(tǒng)基本上都是利用關(guān)系數(shù)據(jù)庫而開發(fā)的,所以當(dāng)前的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)不可能通過累加的方法而成為合格的大數(shù)據(jù)。
用關(guān)系數(shù)據(jù)庫所建立的信息系統(tǒng)之所以難以互聯(lián)互通是因?yàn)檫@樣的信息系統(tǒng)所生成的數(shù)據(jù)沒有“移植性”,即數(shù)據(jù)不能直接從一個系統(tǒng)移植到另一個系統(tǒng),這是由大數(shù)據(jù)4V特性中的“數(shù)據(jù)類型多(Variety)”問題而引起的。如果各個信息系統(tǒng)全部都用“萬能數(shù)據(jù)結(jié)構(gòu)表”存貯數(shù)據(jù),那么“數(shù)據(jù)類型多(Variety)”問題就迎刃而解。目前只有“萬能數(shù)據(jù)結(jié)構(gòu)表”可使數(shù)據(jù)具有“結(jié)構(gòu)統(tǒng)一性”及“移植性”,也可使數(shù)據(jù)與信息系統(tǒng)脫離耦合關(guān)系。
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是針對關(guān)系數(shù)據(jù)庫所存在的問題而創(chuàng)立的,目的是把關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)換為合格的大數(shù)據(jù)。解決方案是:利用“萬能數(shù)據(jù)結(jié)構(gòu)表”先讓數(shù)據(jù)“脫耦”,使數(shù)據(jù)具有“結(jié)構(gòu)統(tǒng)一性”,以“獨(dú)立性、完整性、規(guī)范性、唯一性、歸屬性”使數(shù)據(jù)具有“識別性”。
利用現(xiàn)有技術(shù)即可使數(shù)據(jù)具有“識別性、獨(dú)立性、完整性、與系統(tǒng)的耦合性(耦合度為零)、結(jié)構(gòu)統(tǒng)一性”。然而僅利用現(xiàn)有技術(shù)還不能使數(shù)據(jù)真正具有“累加性”和“移植性”。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議以“唯一性、歸屬性、規(guī)范性”使數(shù)據(jù)真正具有“累加性”和“移植性”,并有效地解決了大數(shù)據(jù)4V中的“數(shù)據(jù)速度(velocity)”問題。使數(shù)據(jù)具有“唯一性、歸屬性、規(guī)范性”的方法才是結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的的核心技術(shù),是專為小數(shù)據(jù)轉(zhuǎn)化為大數(shù)據(jù)而創(chuàng)立的,看似沒什么技術(shù)含量,卻非常關(guān)鍵。
數(shù)據(jù)的規(guī)范性對大數(shù)據(jù)的重要性:在小數(shù)據(jù)時(shí)代,各個信息系統(tǒng)基本上都在單位內(nèi)部使用。在大數(shù)據(jù)時(shí)代,信息系統(tǒng)之間的互聯(lián)互通,挖掘來源于不同的信息系統(tǒng)的數(shù)據(jù),就成了非常突出的問題,因此讓數(shù)據(jù)具有規(guī)范性就是非常必要的。如果說沒有“國際大數(shù)據(jù)標(biāo)準(zhǔn)、國家大數(shù)據(jù)標(biāo)準(zhǔn)、各行各業(yè)的大數(shù)據(jù)標(biāo)準(zhǔn)”,那么大數(shù)據(jù)時(shí)代就不可能到來。之所以極力強(qiáng)調(diào)數(shù)據(jù)標(biāo)準(zhǔn)的重要性,是因?yàn)榻Y(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議來源于模仿大腦的聯(lián)想及大腦的超級高保真數(shù)據(jù)處理技術(shù),只有數(shù)據(jù)全部標(biāo)準(zhǔn)化之后,數(shù)據(jù)與數(shù)據(jù)之間才能自動地根據(jù)事物的自然屬性而自然地建立起聯(lián)想關(guān)系,有了聯(lián)想關(guān)系,大數(shù)據(jù)4V中的“數(shù)據(jù)速度快(velocity)”問題就可以迎刃而解!業(yè)內(nèi)無數(shù)人士想盡各種辦法都無法從根本上解決數(shù)據(jù)挖掘難的問題,其中的一個根本原因就在于當(dāng)前的各個信息系統(tǒng)中的數(shù)據(jù)全部是不標(biāo)準(zhǔn)的、不規(guī)范的。如果各個信息系統(tǒng)中的數(shù)據(jù)都是規(guī)范的、統(tǒng)一的,數(shù)據(jù)挖掘就會很容易。數(shù)據(jù)的規(guī)范性是一個大家都了解的、非常普通的概念,然而表面平常,背后的作用卻無比巨大!讓數(shù)據(jù)具有規(guī)范性才能使數(shù)據(jù)的挖掘變得容易。只有把數(shù)據(jù)的規(guī)范性發(fā)揮到極致,讓所有數(shù)據(jù)都是標(biāo)準(zhǔn)的、規(guī)范的、統(tǒng)一的,數(shù)據(jù)的規(guī)范性的超級威力才能顯示出來。數(shù)據(jù)標(biāo)準(zhǔn)說起來容易,做起來非常難,需要花費(fèi)巨大的人力物力,已成為影響大數(shù)據(jù)的一個關(guān)鍵因素。
從表面上看“數(shù)據(jù)的唯一性”和“數(shù)據(jù)的歸屬性”沒有任何技術(shù)含量,只不過為數(shù)據(jù)增加了兩個數(shù)據(jù)項(xiàng)、兩個屬性。如果從小數(shù)據(jù)的角度來看的確如此,由于小數(shù)據(jù)時(shí)代的信息系統(tǒng)主要是用來處理某個單位內(nèi)部的數(shù)據(jù),“數(shù)據(jù)的唯一性”根本不算什么技術(shù),而“數(shù)據(jù)的歸屬性”只會為系統(tǒng)帶來大量冗余。然而在大數(shù)據(jù)時(shí)代,“數(shù)據(jù)的唯一性”和“數(shù)據(jù)的歸屬性”就具有劃時(shí)代的意義,是小數(shù)據(jù)變成大數(shù)據(jù)的關(guān)鍵,只有增加了這兩個數(shù)據(jù)項(xiàng),小數(shù)據(jù)才能變成大數(shù)據(jù),凡是不含這兩個數(shù)據(jù)項(xiàng)的都不是合格的結(jié)構(gòu)化大數(shù)據(jù),小數(shù)據(jù)只有貼上這兩個標(biāo)簽才有資格進(jìn)入大數(shù)據(jù)時(shí)代。
數(shù)據(jù)的歸屬性對大數(shù)據(jù)的重要性:小數(shù)據(jù)的范圍是某個單位,只是在一個信息系統(tǒng)中生存,而大數(shù)據(jù)的范圍是全球,所面對的是全球數(shù)百萬以上的信息系統(tǒng)。為數(shù)據(jù)增加歸屬性的目的是確保數(shù)據(jù)無論放到哪個角落都保持不變,不會失真。數(shù)據(jù)中若不含歸屬性,那么,當(dāng)數(shù)據(jù)移植到其它信息系統(tǒng)之中后就會失真,或者說,從大數(shù)據(jù)中查到數(shù)據(jù)后,就無法知道是從哪里查到的。數(shù)據(jù)的歸屬性對大數(shù)據(jù)非常重要,是數(shù)據(jù)的識別性、累加性、移植性的基礎(chǔ)。
數(shù)據(jù)的唯一性對大數(shù)據(jù)的重要性:數(shù)據(jù)的唯一性是為了方便地在大數(shù)據(jù)環(huán)境中快速、準(zhǔn)確地抓到數(shù)據(jù),也是為了使計(jì)算機(jī)可以模仿大腦的聯(lián)想功能。大數(shù)據(jù)的環(huán)境非常大,可以是全國,也可以是全球,唯一性則可確保計(jì)算機(jī)在全球范圍內(nèi)快速、準(zhǔn)確地把數(shù)據(jù)從天涯海角抓出來。若無唯一性,在全球范圍內(nèi)抓數(shù)據(jù)就非常困難。例如,企業(yè)的A商品會出現(xiàn)在全球的數(shù)十萬個零售商店中,A商品若無大數(shù)據(jù)識別碼,企業(yè)要想從全球的數(shù)據(jù)十萬信息系統(tǒng)中把A商品的庫存、銷售數(shù)據(jù)抓出來,就非常困難。唯一性讓數(shù)據(jù)無處可藏,無處可逃。沒有唯一性,數(shù)據(jù)在不同的信息系統(tǒng)中就會象白骨精那樣,變成不同的樣子。為數(shù)據(jù)增加“數(shù)據(jù)的唯一性”,就等于為數(shù)據(jù)安裝了跟蹤器。
數(shù)據(jù)的12個技術(shù)特性之間的關(guān)系:“累加性、移植性”是由“ 1、可識別性;2、獨(dú)立性;3、完整性;4、規(guī)范性;5、與系統(tǒng)的耦合性(耦合度為零);6、結(jié)構(gòu)的統(tǒng)一性;7、唯一性;8、歸屬性”來實(shí)現(xiàn)。數(shù)據(jù)與系統(tǒng)的耦合性(耦合度為零)是由“ 1、可識別性;2、獨(dú)立性;3、完整性;4、規(guī)范性;5、結(jié)構(gòu)統(tǒng)一性”來實(shí)現(xiàn)。數(shù)據(jù)的可識別性是由“獨(dú)立性、完整性、規(guī)范性、唯一性、歸屬性”來實(shí)現(xiàn)。
利用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所設(shè)計(jì)的系統(tǒng)所產(chǎn)生的數(shù)據(jù)為什么可累加成合格的大數(shù)據(jù)?因?yàn)樗袛?shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)都是相同的,數(shù)據(jù)都是規(guī)范的,不必ETL就已是可以挖掘的數(shù)據(jù)。累加性是由數(shù)據(jù)的“唯一性、歸屬性、可識別性、獨(dú)立性、完整性、規(guī)范性、與系統(tǒng)的耦合性、結(jié)構(gòu)的統(tǒng)一性”來保證的。數(shù)據(jù)具有了“唯一性、歸屬性、可識別性、獨(dú)立性、完整性、規(guī)范性、與系統(tǒng)的耦合性(耦合度為零)、結(jié)構(gòu)的統(tǒng)一性”就具有了累加性。
說明8:數(shù)據(jù)的移植性為信息系統(tǒng)互聯(lián)互通提供了方便
當(dāng)前的信息系統(tǒng)之所以難以互聯(lián)互通,是因?yàn)楫?dāng)前的信息系統(tǒng)中的數(shù)據(jù)與系統(tǒng)的耦合度非常高,當(dāng)數(shù)據(jù)脫離了關(guān)系數(shù)據(jù)庫系統(tǒng)和應(yīng)用系統(tǒng)之后就變成了無意義的數(shù)據(jù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議通過對數(shù)據(jù)的優(yōu)化而數(shù)據(jù)具有了“ 1、可識別性;2、獨(dú)立性;3、完整性;4、規(guī)范性;5、與系統(tǒng)的耦合性(耦合度為零);6、結(jié)構(gòu)統(tǒng)一性;7、唯一性;8、歸屬性;9、時(shí)間性、10、真實(shí)性”,同時(shí)擁有這八大技術(shù)屬性的數(shù)據(jù)就擁有了“移植性”。具有“移植性”的數(shù)據(jù)在任何信息系統(tǒng)中的含義都是一樣的,都保持不變,即可以直接把數(shù)據(jù)發(fā)送任何數(shù)據(jù)系統(tǒng)中而實(shí)現(xiàn)互聯(lián)互通。
說明9:結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議可為數(shù)據(jù)在各數(shù)據(jù)庫系統(tǒng)之間的互聯(lián)互通提供通信協(xié)議
各數(shù)據(jù)庫系統(tǒng)之間的數(shù)據(jù)互聯(lián)互通的通信協(xié)議:
1、需要在各數(shù)據(jù)庫中建立一張萬能數(shù)據(jù)結(jié)構(gòu)表,各數(shù)據(jù)庫系統(tǒng)中的萬能數(shù)據(jù)結(jié)構(gòu)表的結(jié)構(gòu)必須完全統(tǒng)一。
2、所要發(fā)送的結(jié)構(gòu)化數(shù)據(jù)必須滿足12個技術(shù)特性:“ 1、唯一性;2、歸屬性;3、可識別性;4、獨(dú)立性;5、完整性;6、規(guī)范性;7、與系統(tǒng)的耦合性(耦合度為零);8、結(jié)構(gòu)統(tǒng)一性;9、累加性;10、移植性;11、時(shí)間性;12、真實(shí)性?!?/span>
只要滿足上述二個條件,任何數(shù)據(jù)庫之間的任何數(shù)據(jù)都可以互聯(lián)互通,因?yàn)閿?shù)據(jù)的發(fā)送方與數(shù)據(jù)的接收方都是以萬數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)表存貯數(shù)據(jù),所以數(shù)據(jù)的接收方在收到數(shù)據(jù)后可以直接把數(shù)據(jù)寫入自己的數(shù)據(jù)庫中的萬能數(shù)據(jù)結(jié)構(gòu)表中。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。