溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

從數(shù)據(jù)收集到信息挖掘,我們該看重什么?

發(fā)布時(shí)間:2020-08-07 13:53:11 來源:ITPUB博客 閱讀:145 作者:HitTwice 欄目:服務(wù)器

  說到人工智能、深度學(xué)習(xí),大家總會(huì)第一時(shí)間想到算法和模型,再然后就是最根本的、提供動(dòng)力源的數(shù)據(jù)。由于人工智能技術(shù)的飛速進(jìn)步與廣泛應(yīng)用,我們對待數(shù)據(jù)的方式已從收集為主轉(zhuǎn)變?yōu)橐垣@取信息為主。

  如果你不把存儲(chǔ)的數(shù)據(jù)轉(zhuǎn)化為可用的信息,那么這些數(shù)據(jù)——狹隘點(diǎn)說——就只是一堆字節(jié)而已。而完成這個(gè)轉(zhuǎn)化的過程之前,有時(shí)也需要多年時(shí)間來收集足夠的數(shù)據(jù),比如醫(yī)學(xué)方面新工藝、藥物或設(shè)備的試驗(yàn);基于不常發(fā)生的外部因素的群體行為;氣候變化。

從數(shù)據(jù)收集到信息挖掘,我們該看重什么?

  首先,數(shù)據(jù)保存的重要性無法否認(rèn)

  關(guān)于數(shù)據(jù),有一句很拗口的話,你不知道什么是你不知道的。有個(gè)很好的例子:“垃圾DNA”。這一術(shù)語是20世紀(jì)70年代某遺傳學(xué)家發(fā)明的,用來表示基因組中95%—98%的不編譯任何蛋白質(zhì)或酶的DNA。當(dāng)時(shí)的生物學(xué)家認(rèn)為,既然幾乎所有具體的生理機(jī)能都要蛋白質(zhì)來完成,那么不編碼蛋白質(zhì)的DNA應(yīng)該是沒有用的,可以稱為“垃圾DNA”。到本世紀(jì)初,人們發(fā)現(xiàn)一些垃圾DNA其實(shí)調(diào)控著染色體的復(fù)制方式和時(shí)間。

  對于當(dāng)時(shí)的人們來說,存儲(chǔ)數(shù)據(jù)的成本是很高的。當(dāng)然DNA測序的成本更大,這也是當(dāng)初人們要保留垃圾DNA數(shù)據(jù)的原因之一。收集數(shù)據(jù)的成本很高,存儲(chǔ)數(shù)據(jù)的成本也很高,正是因此,我們要更加感謝那些在我們之前做出正確事情的人。他們頂著成本壓力儲(chǔ)存了這些舊的數(shù)據(jù),讓我們有機(jī)會(huì)從中發(fā)現(xiàn)更多信息。

  我們知道,一些天氣預(yù)報(bào)中心每天都會(huì)保存所有收集到的數(shù)據(jù),包括其預(yù)報(bào)模型的輸出。當(dāng)這些網(wǎng)站有一個(gè)新的預(yù)測模型時(shí),他們通過新的模型運(yùn)行舊的數(shù)據(jù),查看模型的輸出和觀察,看看新模型是否比舊模型更好,以及有多好。對于一個(gè)城市來說,這個(gè)工作似乎很容易,但對整個(gè)地球來說,是大量的數(shù)據(jù)和信息比較。

  因此,存儲(chǔ)和數(shù)據(jù)架構(gòu)師面臨的挑戰(zhàn)往往是如何通過開發(fā)滿足性能、可伸縮性和治理需求的架構(gòu)來保存這些數(shù)據(jù)。

  由數(shù)據(jù)收集向信息挖掘的轉(zhuǎn)變

  從有數(shù)據(jù)收集開始,其唯一目的就是要使所收集的所有數(shù)據(jù)都有實(shí)際意義。手工進(jìn)行數(shù)據(jù)收集和分析非常耗時(shí),將數(shù)據(jù)轉(zhuǎn)換為信息也既費(fèi)時(shí)又費(fèi)錢。

  信息時(shí)代始于1890年美國人口普查時(shí)何勒內(nèi)斯打孔卡片的使用,盡管它們是空白的,但與你見過的格式化卡片不同。這里的關(guān)鍵問題是,在1890年以前雖然有大量的數(shù)據(jù),但并沒有工具來進(jìn)行分析,而且將其轉(zhuǎn)化為信息的成本很高。

  很明顯,在1890年的人口普查中產(chǎn)生的信息在今天的標(biāo)準(zhǔn)下是非常基礎(chǔ)性的。但按照19世紀(jì)90年代的標(biāo)準(zhǔn),卻是革命性的。通過這個(gè)辦法,人們能夠非常迅速地查看人口普查的結(jié)果并做出決定(例如,基于數(shù)據(jù)的可操作的信息)。

  到了今天,我們已經(jīng)不再把1890年人口普查數(shù)據(jù)的表格化稱為信息。信息的定義——與數(shù)據(jù)相比——應(yīng)該基于當(dāng)代的標(biāo)準(zhǔn),同樣的,許多其他領(lǐng)域中的某些定義也在發(fā)生變革。

  信息分析市場的規(guī)模和范圍在不斷擴(kuò)大,從自動(dòng)駕駛汽車到安全攝像頭分析再到醫(yī)療發(fā)展。在每一個(gè)行業(yè),在我們生活的每一個(gè)角落,都有快速的變化,并且變化的速度也正在增加。所有這些都是數(shù)據(jù)驅(qū)動(dòng)的,所有收集的新舊數(shù)據(jù)都被用來開發(fā)新的可用信息類型。圍繞數(shù)據(jù)收集與信息發(fā)展的需求,有很多問題也因此浮現(xiàn)。

從數(shù)據(jù)收集到信息挖掘,我們該看重什么?

  除保持?jǐn)?shù)據(jù)活性外,合規(guī)性同樣重要

  許多需求基于你所擁有的信息和數(shù)據(jù)類型。例如,一些可能涉及使用所謂DAR(Data Encryption at Rest,空閑時(shí)數(shù)據(jù)加密),它會(huì)對存儲(chǔ)設(shè)備進(jìn)行加密,這樣如果從系統(tǒng)中刪除,數(shù)據(jù)幾乎是完全不可能訪問的。(其困難程度取決于加密算法和大小、復(fù)雜性等)。我們可以將這種類型的需求歸納為“可操作性需求”,即數(shù)據(jù)在發(fā)揮價(jià)值的整個(gè)過程中會(huì)對架構(gòu)、設(shè)備等產(chǎn)生的硬性需求,以確保滿足業(yè)務(wù)運(yùn)行所需的性能、可用性和數(shù)據(jù)完整性,為保持?jǐn)?shù)據(jù)和信息的活性,所有這些問題都需要得到解決。

  除此之外,你的數(shù)據(jù)或信息也應(yīng)該基于你所在行業(yè)的最佳實(shí)踐或地區(qū)的法規(guī)條例,如最近歐盟出臺(tái)的GDPR(通用數(shù)據(jù)保護(hù)條例)。也就是說,你對數(shù)據(jù)的使用需要始終保持合規(guī)性。由此產(chǎn)生的體系結(jié)構(gòu)或過程方面的變化,也是需要架構(gòu)師來處理的一類重要事務(wù)。

  最后的想法

  要做到合規(guī)并不容易,而且也不便宜。決定其成本的因素有很多,但是在計(jì)劃和搭建好體系架構(gòu)之后試圖強(qiáng)制遵從,總是比事前做的代價(jià)要高。

  筆者認(rèn)為,在定義合規(guī)性需求時(shí),你應(yīng)該著眼于未來,而不是只看現(xiàn)在,因?yàn)槭潞笥踩麞|西的成本和挑戰(zhàn)會(huì)更多。這意味著,我們需要不斷地研究行業(yè)中的合規(guī)性需求,以及最佳實(shí)踐。數(shù)據(jù)在未來只會(huì)變得更加重要,我們始終會(huì)面對挑戰(zhàn),何不先定好應(yīng)對方案。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI