從數(shù)據(jù)收集到信息挖掘，我們該看重什么？

發(fā)布時(shí)間：2020-08-07 13:53:11 來源：ITPUB博客閱讀：145 作者：HitTwice 欄目：服務(wù)器

　　說到人工智能、深度學(xué)習(xí)，大家總會(huì)第一時(shí)間想到算法和模型，再然后就是最根本的、提供動(dòng)力源的數(shù)據(jù)。由于人工智能技術(shù)的飛速進(jìn)步與廣泛應(yīng)用，我們對待數(shù)據(jù)的方式已從收集為主轉(zhuǎn)變?yōu)橐垣@取信息為主。

　　如果你不把存儲(chǔ)的數(shù)據(jù)轉(zhuǎn)化為可用的信息，那么這些數(shù)據(jù)——狹隘點(diǎn)說——就只是一堆字節(jié)而已。而完成這個(gè)轉(zhuǎn)化的過程之前，有時(shí)也需要多年時(shí)間來收集足夠的數(shù)據(jù)，比如醫(yī)學(xué)方面新工藝、藥物或設(shè)備的試驗(yàn);基于不常發(fā)生的外部因素的群體行為;氣候變化。

　　首先，數(shù)據(jù)保存的重要性無法否認(rèn)

　　關(guān)于數(shù)據(jù)，有一句很拗口的話，你不知道什么是你不知道的。有個(gè)很好的例子：“垃圾DNA”。這一術(shù)語是20世紀(jì)70年代某遺傳學(xué)家發(fā)明的，用來表示基因組中95%—98%的不編譯任何蛋白質(zhì)或酶的DNA。當(dāng)時(shí)的生物學(xué)家認(rèn)為，既然幾乎所有具體的生理機(jī)能都要蛋白質(zhì)來完成，那么不編碼蛋白質(zhì)的DNA應(yīng)該是沒有用的，可以稱為“垃圾DNA”。到本世紀(jì)初，人們發(fā)現(xiàn)一些垃圾DNA其實(shí)調(diào)控著染色體的復(fù)制方式和時(shí)間。

　　對于當(dāng)時(shí)的人們來說，存儲(chǔ)數(shù)據(jù)的成本是很高的。當(dāng)然DNA測序的成本更大，這也是當(dāng)初人們要保留垃圾DNA數(shù)據(jù)的原因之一。收集數(shù)據(jù)的成本很高，存儲(chǔ)數(shù)據(jù)的成本也很高，正是因此，我們要更加感謝那些在我們之前做出正確事情的人。他們頂著成本壓力儲(chǔ)存了這些舊的數(shù)據(jù)，讓我們有機(jī)會(huì)從中發(fā)現(xiàn)更多信息。

　　我們知道，一些天氣預(yù)報(bào)中心每天都會(huì)保存所有收集到的數(shù)據(jù)，包括其預(yù)報(bào)模型的輸出。當(dāng)這些網(wǎng)站有一個(gè)新的預(yù)測模型時(shí)，他們通過新的模型運(yùn)行舊的數(shù)據(jù)，查看模型的輸出和觀察，看看新模型是否比舊模型更好，以及有多好。對于一個(gè)城市來說，這個(gè)工作似乎很容易，但對整個(gè)地球來說，是大量的數(shù)據(jù)和信息比較。

　　因此，存儲(chǔ)和數(shù)據(jù)架構(gòu)師面臨的挑戰(zhàn)往往是如何通過開發(fā)滿足性能、可伸縮性和治理需求的架構(gòu)來保存這些數(shù)據(jù)。

　　由數(shù)據(jù)收集向信息挖掘的轉(zhuǎn)變

　　從有數(shù)據(jù)收集開始，其唯一目的就是要使所收集的所有數(shù)據(jù)都有實(shí)際意義。手工進(jìn)行數(shù)據(jù)收集和分析非常耗時(shí)，將數(shù)據(jù)轉(zhuǎn)換為信息也既費(fèi)時(shí)又費(fèi)錢。

　　信息時(shí)代始于1890年美國人口普查時(shí)何勒內(nèi)斯打孔卡片的使用，盡管它們是空白的，但與你見過的格式化卡片不同。這里的關(guān)鍵問題是，在1890年以前雖然有大量的數(shù)據(jù)，但并沒有工具來進(jìn)行分析，而且將其轉(zhuǎn)化為信息的成本很高。

　　很明顯，在1890年的人口普查中產(chǎn)生的信息在今天的標(biāo)準(zhǔn)下是非常基礎(chǔ)性的。但按照19世紀(jì)90年代的標(biāo)準(zhǔn)，卻是革命性的。通過這個(gè)辦法，人們能夠非常迅速地查看人口普查的結(jié)果并做出決定(例如，基于數(shù)據(jù)的可操作的信息)。

　　到了今天，我們已經(jīng)不再把1890年人口普查數(shù)據(jù)的表格化稱為信息。信息的定義——與數(shù)據(jù)相比——應(yīng)該基于當(dāng)代的標(biāo)準(zhǔn)，同樣的，許多其他領(lǐng)域中的某些定義也在發(fā)生變革。

　　信息分析市場的規(guī)模和范圍在不斷擴(kuò)大，從自動(dòng)駕駛汽車到安全攝像頭分析再到醫(yī)療發(fā)展。在每一個(gè)行業(yè)，在我們生活的每一個(gè)角落，都有快速的變化，并且變化的速度也正在增加。所有這些都是數(shù)據(jù)驅(qū)動(dòng)的，所有收集的新舊數(shù)據(jù)都被用來開發(fā)新的可用信息類型。圍繞數(shù)據(jù)收集與信息發(fā)展的需求，有很多問題也因此浮現(xiàn)。

從數(shù)據(jù)收集到信息挖掘，我們該看重什么？

　　除保持?jǐn)?shù)據(jù)活性外，合規(guī)性同樣重要

　　許多需求基于你所擁有的信息和數(shù)據(jù)類型。例如，一些可能涉及使用所謂DAR(Data Encryption at Rest，空閑時(shí)數(shù)據(jù)加密)，它會(huì)對存儲(chǔ)設(shè)備進(jìn)行加密，這樣如果從系統(tǒng)中刪除，數(shù)據(jù)幾乎是完全不可能訪問的。(其困難程度取決于加密算法和大小、復(fù)雜性等)。我們可以將這種類型的需求歸納為“可操作性需求”，即數(shù)據(jù)在發(fā)揮價(jià)值的整個(gè)過程中會(huì)對架構(gòu)、設(shè)備等產(chǎn)生的硬性需求，以確保滿足業(yè)務(wù)運(yùn)行所需的性能、可用性和數(shù)據(jù)完整性，為保持?jǐn)?shù)據(jù)和信息的活性，所有這些問題都需要得到解決。

　　除此之外，你的數(shù)據(jù)或信息也應(yīng)該基于你所在行業(yè)的最佳實(shí)踐或地區(qū)的法規(guī)條例，如最近歐盟出臺(tái)的GDPR(通用數(shù)據(jù)保護(hù)條例)。也就是說，你對數(shù)據(jù)的使用需要始終保持合規(guī)性。由此產(chǎn)生的體系結(jié)構(gòu)或過程方面的變化，也是需要架構(gòu)師來處理的一類重要事務(wù)。

　　最后的想法

　　要做到合規(guī)并不容易，而且也不便宜。決定其成本的因素有很多，但是在計(jì)劃和搭建好體系架構(gòu)之后試圖強(qiáng)制遵從，總是比事前做的代價(jià)要高。

　　筆者認(rèn)為，在定義合規(guī)性需求時(shí)，你應(yīng)該著眼于未來，而不是只看現(xiàn)在，因?yàn)槭潞笥踩麞|西的成本和挑戰(zhàn)會(huì)更多。這意味著，我們需要不斷地研究行業(yè)中的合規(guī)性需求，以及最佳實(shí)踐。數(shù)據(jù)在未來只會(huì)變得更加重要，我們始終會(huì)面對挑戰(zhàn)，何不先定好應(yīng)對方案。

向AI問一下細(xì)節(jié)

從數(shù)據(jù)收集到信息挖掘，我們該看重什么？

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽

從數(shù)據(jù)收集到信息挖掘，我們該看重什么？