<track id="cznk2"></track>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

大數(shù)據(jù)科學中合成數(shù)據(jù)如何解決匿名化問題

發(fā)布時間：2021-12-07 11:33:36 來源：億速云閱讀：145 作者：柒染欄目：大數(shù)據(jù)

大數(shù)據(jù)科學中合成數(shù)據(jù)如何解決匿名化問題，針對這個問題，這篇文章詳細介紹了相對應的分析和解答，希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

現(xiàn)在，隨著GDPR的生效，企業(yè)在保護數(shù)據(jù)時必須格外小心。傳統(tǒng)匿名通常不是真正的匿名，最終個人身份是可以識別的。對數(shù)據(jù)添加額外級別匿名化的一種方法是引入合成數(shù)據(jù)。

自歐盟范圍內(nèi)的數(shù)據(jù)監(jiān)管規(guī)定GDPR于2018年5月生效以來，許多在歐盟有業(yè)務(wù)的企業(yè)可能會對其侵權(quán)處罰感到擔憂，這可導致高達全球年營業(yè)額4%的罰款。

上個月，英國航空公司(British Airways)和萬豪國際(Marriott International)分別被處以令人咋舌的罰款(分別為1.83億英鎊和1億英鎊)，想必各大企業(yè)應該都知道數(shù)據(jù)泄露意味著什么。對于銀行和金融機構(gòu)等處理大量個人數(shù)據(jù)的大型企業(yè)來說，這尤其令人生畏。

我們都知道“數(shù)據(jù)是新的石油”這個說法，現(xiàn)代企業(yè)需要利用客戶數(shù)據(jù)來更好地了解客戶，同時訓練人工智能和機器學習算法。但現(xiàn)在，為了避免數(shù)據(jù)泄露，許多企業(yè)都將自己的數(shù)據(jù)嚴格控制，并對誰能在何時獲取這些數(shù)據(jù)制定了嚴格的程序。盡管這是數(shù)據(jù)隱私的一個積極趨勢，但它仍然限制了組織的數(shù)據(jù)靈活性和創(chuàng)新能力。

傳統(tǒng)匿名化的問題

聰明一點的企業(yè)現(xiàn)在正在尋找新的隱私增強技術(shù)，以便在數(shù)據(jù)效用和安全性之間取得平衡，有很多企業(yè)現(xiàn)在在“匿名”數(shù)據(jù)集上運行數(shù)據(jù)密集型流程(例如測試和數(shù)據(jù)分析)。

匿名化技術(shù)多種多樣，但最常用的方法之一是一般化，即將數(shù)據(jù)點的特殊性(如客戶的完整家庭地址)更改為更廣泛的數(shù)據(jù)點(如客戶的地區(qū)或城市)。通過犧牲數(shù)據(jù)集中一定程度的實用功能，確保數(shù)據(jù)集中的個人是匿名的、不可識別的。

匿名化變得如此流行的原因之一是，GDPR并不適用于匿名化的個人數(shù)據(jù)。但更令人擔憂的是，最近的研究表明，目前使用的大量匿名化在掩蓋一個人的身份方面效果很差。在絕大多數(shù)情況下，機器學習模型可以重新識別個人。

所以，實際上你并不需要個人的詳細信息來識別他們。因此，傳統(tǒng)的匿名化技術(shù)根本達不到要求。

復雜的合成數(shù)據(jù)

在綜合數(shù)據(jù)集中，每個數(shù)據(jù)點都屬于完全理論化的個體，有自己的名字、年齡、地址、銀行賬號、稅務(wù)記錄、醫(yī)療記錄，以及數(shù)據(jù)分析所需的任何其他細節(jié)。從歷史上看，這些數(shù)據(jù)的主要問題是很難生成足夠高質(zhì)量的合成數(shù)據(jù)，以滿足高級數(shù)據(jù)科學的需要。

然而這些情況都會隨著人工智能和機器學習的發(fā)展而改變。通過在“真實”數(shù)據(jù)上訓練算法，我們現(xiàn)在可以生成保留原始數(shù)據(jù)所有底層統(tǒng)計信息的合成數(shù)據(jù)集，但個人或可識別信息為零。

一個簡單的方法是通過Nvidia生成對抗網(wǎng)絡(luò)(GANs)的方法，這是This Person Does Not Exist網(wǎng)站背后所用的技術(shù)。該網(wǎng)站利用真實的名人面孔數(shù)據(jù)集來生成不存在的人的超現(xiàn)實圖像。本質(zhì)上，這是合成數(shù)據(jù)，每個人都有許多可以分析的屬性(例如眼睛的顏色、頭發(fā)的顏色、膚色)，但是這些數(shù)據(jù)不能被破壞，因為它們不屬于真實的人。

如果將這項技術(shù)應用于客戶數(shù)據(jù)，您就可擁有可以在整個數(shù)據(jù)科學團隊中共享的數(shù)據(jù)，并用于各種建模，不需要過多的管理，也沒有隱私風險。同時，您的“真實”客戶數(shù)據(jù)可以存儲在一個安全的服務(wù)器上，很少有人需要訪問它。

寫在最后

隨著越來越多的企業(yè)希望采用綜合數(shù)據(jù)策略，毫無疑問，所有行業(yè)都將產(chǎn)生連鎖反應。配備有必要的工具才能釋放其數(shù)據(jù)潛力，組織將可以利用他們的客戶數(shù)據(jù)，同時避免風險和承擔責任。

有了數(shù)據(jù)科學和先進的機器學習以及各種各樣的新技術(shù)，數(shù)據(jù)經(jīng)濟即將被重塑，數(shù)據(jù)創(chuàng)新的新時代即將到來。

社交媒體的出現(xiàn)給人工智能領(lǐng)域帶來了巨大的飛躍，但很少有人關(guān)注數(shù)據(jù)的安全?，F(xiàn)在，有了合成數(shù)據(jù)，我們可以沿著數(shù)據(jù)科學的道路繼續(xù)前進。但這一次，在堅持規(guī)則的同時，也需要更謹慎地謹慎對待數(shù)據(jù)。

關(guān)于大數(shù)據(jù)科學中合成數(shù)據(jù)如何解決匿名化問題問題的解答就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識。

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
mysql如何查看注釋
下一篇新聞：
Hyperledger fabric Chaincode開發(fā)的示例分析

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<legend id="t0s5h"><center id="t0s5h"></center></legend>