編譯:李雷、夏雅薇
數字時代的生活使我們不斷留下各種數據痕跡,大部分都不是那么有趣,比如外賣訂單、網購記錄等,其中一些是涉及個人隱私的,如醫療診斷信息、個人性取向以及納稅記錄。
各種公共機構保護個人身份信息的最常用方法是數據匿名化。這包括剝離明顯的可識別信息(去標識),如姓名、電話號碼、電子郵件地址等。數據會模糊處理,數據表中的某些數據會被整列刪除(抑制),并且引入一定“噪聲”。這些隱私政策確保我們不會被定位到個人。
?
?
然而,Nature Communications期刊發表的一項新研究表明,情況并非如此。
來自倫敦帝國理工學院和比利時魯汶大學的研究人員創建了一個機器學習模型,可以準確估計從匿名數據集中重新識別一個人的難易程度。你可以在這個鏈接中輸入你的郵政編碼、性別和出生日期來查看自己的得分。
?
?
鏈接:https://cpg.doc.ic.ac.uk/individual-risk/
平均而言,在美國,使用這三個信息(郵編、性別、出生日期),有81%的概率可以在“匿名”數據集中準確地追蹤到你。一個住在馬薩諸塞州的人,如果你手里有與他相關的15個人口統計特征數據,那你有99.98%的概率可以在任何匿名數據庫中找到他。
倫敦帝國理工學院的研究員,該項研究的作者之一Yves-Alexandre de Montjoye說:“你掌握的信息越多,識別錯誤的可能性就大大降低。”
這個模型背后的數據庫匯集了來自五個數據源的210個不同數據集,其中包括美國人口普查信息。研究人員將這些數據輸入到該機器學習模型中,讓其學習哪些數據組合近乎唯一,哪些組合不唯一,然后給出正確的識別概率。
這并非第一個研究從匿名數據庫中識別個人的項目。在2007年的一篇論文中,只需少量的Netflix電影評分數據就可以像社保號碼一樣輕松識別一個人。這篇論文表明了目前數據匿名化技術還遠落后于匿名識別技術的發展。de Montjoye說,數據集的不完整(泛化和抑制)并不能保護人們的隱私。
匿名識別并非都是壞事,今年早些時候,《紐約時報》的記者使用相同的識別技術曝光了特朗普從1985年到1994年的納稅申報表。但是,同樣的方法也可能被那些想要進行身份欺詐或獲取信息用于勒索的人所使用。
“問題在于我們認為數據在匿名化后是安全的,各種機構和公司也告訴我們這么做是安全的,但事實證明不是。”de Montjoye說。
英國數據隱私公司Privitar的研究負責人Charlie Cabot認為,要想真的高枕無憂,應該使用差分隱私(differential privacy)技術,這是一種復雜的數學模型。利用這項技術,公司間可以共享有關用戶習慣的統計數據,但同時也可以保護個人身份信息。
這項技術將在明年首次經歷重大考驗,它正被用來確保美國人口普查數據庫的中數據的安全。
相關報道:
https://www.technologyreview.com/s/613996/youre-very-easy-to-track-down-even-when-your-data-has-been-anonymized/








