在一個(gè)以數(shù)據(jù)為王的算法驅(qū)動(dòng)的世界里,一個(gè)失誤可能導(dǎo)致一場(chǎng)大混亂。Netflix在2009年發(fā)布由訂戶撰寫的匿名電影評(píng)論時(shí)發(fā)現(xiàn)了這一點(diǎn)。通過將那些簡(jiǎn)短評(píng)論與另一個(gè)網(wǎng)站上的評(píng)論進(jìn)行交叉比對(duì),數(shù)據(jù)偵探發(fā)現(xiàn)他們可以識(shí)別個(gè)人訂戶和他們?cè)诳吹膬?nèi)容。一名同性戀客戶起訴該公司侵犯隱私;Netflix與其達(dá)成了和解。
這一事件仍被尋求在不暴露提供信息的個(gè)人的情況下從數(shù)據(jù)中篩選有用信息的學(xué)者們引用。在匿名化處理失敗的地方,合成數(shù)據(jù)可能會(huì)成功。
顧名思義,合成數(shù)據(jù)是人工生成的。它通常是通過加噪算法,將真實(shí)世界的數(shù)據(jù)匯集起來構(gòu)建一個(gè)新的數(shù)據(jù)集而產(chǎn)生的。由此產(chǎn)生的數(shù)據(jù)集捕獲原始信息的統(tǒng)計(jì)特征,而不是變成一件暴露信息來源的復(fù)制品。它的有用性取決于一個(gè)被稱為差分隱私的原則:任何挖掘合成數(shù)據(jù)的人,都可以像他們從真實(shí)數(shù)據(jù)中那樣,得出同樣的統(tǒng)計(jì)推斷,但無法識(shí)別貢獻(xiàn)信息的個(gè)人。