Ricavare le cronologie e le identità delle persone dai dati ‘anonimi’
Published on
Secondo due ricercatori, ricavare le cronologie e le identità delle persone dai dati 'anonimi' acquistati in blocco è davvero banale.
Nell'agosto 2016, un broker di dati ha ricevuto una chiamata da una donna di nome Anna Rosenberg, che lavorava per una piccola startup a Tel Aviv. Rosenberg sosteneva di stare allenando una rete neurale, un tipo di architettura informatica ispirata al cervello umano, e di aver bisogno di una grossa quantità di dati di navigazione per il suo lavoro. La startup per cui stava lavorando aveva ricevuto ottimi finanziamenti e acquistare i dati non sarebbe stato un problema. Ma dato il numero di broker che ci sono al mondo, Rosenberg non voleva acquistare dati da uno qualsiasi. Così, ha chiesto un periodo di prova gratuito.
Il giorno seguente aver preso contatti con il broker, Rosenberg ha ricevuto una telefonata. Un addetto alle vendite che parlava in vece del broker ha fornito a Rosenberg le credenziali di cui aveva bisogno per accedere ai dati di navigazione che erano compresi nell'omaggio. Il broker aveva accettato di fornire a Rosenberg l'accesso alla cronologia completa di 3 milioni di utenti tedeschi per un mese, con la postilla che per una certa parte di quel periodo, alcuni dei dati sarebbero stati raccolti dal vivo (ovvero, refreshati ogni giorno o giù di lì).
C'era solo un problema: Anna Rosenberg e la startup che sosteneva di rappresentare non sono mai esistite veramente.
Rosenberg era l'alias di Svea Eckert, una giornalista investigativa sotto copertura per l'organizzazione tedesca NDR che stava indagando sulle pratiche di vendita e su quanto fosse difficile rendere non anonimi i dati delle cronologie web che sono raccolti e venduti in blocco da plugin per il browser di terze parti.
"Pensavo che avremmo ottenuto al massimo un periodo di prova di tre giorni o qualcosa del genere," mi ha raccontato Eckert la settimana scorsa alla convention di hacking Def Con a Las Vegas, dove è stato presentato il suo report per la prima volta al di fuori della Germania. "L'azienda che abbiamo fondato non aveva un indirizzo reale, non era registrata. Aveva solo un sito e un account LinkedIn. Siamo rimasti davvero sorpresi che fossero disposti a darci questi dati."
Dopo aver ricevuto il free trial, Eckert ha fatto squadra con Andreas Dewes, un analista di dati che gestisce l'azienda 7 Scientists, per capire se fosse possibile identificare utenti singoli nella massa di dati. A un primo sguardo, i dati di navigazione non sembravano altro che un mucchio di URL con coordinate temporali.
Una selezione dei dati di navigazione di un giudice olandese identificato nel dataset "anonimo."
Il primo obiettivo di Eckert è stato scoprire se i propri dati di navigazione fossero inclusi nel dataset. Per farlo, ha estratto i dati relativi all'URL legato alla pagina di login della sua azienda, che genera un ID unico per ogni impiegato. La Germania ha una popolazione di circa 82 milioni di persone, per cui la probabilità che Eckert stessa fosse nei dati di navigazione raccolti dai 3 milioni di tedeschi contenuti nel free trial era bassa. Ma nonostante la sua cronologia non fosse nel dataset, estraendo i dati dalla pagina di login della sua azienda, Eckert ha scoperto che c'erano quelle di diversi suoi colleghi.
Con queste informazioni, Eckert avrebbe potuto vedere la cronologia dei suoi colleghi relativa all'intero mese precedente. Uno dei colleghi inclusi nel dataset era un suo buon amico, così la giornalista l'ha contattato per fargli sapere che aveva in mano la sua cronologia. La domanda che restava senza risposta era quale fosse il plugin da browser che stava raccogliendo e vendendo questi dati.
Per trovare una risposta, Eckert ha fatto cancellare al collega un plugin da browser ogni ora, finché l'amico non fosse sparito dai dati raccolti in tempo reale. È successo al settimo plugin. Ironia vuole che il plugin in questione si chiamasse Web of Trust — un plugin che offre "tool gratuiti per navigare sul web in sicurezza."
L'aspetto più problematico della tecnica di de-anonimizzazione di Eckert e Dewes è che può essere utilizzata su chiunque sia presente sui social media pubblici. Per il loro report, Eckert e Dewes si sono concentrati su Twitter e sull'equivalente tedesco di LinkedIn, Xing, per capire se potessero usare questi profili pubblici per rendere non più anonime alle figure pubbliche nel mare di dati.
Quando clicchi sulla tua pagina di analytics su Twitter, ti porta a un URL che include la tua handle pubblica su Twitter — Xing ha una funzione simile. Il che significa che Eckert e Dewes sono riusciti a rintracciare nel database questo tipo di URL dei profili Twitter pubblici che corrispondono a politici tedeschi.
Se i politici erano presenti nel dataset, il passaggio successivo era andare sui loro profili Twitter e raccogliere alcuni dei link postati di recente. Usando questi link, accoppiati con l'URL pubblico di Twitter, Eckert e Dewes sono riusciti a estrapolare cronologie personali relativa a un intero mese dal dataset anonimo in loro possesso.
Come ha sottolineato Dewes quando abbiamo parlato alla Def Con, identificare qualcuno all'interno di un dataset anonimo da 3 milioni di persone richiede una quantità irrisoria di informazioni relative al tempo passato online. Dato che le abitudini di navigazione sono uniche, bastano 10 visite a siti diversi per creare una "impronta digitale" per ognuno, basata su quali siti visitano e quando.
Le abitudini di navigazione di queste figure pubbliche, come quella di un giudice olandese di visitare siti porno, erano improvvisamente esposte senza filtri davanti agli occhi dei ricercatori.
Inoltre, dato che i siti a cui è richiesto di di identificare una persona sono pochissimi, cercare di ingannare questa tecnica di analisi visitando siti a caso per creare confusione non serve a niente, perché bastano comunque pochi siti per identificare qualcuno, ha detto Dewes.
Durante la loro indagine, Eckert e Dewes sono riusciti a trovare alcuni politici nel dataset. Le abitudini di navigazione di queste figure pubbliche, come quella di un giudice olandese di visitare siti porno, erano improvvisamente esposte senza filtri davanti agli occhi dei ricercatori.
Valerie Wilms, un membro del parlamento tedesco, ha permesso ai ricercatori di estrapolare la sua cronologia ed è rimasta sconvolta da ciò che potevano vedere. "Fa male," ha detto Wilms nel report originale di NDR. "Espone le persone a ricatti ed estorsioni."
Stando a Eckert, la parte più preoccupante del raccogliere i dati di navigazione è che è del tutto legale e relativamente economico. Dopo aver contattato circa 100 data broker, Eckter ha detto che i prezzi proposti per un mese di dati variavano dai 10.000 ai 500.000 euro — spiccioli, nel mondo della politica. Quando Eckert e Dewes hanno contattato il plugin Web of Trust, responsabile della vendita dei dati, l'azienda ha dichiarato che la vendita fosse in linea con i termini di servizio e che l'azienda compisse "grandi sforzi" per rendere anonimi i dati.
Come sottolinea Eckert, è sempre importante leggere i termini di utilizzo e comprendere come un'azienda giustifichi l'uso che fa dei dati ottenuti. Persino quelle come Web of Trust, il cui modello di business è costruito sulla fiducia e la navigazione anonima, possono involontariamente esporre le cronologie dei propri utenti.
Tutto ciò, in aggiunta, mina l'importanza della net neutrality negli Stati Uniti. A marzo, il Congresso degli Stati Uniti ha votato per eliminare le regole sulla privacy della banda larga che richiedono ai fornitori di rete di avere il consenso dei propri clienti prima di vendere i loro dati di navigazione. Come dimostra l'indagine compiuta da Eckert e Dewes, questi dati possono essere facilmente ottenuti e utilizzati per estrarre le cronologie delle persone da dati "anonimi."
"Ho la sensazione che i broker non sappiano cosa c'è nei dati," ha detto Eckert. "Quando ho fatto queste telefonate per scoprire come comprare dati, hanno parlato come se stessero vendendo sassi o mele. Queste aziende hanno perso il contatto con la realtà quando si parla di raccolta dati."