Le interazioni digitali restano identificabili anche per lunghi periodi di tempo

Utilizzando funzioni di machine learning i ricercatori hanno identificato con successo la maggior parte degli individui partendo da un set di dati generici relativi a 40.000 utenti di smartphone dimostrando che l’anonimizzazione non basta a tutelare la privacy


Pubblicato sulla rivista Nature Communication con il titolo ‘Interaction data are identifiable even across long periods of time’, lo studio condotto da Imperial College London illustra importanti criticità relative alla privacy degli utenti di smartphone. Stefano Marrone, membro del gruppo di ricerca PICUS, è il ricercatore federiciano del Dipartimento di Ingegneria Elettrica e delle Tecnologie dell’Informazione che ha preso parte alla ricerca. Marrone si occupa di Intelligenza Artificiale, con applicazioni nei campi dell’imaging biomedicale, delle biometrie e, più in generale, della computer vision. Durante il dottorato ha iniziato a focalizzarsi sull’uso etico dell’intelligenza artificiale, contribuendo ad evidenziare i rischi associati ad usi impropri e/o in presenza di dati polarizzati. Per approfondire ulteriormente queste tematiche, durante il dottorato ha svolto un periodo di studio all’estero presso l’Imperial College di Londra, ospitato dal Computational Privacy Group diretto al dott. Yves-Alexandre de Montjoye. È durante tale periodo che l’ing. Marrone ha preso parte alla ricerca che ha poi portato alla pubblicazione

Dallo studio emerge la possibilità di identificare il singola utente avendo a disposizione poche semplici informazioni relative alle interazioni tramite smartphone e app di messaggistica come ad esempio Messenger o WhatsApp. Le procedure di anonimizzazione non bastano. I dati dell’attività online sono monitorati e raccolti da varie aziende e social media per ottimizzare servizi e transazioni. Una persona e il suo comportamento diventano rilevanti ai fini della costruzione di uno schema comportamentale per addestrare intelligenze artificiali.

Testato su un set di dati contenente più di 40.000 persone, questo tipo di attacco ha permesso di identificare in modo univoco una persona il 52% delle volte, solo analizzando la sua rete di interazione a 2-hop (ossia le relazioni tra la persona e i suoi contatti pseudonimizzati). L’accuratezza della predizione è diminuita lentamente con il passare del tempo, permettendo di identificare correttamente Il 24% delle persone dopo 20 settimane. Infine, utilizzando un piccolo dataset di prossimità bluetooth, la ricerca è stata in grado di risalire all’identità dei soggetti coinvolti il 26% delle volte, usando la rete di interazione a 1-hop (contatti diretti). Teoricamente i dati che delle interazioni tra utenti potrebbero essere condivisi o venduti a terze parti senza il consenso degli utenti perché in quel momento anonimi. La successiva profilazione consente di risalire all’identità di una persona sulla base del suo schema comportamentale.

Il paper pubblicato sulla prestigiosa rivista Nature Communications, apre nuovi scenari in ottica GDPR illustrando la profilazione basata su reti neurali a grafo per identificare in maniera univoca un soggetto. Nel discorso sono dunque implicati anche i dati di prossimità bluetooth. Uno dei risvolti pratici di tale lavoro riguarda la necessità di ripensare le sfumature dell’anomizzazione e il rischio “ragionevolmente probabile” da un punto di vista legale (ad esempio considerando l’articolo 26 del GDPR) che le strategie di pseudonimizzazione siano imperfette. Una efficace ingegneria della privacy dovrebbe dunque studiare come rendere veramente anonimi i dati raccolti.


Per approfondire