Una tecnica per misurare la privacy di un set di dati cruciale.
Cos’è la Privacy differenziale e come utilizzarla: è sempre più difficile per l’US Census Bureau mantenere privati i dati che raccoglie. Una tecnica chiamata privacy differenziale potrebbe risolvere quel problema, creare fiducia e diventare anche un modello per altri paesi; coinvolti anche facebook e Apple.
La privacy differenziale è stata utilizzata nel censimento degli Stati Uniti del 2020, un’applicazione su più ampia scala mai realizzata, superata soltanto dalla vaccinazione Covid su oltre 4 miliardi di esseri umani.
Nel 2020, il governo degli Stati Uniti ha dovuto affrontare e superare un problema di non facile soluzione: raccogliere dati sui 330 milioni di residenti del Paese mantenendo la loro identità privata. I dati vengono memorizzati in tabelle statistiche che i responsabili politici e gli accademici analizzano quando scrivono leggi o conducono ricerche. Per legge, il Census Bureau deve assicurarsi che non possa ricondurre a nessun individuo.
Ma ci sono trucchi per “de-anonimizzare” gli individui, soprattutto se i dati del censimento vengono combinati con altre statistiche pubbliche.
Quindi il Census Bureau inserisce imprecisioni, o “codici”, nei dati. Potrebbe rendere alcune persone più giovani e altre più anziane, o etichettare alcuni bianchi come neri e viceversa, mantenendo invariati i totali di ogni età o gruppo etnico. Più rumore e codice inietti, più difficile diventa la de-anonimizzazione.
Cos’è la Privacy differenziale e come utilizzarla: la privacy differenziale è una tecnica matematica che rende rigoroso questo processo misurando di quanto aumenta la privacy quando viene aggiunto rumore o codice. Il metodo è stato utilizzato da Apple e Facebook per raccogliere dati aggregati senza identificare utenti particolari.
Ma troppo rumore può rendere i dati inutili. Un’analisi ha mostrato che una versione differenzialmente privata del censimento del 2010 includeva famiglie che presumibilmente avevano 90 persone.
Se tutto va bene, il metodo sarà probabilmente utilizzato da altre agenzie federali. Anche paesi come il Canada e il Regno Unito stanno guardando.
Ma cos’è la privacy differenziale?
La differential privacy, teorizzata nel “Foundation of differential privacy” di Aaron Roth, docente della University of Pennsylvania, e Cynthia Dwork, ricercatrice di Microsoft, e di fatto concretamente applicata nel progetto Smart Noise.
Anche in virtù del fatto che tale tecnica sembrerebbe promettere innumerevoli vantaggi, quali la protezione contro rischi quali la re-identificazione; la neutralizzazione automatica degli attacchi di collegamento; la quantificazione della perdita di privacy; l’analisi e il controllo della perdita di privacy cumulativa su più calcoli; l’analisi e il controllo della perdita di privacy sostenuta da gruppi (es. famiglie); l’immunità, per così dire, dalla post-elaborazione.
Ciò detto, e addentrandosi nella lettura del paper sopra citato, si apprende che si tratta di una privacy per processo basata sul concetto di casualità, in cui prima di registrare una risposta, viene inserito un “rumore o white noise” al fine di anonimizzare la risposta stessa o un codice, come nei datagram delle comunicazioni digitali tra due pc che comunicano attraverso una rete composta di nodi (router) e rami (collegamenti tra i vari router)
I due autori scrivono quanto segue: “Un primo esempio di privacy per processo randomizzato è la risposta randomizzata, una tecnica sviluppata nelle scienze sociali per raccogliere informazioni statistiche su comportamenti imbarazzanti o illegali (…) Ai partecipanti allo studio viene detto di riferire se hanno o meno la proprietà P come segue:
1. Lanciare una moneta.
2. Se è croce, rispondere sinceramente.
3. Se testa, lanciare una seconda moneta e rispondere “Sì” se testa e “No” se croce.
La “privacy” deriva dalla plausibile negabilità di qualsiasi risultato; in particolare, se avere la proprietà P corrisponde a un comportamento illegale, anche una risposta “Sì” non è incriminante, poiché questa risposta si verifica con una probabilità di almeno 1/4 che l’intervistato abbia o meno la proprietà P. La precisione deriva dalla comprensione della procedura di generazione del rumore (l’introduzione di risposte “Sì” e “No” spurie dalla randomizzazione): Il numero previsto di risposte “Sì” è 1/4 volte il numero di partecipanti che non hanno la proprietà P più 3/4 del numero che ha la proprietà P. Quindi, se p è la vera frazione di partecipanti che hanno la proprietà P, il numero previsto di risposte “Sì” è (1/4) (1-p)+(3/4)p = (1/4)+p/2. Così, possiamo stimare p come il doppio della frazione che risponde “Sì” meno 1/2, cioè 2((1/4) + p/2) – 1/2.
La randomizzazione è essenziale; più precisamente, qualsiasi garanzia di privacy non banale che tenga conto di tutte le fonti presenti o anche future di informazioni ausiliarie, compresi altri database, studi, siti web, comunità online, pettegolezzi, giornali, statistiche governative e così via, richiede la randomizzazione. Questo segue da un semplice argomento ibrido, che ora abbozziamo. Supponiamo, per amore di contraddizione, di avere un algoritmo deterministico non banale. La non banalità dice che esiste una query e due database che producono risultati diversi sotto questa query. Cambiando una riga alla volta vediamo che esiste una coppia di database che differiscono solo per il valore di una singola riga, sulla quale la stessa interrogazione produce output diversi. Un avversario, sapendo che il database è uno di questi due database quasi identici, apprende il valore dei dati nella riga sconosciuta”.
Cos’è la Privacy differenziale e come utilizzarla: riassumendo: la privacy differenziale permette l’anonimizzazione dei dati già nella fase di acquisizione degli stessi mediante l’utilizzo di appositi algoritmi e l’inserimento di un elemento di disturbo quale il “rumore”, applicato in maniera randomica.