Come la bellezza, i metadati sono negli occhi di chi li guarda

Una volta durante una discussione Leonardo Chiariglione disse “i metadati sono anche più importanti dei dati!”

i metadati associati ad un contenuto media sono la descrizione del contenuto, la sua immagine, i tag relativi, il prezzo, le compatibilità con dispositivi e formati, ecc.ovvero tutte quelle cose che consentono all’utente di selezionare il contenuto nella sua interfaccia utente di accesso; se non ci sono i metadati, il contenuto non lo vendi.

i metadati sono dati sui dati, ovvero sono dati anch’essi. Checchè ne dicano alcuni legulei.

questa distinzione tra metadati e dati che fanno le intelligence di certi paesi in questo periodo mi sembra capziosa, un sofisma.

dati apparentemente “non personali” possono essere rivelatori, se analizzati bene.

da leggere questo articolo per certi versi divertente: How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did – Forbes.

[Pole] ran test after test, analyzing the data, and before long some useful patterns emerged. Lotions, for example. Lots of people buy lotion, but one of Pole’s colleagues noticed that women on the baby registry were buying larger quantities of unscented lotion around the beginning of their second trimester. Another analyst noted that sometime in the first 20 weeks, pregnant women loaded up on supplements like calcium, magnesium and zinc. Many shoppers purchase soap and cotton balls, but when someone suddenly starts buying lots of scent-free soap and extra-big bags of cotton balls, in addition to hand sanitizers and washcloths, it signals they could be getting close to their delivery date.

sulla base di questi dati l’azienda ha scoperto che una ragazza era incinta, prima che lo sapesse il padre (arrabbiato perche’ le avevano mandato coupon per sconti su prodotti per future mamme)

con chi ti relazioni può dare indicazioni sulle tue abitudini sessuali, anche se non le citi esplicitamente

questo studio che proviene dal MIT mi pare emblematico Gay men ‘can be identified by their Facebook friends’ – Telegraph.

As part of the study the researchers Carter Jernigan and Behram Mistree scanned the Facebook friends of more than 1,500 fellow students who indicated their sexual orientation – straight, gay or bisexual – on their profiles. This analysis revealed that homosexual men had proportionally more gay friends than straight men, allowing the students to devise a computer programme to predict the sexual orientation of other Facebook users based solely on the sexualities of their friends. They ran this programme on 10 men who were known to be homosexual but did not reveal this information on their profiles. In each case, the software correctly identified the men to be gay.

anche i dati anonimi, a volte non lo sono del tutto, grazie alle correlazioni che si possono fare con i metadati: Why ‘Anonymous’ Data Sometimes Isn’t.

Arvind Narayanan and Vitaly Shmatikov, researchers at the University of Texas at Austin, de-anonymized some of the Netflix data by comparing rankings and timestamps with public information in the Internet Movie Database, or IMDb. Their research (.pdf) illustrates some inherent security problems with anonymous data,

Google, with its database of users’ internet searches, could easily de-anonymize a public database of internet purchases, or zero in on searches of medical terms to de-anonymize a public health database. Merchants who maintain detailed customer and purchase information could use their data to partially de-anonymize any large search engine’s data, if it were released in an anonymized form. A data broker holding databases of several companies might be able to de-anonymize most of the records in those databases.

What the University of Texas researchers demonstrate is that this process isn’t hard, and doesn’t require a lot of data. .

ciò che caratterizza i metadati rispetto ai dati è l’uso che se ne fa, non è una proprietà connaturata nel dato.

prendiamo ad esempio i CDR (Call Detail Records) delle telefonate: ci dicono chi parla con chi e quando. Se ci attacchiamo l’informazione sulla cella usata, anche dove. Non ci dice il contenuto della comunicazione.

se siamo interessati al contenuto di ogni specifica comunicazione, questi sono metadati

ma se siamo interessati a ricostruire la rete sociale, le abitudini di comunicazione e la localizzazione di un gruppo target, questi sono dati!

chiamarli metadati è un modo per diminuirne nella precezione del pubblico la loro rilevanza: “non sono dati, sono meta-dati”

il paradosso, se vogliamo, è che ciò che Snowden ha rivelato non sono dati. Non c’e’ una informazione su un contenuto di una comunicazione, non c’e’ un dato (o metadato) che l’intelligence ha raccolto.

ha solo rivelato che le agenzie americana e britannica collaborano per raccogliere dati.

se i metadati fossero innocui, perchè tutto questo casino ?

perchè in realtà i metadati sono dati e possono rivelare ben più di quanto a prima vista si intuisca.