La legge di Benford

Ce l’avete quasi fatta. La vostra aziendetta fantasma, creata unicamente per frodare il fisco, è ormai ufficialmente costituita. L’ultima cosa che vi resta è generare un migliaio di fatture fittizie, tutte con cifre casuali tra i 100 e i 100000 euro, e mandare la documentazione all’Agenzia delle Entrate. Ma che valori assegnare alle fatture? Siete degli evasori molto scrupolosi, e sapete bene che noi umani non siamo capaci di scrivere un gruppo di numeri davvero casuali; andate così sul sito random.org e vi fate generare 976 numeri distribuiti uniformemente in quell’intervallo. Sì, 976: anche quel numero è stato scelto a caso tra 950 e 1050, proprio per non generare sospetti. Tutto a prova di bomba, insomma. Beh, in Italia forse; ma negli USA un tentativo di frode di questo tipo capitò davvero e fu scoperta dall’agenzia preposta. In effetti, anche se uno si aspetterebbe in media che ciascuna cifra iniziale compaia 11 volte, avere un 1 come prima cifra è quasi sette volte più probabile che trovarsi un 9.

No, non c’è alcun paradosso; questo comportamento così asimmetrico delle prime cifre dei numeri è ben noto tra i matematici ma non solo (Mark Negrini è il funzionario americano di cui dicevo sopra), e va con il nome di Legge di Benford. Già dal nome si possono intuire due cose. La prima è che si parla di legge, non di teorema o qualcola di simile; insoma, qualcosa che sta al di fuori della matematica vera e propria e per cui non bisogna sperare di trovare una dimostrazione inattaccabile, ma una semplice linea guida. Vabbè, magari la cosa renderà anche più felici alcuni dei miei lettori. La seconda cosa è più che altro uno scherzo tra gli addetti ai lavori: se la legge ha preso il nome di Benford, allora è praticamente certo che non sia stato Benford il primo a scoprirla.

In effetti è proprio così! Il primo a formulare pubblicamente un’affermazione equivalente alla legge di Benford fu un astronomo a cavallo del diciannovesimo secolo, un certo Simon Newcomb. Come tutti gli astronomi, Newcomb doveva fare barcate di calcoli numerici; e dato che a quell’epoca un “calcolatore” era un essere umano dotato di carta e penna per calcolare rigorosamente a mano, Newcomb sfruttava pesantemente la grande invenzione di Nepero, le tavole dei logaritmi (ne ho già parlato in passato). Un giorno, immagino in un momento ozioso, Newcomb si accorse di qualcosa di strano: i bordi delle prime pagine del suo manuale di tavole logaritmiche erano più sporchi di quelli delle ultime pagine. Era come se gli dovesse capitasse più spesso di cercare il logaritmo di un numero che iniziava con una cifra bassa: ricordo per chi non ha mai avuto la necessità di consultare le tavole dei logaritmi che per trovare il logaritmo di 42, di 42000 e e di 0,0042 si cerca lo stesso elemento (4,2), perché le tavole danno solo la parte decimale del logaritmo, la cosiddetta mantissa, mentre la parte intera la si ricava banalmente.

Chissà quante altre persone si erano già accorte della cosa: ma Newcomb fu il primo a pensarci abbastanza su e a scrivere nel 1881 un articolo al riguardo, articolo che cadde rapidamente nel dimenticatoio. Ci vollero altri cinquant’anni e più prima che qualcun altro si mettesse a rimuginare su quella che in fin dei conti era una curiosità: il nuovo ricercatore fu per l’appunto il fisico Frank Benford. A differenza di Newcomb, Benford – che lavorava sì per la General Electric, ma nei suoi Research Laboratories, e quindi poteva presumibilmente permettersi di fare questo tipo di ricerche – iniziò a raccogliere una grande mole di dati di tutti i tipi, in modo da capire se quello che gli era capitato era soltanto un caso oppure c’era sotto qualcosa di più importante. Nel 1938, dopo aver radunato più di 20000 valori di ogni tipo, presentò i dati sperimentali in un articolo dove formulò anche una legge per stimare la distribuzione sulla prima cifra di un insieme di numeri “generati casualmente in un contesto reale”. Era nata la Legge di Benford.

La formula della legge è forse un po’ complicata, almeno per chi alle formule è allergico: la probabilità B(c) che la prima cifra di un valore scelto “a caso in un contesto reale” sia c è data da

B(c) = log10 (1 + 1/c)

Se preferite vederla in un altro modo, qui a fianco c’è un grafico a torta dove si vedono le percentuali corrispondenti alle varie cifre iniziali; oppure, se la parola logaritmo non vi fa troppa paura, la probabilità di avere c come cifra iniziale è pari alla differenza tra il logaritmo di c+1 e quello di c. Questo fatto potrebbe forse darvi qualche idea del perché la legge di Benford funziona in pratica; le prime cifre dei numeri variano in modo strano, ma la prima cifra dopo la virgola dei logaritmi dei numeri è distribuita in maniera uniforme.

In effetti è abbastanza facile vedere che se si prende una classifica con un numero sufficiente di dati ordinati, per esempio un gruppo di statistiche del Calendario Atlante DeAgostini, e la distribuzione delle prime cifre segue effettivamente una distribuzione, allora questa distribuzione deve essere la legge di Benford. Il trucco è dato dall’invarianza di scala. Supponiamo che tutte le statistiche misurino i dati in chilogrammi. Ma lo stesso tipo di distribuzione deve per ipotesi saltare fuori se prendiamo un altro insieme di statistiche: che succede se questo “nuovo” insieme è quello di prima, solo che stavolta lo misuriamo in libbre, oppure in carati, o in una qualunque altra unità di misura? Se putacaso lavorassimo in mezzi chili, tutti i numeri che prima iniziavano con una cifra da 5 a 9 adesso inizieranno per 1; pertanto – ammesso e non concesso che una legge di distribuzione esista per davvero – la probabilità di iniziare con 1 è pari alla somme delle probabilità di iniziare con 5, 6, 7, 8 oppure 9.

Ma insomma, la legge esiste o non esiste? La risposta chiara e definitiva è “nì.” Il problema non è tanto la necessità di avere un numero abbastanza grande di dati; quello è naturale quando si parla di statistica. Prendiamo però per esempio l’altezza di tutti i diciottenni italiani; penso di andare sul sicuro dicendo che in ben più del 95% dei casi la prima cifra sarà 1, e che non ci sono esempi di 3, 4 oppure 5. In pratica, se la distribuzione è una gaussiana non vale la legge di Benford, mentre se si prende una distribuzione con valori molto diversi tra loro, oppure si prendono tante distribuzioni magari anche gaussiane ma indipendenti l’una dall’altra, le legge spunterà fuori.

Se volete saperne di più, Wikipedia e MathWorld sono le solite fonti (ma ne ha scritto anche il sottoscritto…). Più divertente forse andare a vedere la successione dell’OEIS (con le successive fino a A055442) che mostra quali sarebbero le cifre iniziali di una successione tipica che segua la legge di Benford. Sì, non è che la cosa abbia un gran senso, però mi pare che renda bene l’idea di quanti uno vi si trovino!

Mostra commenti ( )