Non usate a sproposito la legge di Benford


D’accordo, Donald Trump ha un modo molto personale di vedere le cose. Ma ci sono molte altre persone che sono convinte che ci siano in effetti stati dei brogli, e per dimostrarlo usano la matematica. In questo post su StackExchange vengono mostrati due esempi di come ci sia qualcosa di strano, in entrambi i casi usando la legge di Benford. (Ne avevo parlato sul Post anni orsono; sennò trovate anche qualcosa sul mio sito).

Per chi non avesse voglia di spulciare i miei vecchi documenti, la legge di Benford afferma che prendendo una quantità sufficientemente grande di valori, dal numero di abitanti delle municipalità alla quantità di metalli estratti nelle varie nazioni, la prima cifra di questi valori non avrà una distribuzione più o meno costante, ma la cifra iniziale 1 capiterà all’incirca il 30% dei casi, la cifra 2 nel 17,6% dei casi e via via a scalare fino al 9 che apparirà nel 4,6% dei casi. C’è anche una legge di Benford sulla seconda cifra, anche se lì le differenze sono minori.

Nel post suindicato venivano mostrate le distribuzioni della prima cifra dei voti a Biden e a Trump a Chicago, che danno i risultati mostrati qui a sinistra; più in basso vedete invece la frequenza della seconda cifra in una specifica contea. In entrambi i casi è anche indicata la frequenza che ci si aspetterebbe secondo la legge di Benford. I brogli sono evidenti, nevvero? Non è possibile che in un caso ci siano così tanti scostamenti e nell’altro no!

Beh, nel secondo caso non dovrebbe essere difficile vedere qual è il vero broglio. A parte la scelta di una specifica contea – e nel mucchio si può sempre trovare un singolo esempio in cui per caso capita quello che noi vogliamo vedere – quello che dovrebbe saltare subito all’occhio è che le scale verticali dei due grafici sono diverse, con quella dei voti a Trump molto più compressa. Se proviamo a usare la stessa scala, otteniamo il risultato qui a destra, dove si vede come gli scostamenti siano relativamente simili per entrambi i candidati. Ma come ho detto questo dato non è poi così probante, visto che stavamo parlando di una singola contea che non credo sia stata scelta a caso. I dati di Chicago sono invece su un campione significativo, e pertanto meritano una spiegazione più approfondita.

Tra i 2069 seggi di Chicago, che generalmente hanno un numero più o meno simile di votanti come da noi, il ticket Biden/Harris ha avuto meno di 100 voti in 12 seggi e più di 1000 in 4 seggi. Pertanto in più del 99% dei seggi si ha un totale di voti che è un numero di tre cifre: questo viola un’assunzione fondamentale della legge di Benford, che afferma che i numeri devono essere variabili su diversi ordini di grandezza. Per il ticket Trump/Pence, ci sono stati 99 seggi con 1-9 voti, 1339 con 10-99 e 633 con più di 100 voti: una distribuzione sicuramente più omogenea.

Naturalmente tutta questa è teoria: così ieri sera mi sono messo a vedere cosa succede in pratica. Ho preso dal sito Istat i dati della popolazione italiana per comune al primo gennaio 2020. Mancano quelli del Sud Sardegna, ma c’erano comunque 7905 comuni. Tra questi, ho selezionato i 1933 comuni che hanno tra 100 e 999 abitanti e ho costruito il grafico della distribuzione della prima cifra: lo vedete qui a sinistra. Penso che converrete con me che la distribuzione non ha nulla a che fare con la legge di Benford; anzi, a parte qualche fluttuazione, la percentuale sembra crescere al crescere della popolazione. Non sono certo del motivo di questa struttura: potrebbe essere una banale fluttuazione statistica, oppure un segno che stiamo guardando la parte inferiore di una distribuzione, e quindi i comuni più piccoli sono in un certo senso fuori standard.

Per completezza ho anche provato a fare il conto con tutti i comuni italiani, che vanno dai 30 abitanti di Morterone (LC) ai 2837332 di Roma, e ho ottenuto la tabella qui a destra che mi vergogno quasi a mostrare, vista la perfetta aderenza ai dati teorici. Se io fossi un cospirazionista direi che l’Istat ha taroccato i dati :-)

Qual è la morale di tutto questo? Semplice. Quando stiamo parlando di leggi matematiche, proprio come quando parliamo di leggi fisiche, dobbiamo essere particolarmente attenti e verificare se ci sono le condizioni per applicarle. Di solito non è una cosa così difficile da farsi, se non ci si limita ad applicare meccanicamente la formuletta che si trova sui libri ma si è anche studiato come si è arrivati alla formuletta in questione. Sì, sono ironico. Però credo che sia davvero importante superare la logica della condivisione automatica di materiale e prestare attenzione a quello che si fa…