Insomma, questi sondaggi?

Dopo Brexit e le elezioni presidenziali USA, possiamo dirlo senza tema di smentita: non è solo da noi che i sondaggi sono in crisi profonda. Sembra ormai impossibile prevedere che cosa succederà in un’elezione. Insomma, a che serve fare i sondaggi se poi vengono così smentiti dalla realtà? E soprattutto, a che servono i sondaggisti e gli esponenti del data journalism? Qui sul Post è stata pubblicata la traduzione di un’intervista a Jon Cohen, vicepresidente della società di sondaggi Survey Monkey, che cerca di arrampicarsi un po’ sugli specchi; la giornalista del Guardian Mona Chalabi, forte del suo periodo passato con FiveThirtyEight, pensa invece che banalmente i sondaggisti in realtà tirino a indovinare. E dunque? Cosa possiamo dire con il senno di poi?

Nel mio Matematica in pausa pranzo ho raccontato di come George Gallup predisse correttamente (indovinò?) il risultato delle elezioni americane del 1936, nonostante il suo campione di intervistati fosse molto minore di quello del Literary Digest che pure in passato aveva azzeccato tutte le ultime elezioni; ho anche accennato che nel 1948 Gallup predisse erroneamente che Truman non ce l’avrebbe fatta, cosa che può fare in effetti pensare che i sondaggi siano più che altro monete lanciate in aria. In effetti Nate Silver il giorno prima delle elezioni aveva stimato la probabilità di vittoria di Trump quasi al 30% e quindi è stato quello che ha sbagliato di meno. Ma d’altra parte anche i bookmaker davano Trump a 3/1 (se puntavi un dollaro ne avresti ricevuto 4), mentre Clinton era a 2/9 (se puntavi 9 dollari e lei avesse vinto ne avresti ricevuto 11), il che significa che Trump era sì sfavorito, ma non eccessivamente.

Resta il punto che tutti i sondaggi davano in vantaggio Clinton anche come numero di grandi elettori, oltre che nel voto popolare – che in effetti ha vinto, pur ottenendo otto milioni di voti in meno rispetto a Obama nel 2008: ma quello era probabilmente stato un effetto Barack. È possibile che ci sia una componente di complottismo, con i sondaggi taroccati per favorire il candidato preferito dall’establishment; ma la cosa pare abbastanza poco probabile, come vedremo. È anche possibile che i campioni dei sondaggi siano stati scelti in modo errato. Sempre più gente non vuole rispondere ai sondaggi, e anche se un sondaggista serio sostituisce i partecipanti con altri statisticamente simili non è detto che il risultato sia quello previsto dalla teoria. Peggio ancora, come Chalabi scriveva quasi un anno fa, non sappiamo mica stimare qual è la correlazione tra chi decide di perdere tempo a rispondere a una serie di domande per un ricavo irrisorio o nullo e le loro idee. Sappiamo in genere che più uno è fanatico più tende a esprimersi pubblicamente, ma non sappiamo se la cosa cambia tra destra o sinistra.
Un’ultima possibilità, che è quella che in Italia sembra essere la più probabile sin dai tempi della discesa in campo di Berlusconi, è che gli intervistati mentano volontariamente ai sondaggisti: ma anche questa ipotesi mi pare difficile da sostenere, vedendo che comunque i supporter di Trump sono sempre stati molto vocianti: erano i maggiorenti del partito che non lo volevano.

Nel mio piccolo io mi limito a segnalare due possibilità. La prima è che il numero di “non so/non rispondo” è molto cresciuto nel corso degli anni, e non è affatto facile decidere se e per chi queste persone voteranno, proprio perché non c’è un modello predefinito per trattarli. La seconda possibilità è una banale constatazione matematica, che possiamo definire l’amplificazione del risultato. Sia Brexit che le elezioni USA sono state in realtà un testa a testa. Il solito Nate Silver ha provato a vedere cosa succedeva spostando l’1% dei voti da Trump a Clinton. Questa differenza di due punti percentuali (più uno da una parte e meno uno dall’altra) ribalta completamente il risultato, spostando quattro stati – Michigan, Wisconsin, Pennsylvania e Florida – e dando 307 voti a Clinton.

Il punto è che i modelli statistici funzionano con un margine di errore ben definito; con i campioni tipicamente usati, questo margine è di più o meno tre punti percentuali. In altre parole, la nostra mente non riesce a comprendere quanto una piccola differenza possa avere un così grande risultato. (Immagino che il modello di FiveThirtyEight che ho citato sopra, oltre a pesare maggiormente i sondaggi più recenti e spalmare le differenze anche dove sondaggi nuovi non ci sono, ammetta anche una variabilità piuttosto alta nelle simulazioni, proprio per evitare questo bias). Se questa divisione quasi perfetta tra due blocchi continuerà ad esserci, i sondaggi saranno sempre meno affidabili; e d’altra parte anche i partiti dovranno cambiare strategia, e cercare di catturare nuovi votanti più che convincere quelli della fazione opposta. A loro volta, i sondaggisti dovranno rivedere le proprie ipotesi e i modelli, come raccontato in questo articolo dello Scientific American. Per esempio, tornando alla partecipazione, se l’80% degli intervistati dice che andrà a votare ma poi come al solito la vera affluenza è del 60%, come si può capire chi alla fine ha deciso che vinceva la pigrizia? Qui la matematica non può aiutare: è un problema sociologico.

Vediamo comunque le cose in maniera più positiva: per il momento non dobbiamo preoccuparci di uno scenario come quello immaginato da Isaac Asimov nel suo racconto Diritto di voto!

Aggiornamento: Aggiungo questo link che confronta i vari aggregatori di sondaggi (grazie a Enrico Sola!)

Mostra commenti ( )