Quanti tipi di probabilità!

La vignetta odierna di xkcd mostra, con il solito umorismo di Randall Munroe, come si possono avere due idee completamente diverse di probabilità.

frequentisti e bayesiani

frequentisti e bayesiani, da http://xkcd.com/1132/

Per chi non è troppo a suo agio con l’inglese, ecco una traduzione alla bell’e meglio.
Titolo: “È appena esploso il sole? (è notte, non possiamo esserne certi)”
F: Questo rivelatore di neutrini misura se il sole è diventato una nova.
B: Poi lancia due dadi: se escono due sei, darà una risposta errata, altrimenti darà quella corretta.
F: Proviamoci. “Rivelatore! Il sole è diventato una nova?”
R: (lancio di dadi)
Lo statistico frequentista F: La probabilità che questo risultato sia dovuto al lancio dei dadi e`1/36, cioè il 2,7% circa. Visto che è minore di p=5%, concludo che il sole è esploso.
Lo statistico bayesiano B: Scommetto cinquanta dollari che non è esploso.

Detto così si capisce poco o nulla, mi sa, a meno che non sappiate qualcosa in più su come funziona il concetto di probabilità, o meglio di come le persone lo considerino. Solo che già è difficile che si parli di probabilità a scuola, figuriamoci della filosofia della probabilità… ma niente paura, ghe pensi mi!

Forse sapete che la teoria della probabilità si fa convenzionalmente nascere nel 1654, con uno scambio di lettere tra Blaise Pascal e Pierre de Fermat in cui il filosofo e l’avvocato discutevano il cosiddetto “problema dei punteggi”: se si è fatta una scommessa su chi tra due giocatori raggiunge prima i sette punti, e la partita è stata interrotta sul 3 a 1, come devono essere divisi i soldi della scommessa? È vero: si giocava a dadi almeno dai tempi degli antichi greci, Giulio Cesare ha persino gettato il dado passando il Rubicone, e quel problema era già stato trattato da gente del calibro di Pacioli e Tartaglia: ma la prima trattazione veramente matematica è appunto questa. Probabilmente l’azzardo, oltre che essere inerentemente anticristiano (quantunque proprio Pascal fece una certa scommessa…) veniva considerato troppo accidentale per essere associato alla purezza della matematica.

In realtà né Pascal né Fermat avevano ancora ben chiaro il concetto di probabilità: quello che avevano calcolato era più o meno quanto oggi definiamo il valore atteso. Il primo matematico che diede una vera definizione di probabilità fu così Pierre-Simon de Laplace, che nel suo libro Essai philosophique sur les probabilités scrisse

La teoria della probabilità consiste nel ridurre tutti gli eventi dello stesso tipo a un certo numero di casi ugualmente probabili, vale a dire, per cui siamo ugualmente indecisi per quanto riguarda la loro esistenza; e nel determinare il numero di casi favorevoli all’evento la cui probabilità è cercata. Il rapporto tra questo numero e quello di tutti i casi possibili è la misura di questa probabilità, che è così semplicemente una frazione il cui numeratore è il numero di casi favorevoli e il cui denominatore è il numero di tutti i casi possibili.

Quella definita qui sopra è la cosiddetta definizione classica di probabilità, ed è quella che probabilmente tutti noi abbiamo iniziato a usare quando ci hanno insegnato a calcolare la probabilità. Per dire: se vogliamo calcolare la probabilità che lanciando un dado da 20 esca un numero primo, facciamo innanzitutto l’assunto (implicito, perché siamo persone fiduciose) che il dado non sia truccato e quindi non abbiamo nessuna ragione a priori per poter dire che esca un numero piuttosto che un altro; contiamo poi il numero di casi che ci vanno bene (coi numeri 2, 3, 5, 7, 11, 13, 17 e 19, vale a dire in otto casi) e ricaviamo la nostra probabilità come 8/20, cioè 2/5. Laplace, che in fin dei conti è uno che non aveva molti peli sulla lingua e replicò a Napoleone – che gli aveva chiesto come mai nella sua Meccanica celeste non si parlasse di Dio – «Non ho avuto bisogno di questa ipotesi», esagerò un po’ quando cercò di stimare la probabilità che il sole sorgesse all’indomani contando come casi favorevoli tutti i giorni passati; ma il principio rimane.

Non c’è nulla di male nella definizione classica di probabilità… quando la si può applicare. Con un dado va bene: però c’era una storiella di Martin Gardner che raccontava di un dialogo sulla probabilità di vita su Marte: il povero interlocutore concordava sul fatto che, non avendo nessun dato a favore o contro, la probabilità che ci fossero dei cani era il 50%; lo stesso per gatti, mucche, topi, conigli e così via, ed essendo tutte queste probabilità indipendenti il tapino era costretto ad ammettere che la probabilità che ci fosse almeno un tipo di animale era praticamente il 100%. Come fare ad ampliare l’applicazione della probabilità ai casi in cui non si riesce ad avere un modello di casi equiprobabili e ugualmente possibili, quello che viene chiamato principio di indifferenza? La risposta che è stata data, e che a quanto mi consta è quella attualmente preferita, è la definizione frequentistica di probabilità. In poche parole, con questa definizione la probabilità di un evento è il limite del rapporto tra i casi favorevoli e quelli totali al tendere all’infinito del numero di ripetizioni di quell’evento. Riprendendo il nostro dado da 20, non ipotizzo più che le varie facce appaiano con la stessa probabilità; lancio invece il dado un milione di volte, scopro che il valore è stato un numero primo 199.742 volte, e inferisco che la probabilità è circa il 20%. Un classico esempio frequentista è quello dell’ago di Buffon (no, non il portiere!) per calcolare il valore di pi greco: π, o meglio una sua funzione, è il limite tra il numero di lanci di un ago su un pavimento a righe e quelli in cui l’ago tocca una riga.

L’esempio del dado può sembrare contorto: anche un frequentista non si metterebbe a fare tutti quegli esperimenti. Certo però che se li faccio e trovo un valore inaspettato, tipo 271.828 casi favorevoli su un milione, comincio a chiedermi se in effetti il dado non sia truccato… Come avrete intuito, un frequentista, più che un probabilista puro, tende comunque a essere uno statistico; tornando alla vignetta di xkcd, il nostro amico F considera che la probabilità del doppio sei è statisticamente irrilevante, con un intervallo di confidenza del 5%, e quindi rifiuta quell’ipotesi ed è costretto ad ammettere che sia l’altra possibilità, cioè che il sole sia esploso, a essere vera. Naturalmente non succederebbe mai davvero così, la battuta nasce proprio come battuta; ma il principio di base è appunto quello, scegliere un’ipotesi e verificare se la realtà è sufficientemente coerente con l’ipotesi. Detto così fa ridere, ma sotto sotto è proprio questo che si fa. (Ah: secondo Wikipedia la parola “frequentista” è piuttosto recente: la prima occorrenza è del 1949. Fortunato il mondo che può usare un concetto senza avere a disposizione una parola per definirlo!)

Per usare la definizione frequentista, però, occorre avere la possibilità di ripetere l’esperimento un gran numero di volte, cosa che non sempre è fattibile. Prendiamo le previsioni del tempo: non possiamo certo rimettere un milione di volte nella stessa identica posizione tutte le farfalle che sbattono le ali, per vedere quante volte arriva un tornado! L’approccio che si usa in casi come questo è la definizione bayesiana della probabilità. Il nome “bayesiano” deriva dal teorema che prende il nome dal reverendo anglicano Thomas Bayes, anche se poi, come capita spesso in matematica, in realtà non sia stato affatto lui a divulgarlo per primo. Tolgo subito un dubbio: il teorema di Bayes, che ricava la probabilità a posteriori di un evento E dato un altro evento A dalle probabilità a priori di A ed E insieme alla probabilità di A dato l’evento E, è accettato da tutti. Quello che cambia tra frequentisti e bayesiani è l’interpretazione del teorema: più precisamente i frequentisti non lo interpretano, al più lo applicano, mentre i bayesiani dicono che ogni nuovo evento ci serve per riaggiornare le probabilità che avevamo stimato in precedenza. Se ho stimato di fare canestro una volta su cinque e poi inizio a inanellare una serie di centri, è chiaro che la mia stima di probabilità salirà: nel caso delle previsioni del tempo, le percentuali di pioggia che vengono date riflettono per l’appunto le serie storiche con un certo tipo di condizioni meteorologiche, e tali percentuali verranno man mano affinate col crescere dei dati. Notate che un bayesiano non ha – meglio, non vuole avere – nessuna idea su quale sia la probabilità effettiva, e si accontenta di avere il miglior risultato possibile. Nella vignetta, a dire il vero, il bayesiano fa il furbo, non avendo dati precedenti a disposizione: d’altra parte se il sole è effettivamente diventato una nova non credo proprio che si dovrà preoccupare di pagare la scommessa!

Mi limito ad accennare ad altre due definizioni della probabilità, che magari possono piacere a qualcuno dei lettori. La prima, dovuta principalmente a Kolmogorov, è la definizione assiomatica della probabilità. Da buon hilbertiano, Kolmogorov non definisce “cos’è” la probabilità, ma definisce “come si comporta”:

 1. A ciascun evento casuale A corrisponde un certo numero P(A) (la probabilità di A)
  2. Vale sempre 0 ≤ P(a) ≤ 1.
  3. La probabilità dell’evento certo è 1.
  4. La probabilità dell’unione di un numero finito o numerabile di eventi mutuamente esclusivi è la somma delle probabilità dei singoli eventi.

Per la cronaca, il “numerabile” serve da un lato per gestire un numero infinito di elementi, dall’altro per salvarsi dai paradossi tipo “quant’è la probabilità di scegliere un numero a caso nell’intervallo [0,1]?” Non può essere diversa da zero, perché altrimenti la somma su tutti i numeri sarebbe infinita; ma se è zero e la probabilità dell’unione di un qualunque numero di eventi esclusivi fosse la somma delle probabilità degli eventi, allora la somma sarebbe ancora zero. Così invece la somma non è definita e possiamo far tornare i conti come ci piace.

L’ultima definizione della probabilità è quella di Bruno de Finetti: la definizione soggettivista della probabilità. Scrive de Finetti:

«non ha senso parlare della probabilità di un evento se non in relazione all’insieme di conoscenze di cui una persona dispone. […] La probabilità soggettiva è quindi un aiuto per dare un’attendibile misura di ciò che non si può misurare oggettivamente».

In pratica, la probabilità soggettiva si ha quando non è possibile ripetere l’evento, e una persona prende tutte le informazioni che ha a disposizione per dare una stima: di nuovo, le previsioni del tempo sono un esempio classico, coi meteorologi più o meno bravi che stimano la probabilità di pioggia date le perturbazioni che si stanno muovendo a centinaia o migliaia di chilometri di distanza. Naturalmente un simile approccio è inerentemente difficile da quantificare: però può essere statisticamente utile per ricavare previsioni a partire da un gran numero di dati, e sicuramente non soffre di pregiudizi: sono tutti già impliciti nella previsione!

[almeno finché i commenti sul Post non funzionano, potete provare a usare Friendfeed: http://ff.im/17NryS ]

Abbonati al

Dal 2010 gli articoli del Post sono sempre stati gratuiti e accessibili a tutti, e lo resteranno: perché ogni lettore in più è una persona che sa delle cose in più, e migliora il mondo.

E dal 2010 il Post ha fatto molte cose ma vuole farne ancora, e di nuove.
Puoi darci una mano abbonandoti ai servizi tutti per te del Post. Per cominciare: la famosa newsletter quotidiana, il sito senza banner pubblicitari, la libertà di commentare gli articoli.

È un modo per aiutare, è un modo per avere ancora di più dal Post. È un modo per esserci, quando ci si conta.