La parola “teorema” spaventa molte persone. Probabilmente perché richiama alla memoria le ore passate sui banchi di scuola durante le lezioni di matematica, impegnati a studiare lunghe e noiose dimostrazioni di cui spesso, per non dire sempre, era impossibile intravvederne una utilità pratica o per lo meno concreta.
E’ difficile incontrare nei propri studi il teorema di Bayes, a meno di non frequentare un corso specialistico, ma spero che alla fine di questo articolo appaia chiaro il motivo per cui esso meriterebbe una visibilità e diffusione ben maggiore.

Il teorema di cui parliamo oggi, non è il classico teorema di geometria o algebra, come il più noto teorema di Pitagora, ma un teorema di statistica!
Il personaggio ritratto nell’immagine più sopra è il ministro presbiteriano britannico Thomas Bayes cui è stato intitolato il teorema, avendone egli descritti i principi in un saggio pubblicato nel 1763, anche se la sua formulazione moderna si deve a Pierre Simon Laplace che vi perverrà indipendentemente nel 1774. Di questo argomento avevamo già parlato nell’articolo Errori Selezionati ma nel seguito vorrei darne un’ulteriore esemplificazione, specifica per l’argomento di questo articolo.
Di cosa parla, dunque, questo teorema di Bayes?

Un esempio classico

Il modo migliore per illustrare il teorema di Bayes senza perdersi nella rappresentazione formale è quello di applicarlo ad un esempio pratico e qui userò quello che, con qualche variante, è generalmente usato in letteratura per questo scopo, riprendendo un articolo del 1982 di David Eddy in cui l’autore interpretava in termini bayesiani le statistiche sull’efficacia della mammografia nel diagnosticare il cancro al seno, basandosi sull’esperienza raccolta sul suo utilizzo a partire dalla fine degli anni ’60.

Supponiamo di essere in presenza dell’esito di una mammografia che indichi la presenza di un tumore. Ci chiediamo se possiamo accettare per veritiero questo referto onde agire di conseguenza.

L’esperienza clinica nell’utilizzo della mammografia in questo tipo di diagnosi ci dice che essa riesce a rivelare correttamente il tumore nel 80% dei casi. Nel caso in cui il tumore non ci sia, l’esame è ancora più affidabile in quanto rivela la sua assenza nel 90.4% dei casi.
Insomma, il test ci azzecca quasi sempre! C’è di che preoccuparsi, giusto?
Troppo presto per fasciarsi la testa…

Infatti il dato “80%” ci dice come si comporta il test in presenza del tumore. Ma cosa succede quando il tumore NON c’è?
Per valutare correttamente il risultato è necessario prendere in considerazione almeno un altro elemento e poi combinare insieme tutte le informazioni raccolte.
Chiediamoci: qual’è l’incidenza della malattia nella popolazione?
Ci serve quella che viene indicata come probabilità a priori, detta così in quanto non dipende dal fatto che sia stato fatto meno alcun test.
Nel caso specifico si sa, da dati epidemiologici, che l’1% delle donne in età compresa fra i 40 e i 50 anni sviluppa questa patologia.
In pratica il risultato del test è veritiero solo se facciamo parte del 1% della popolazione che ha la sfortuna di aver sviluppato la malattia.

Ok, ma come facciamo a sapere se facciamo parte di quell’un per cento avendo in mano l’esito positivo dell’esame?

Elenchiamo dapprima le informazioni in nostro possesso:

  • Caso di presenza del tumore (1% della popolazione)
    • Test Vero: 80% dei casi
    • Test Falso: 20% dei casi

Qui possiamo vedere che c’è un 20% di falsi negativi, cioè casi in cui il tumore c’è ma il test fallisce nel rivelarlo.

  • Caso di assenza del tumore (99% della popolazione)
    • Test Vero: 9.6% dei casi
    • Test Falso: 90.4% dei casi

Qui possiamo vedere che c’è un 9.6% di falsi positivi, cioè il tumore non c’è ma il test lo rivela ugualmente.
E’ evidente che ci serve un modo per tenere conto dei falsi risultati perché ci porterebbero fuori strada nel giudizio da dare all’esito del test. Ed è qui che, finalmente, ci viene in aiuto il teorema di Bayes.

Abbiamo ipotizzato di essere già in possesso di un esito positivo quindi è evidente che, fra tutti i casi sopra elencati, l’unico che ci interessa realmente, quello per cui l’esito del test è realmente preoccupante, è quello dei veri positivi. Cioè quello che si verifica quando siamo nel 1% della popolazione con 80% di probabilità che il test ci abbia preso. Stiamo parlando di un evento che ha una probabilità composta del 1% x 80% = 0.8%.
Non dobbiamo però fermarci qui, perché in nostro test potrebbe anche essere un falso positivo.
La probabilità di avere per le mani un falso positivo, analogamente, è 99% x 9.6% = 9.5%

Il teorema di Bayes ci dice che la probabilità, che indicheremo con P(H|E), che un evento H, nel nostro caso avere realmente il tumore, dato un altro evento E, nel nostro caso avere il test positivo, è dato dal rapporto della probabilità di avere un vero positivo, che nel nostro caso è 0.8%, diviso la somma dei casi possibili, sia i veri che i falsi positivi, cioè 0.8% + 9.5% = 10.3%.
Facendo il conto finale 0.8% / 10.3% = 7.8%

Abbiamo scoperto che a fronte di una diagnosi preoccupante di un esame alquanto affidabile, la probabilità di aver contratto realmente la malattia è meno del 10%!

In rete e in bibliografia è possibile trovare una vastissima letteratura con formule, esempi e dimostrazioni sul teorema e le sue applicazioni, ma ai fini di questo articolo l’esempio sopra esposto è sufficiente a fornire lo spunto per il prossimo paragrafo.