Incertezza, probabilità, decisione. Il ruolo della probabilità soggettiva e del teorema di Bayes

Share on Facebook0Tweet about this on TwitterShare on Google+0Share on LinkedIn0Email this to someone

E’ un dato di fatto che l’incerto pregna la nostra vita. Dalle considerazioni che entrano in gioco nella quotidianità alle questioni professionali e scientifiche. Siamo incerti sugli esiti delle nostre azioni e, a maggior ragione, su eventi che non dipendono dal nostro operare. Siamo incerti sulle ipotesi di cui tener conto quando effettuiamo le nostre scelte, in quanto esse dipendono da una “analisi” degli accadimenti passati e da come riteniamo che essi influenzino il futuro. (Il virgolettato sta a ricordare che molte delle nostre decisioni non sono basate su analisi coscienti, strutturate e dettagliate, come commenteremo nel seguito).

incertezzaSiamo incerti sui valori di grandezze fisiche, sia prima di aver effettuato le misure che dopo. (Lo stesso vale per qualunque altra cosa della quale siamo interessati al suo valore numerico, come potrebbe essere il numero di persone che vivono nei confini del suolo italiano ad un certo istante). Anche quando gli eventi del futuro, o i numeri di interesse, ci appaiono certi è spesso solo perché non ci preoccupiamo dei dettagli. Il Sole sicuramente sorgerà domani, ma è meno sicuro il minuto esatto al quale un suo raggio colpirà i nostri occhi o illuminerà una fotocellula.

Ma nessuno di noi è normalmente interessato a tale precisione. Così come ci è irrilevante il peso esatto del chilogrammo di pane acquistato dal fornaio o l’esatto numero di persone presenti “a Roma” in un dato istante. A tal fine vale la pena di ricordare che esattezze del genere non esistono nemmeno nella fisica, considerata normalmente la regina delle “scienze esatte”. E non solo per le pagnotte di pane, ma anche per oggetti più fondamentali e che riteniamo essere tutti uguali nell’universo, come per esempio gli elettroni. Leggiamo quindi su Wikipedia che la massa di questa particella elementare, in unità 10^-31 kg, vale 9,1093826, con una incertezza di 16 sulle ultime due cifre, ovvero qualcosa fra 9,1093810 e 9,1093842. Possiamo almeno essere certi che il valore vero sia in tale intervallo? No, nemmeno questo! I fisici ci credono al 68%. Questo curioso livello di credenza è convenzionale – “standard” – ed è legato ad un dettaglio della teoria delle probabilità nel quale non entriamo. Diciamo solo che se vogliamo portare il nostro livello di credenza ad un più solido 99% dobbiamo quasi triplicare l’intervallo di incertezza, portandolo da ±16 a ±41.

Senza entrare nelle motivazioni che portano i fisici a condurre esperimenti raffinati – un elettrone non lo possiamo mettere di certo su una bilancia! – per valutare certe grandezze fisiche con precisioni estreme, l’esempio voleva soltanto far riflettere su come anche nella scienze cosiddette “esatte” si è in condizioni di incertezza e come, in mancanza di certezze, si faccia ricorso a probabilità. Sul primo punto è d’obbligo citare l’opinione del “fisico” per antonomasia dell’immaginario collettivo. Scriveva infatti Albert Einstein: “Quando le leggi della matematica si riferiscono alla realtà, non sono certe, e quando sono certe, non si riferiscono alla realtà.”

EinsteinSono incerti quindi non solo i valori delle grandezze fisiche, ma anche le “leggi”, ovvero i modelli di “funzionamento” del mondo fisico! A maggior ragione siamo in condizione di incertezza sui modelli di funzionamento dei sistemi sociali o economici, modelli sui quali si basano molte delle nostre decisioni. Però, anche se siamo in condizioni di incertezza, noi non riteniamo che qualsiasi cosa possa accadere allo stesso modo, e neppure consideriamo tutti i modelli alla stessa stregua (a parte quelli manifestamente “falsificati”, per usare la celebre espressione di Popper, i quali danno luogo ad eventi impossibili). Tra gli eventi ritenuti possibili ce ne sono alcuni ai quali crediamo di più e altri ai quali crediamo di meno, così come, fra i modelli non falsificati, ne consideriamo alcuni più credibili di altri. Insomma, nonostante quello che qualcuno pensa ancora, la scienza non fa progressi a “colpi di falsificazione”, ma seguendo le indicazioni che ad un certo momento appaiono più credibili: un comportamento, come scrive il fisico teorico Frank Wilczek, “a circa 179 gradi dall’idea di Popper secondo la quale facciamo progressi falsificando teorie”. (Con “a circa 179 gradi” si intende “praticamente l’opposto”, ovvero secondo il premio Nobel è la l’idea stessa di falsificazione ad essere falsificata).

Insomma, dovendo agire – impulso vitale dell’essere umano – in mancanza di certezza, riadattando una espressione della Repubblica di Cicerone, il saggio si lascia guidare dalla probabilità. Le scelte razionali – definendo con questa espressione quelle coscienti, meditate e aderenti ad un certo principio ispiratore – si basano su considerazioni sulle probabilità degli eventi e sul loro impatto su di noi.

Ma cosa dobbiamo intendere allora con “probabilità”? Non di certo il banale computo dei “casi favorevoli e casi possibili”, secondo una “definizione” attribuita a Laplace, mentre in verità quest’ultimo ci teneva a precisare che tale formula di valutazione può essere usata solo se i casi sono ugualmente probabili. Va bene quindi per dadi e monete, ma è sicuramente inadeguata per la stragrande maggioranza dei casi della vita. E nemmeno possiamo usare la frequenza relativa con la quale eventi analoghi si sono verificati nel passato. Certo, indubbiamente molte valutazioni di probabilità hanno una base statistica, ovvero sono basate su serie storiche. Ma si richiedono eventi analoghi e un grande numero di prove. E si deve avere piena fiducia sul fatto che il futuro scorra in modo uniforme dal passato, mentre sappiamo bene che fine fece il tacchino induttivista di Russell.

In breve, possiamo usare senz’altro, quando è possibile, valutazioni di probabilità basate sul rapporto fra casi favorevoli e casi possibili equiprobabili, o sulla frequenza di eventi osservati nel passato in un grande numero di prove e sotto stesse condizioni (di equiprobabilità!). Ma certo tali regole di valutazione non possono definire il concetto stesso, per il quale non rimane altro che fare ricorso a quello naturale, intuitivo, di grado di credenza che un evento si verifichi. Un altro dato di fatto è che, inevitabilmente, le valutazioni di probabilità dipendono dalle informazioni in nostro possesso. Se una persona si è informata sul primo numero uscito sabato scorso a Roma, è in condizione di certezza su tale evento. Invece una persona che non sa nulla, a parte il fatto che i numeri del lotto sono 90 e che questi sono pescati “a caso”, non può far altro che valutare in 1/90 la probabilità di ciascuna possibilità, facendo uso – correttamente! – della prima regola ricordata sopra. Se chi conosce il numero informa un suo amico che si tratta di un numero dispari minore di 20, quest’ultimo attribuirà a ciascuno dei 10 numeri ancora possibili probabilità 1/10. E le probabilità che ciascuno valuta cambiano ulteriormente se si aggiungono altre informazioni pertinenti. Insomma, per dirla con le parole del grande fisico Erwin Schrödinger, “Dato che la conoscenza può essere differente per differenti persone – o anche per quanto riguarda la stessa persona in tempi differenti – queste possono prevedere lo stesso evento con più o meno fiducia, e così differenti probabilità numeriche possono essere assegnate allo stesso evento”. Il quale poi seguita con l’osservazione: “Così ogni volta che parliamo genericamente di ‘probabilità di un evento’ deve sempre essere sottinteso che si sta parlando di probabilità relativa a un certo stato di conoscenza”. Ovvero, ogni volta che scriviamo p(E), per probabilità dell’evento E, dobbiamo sempre intendere p(E|I), ove la barra verticale indica condizionamento e “I” riassume lo stato di informazione, il quale dipende dalla persona che valuta la probabilità e dall’istante in cui la valuta. Quindi “I” andrebbe meglio scritto come “Is(t)”. In altre parole, 1) la probabilità è sempre probabilità condizionata; 2) il suo valore dipende dal soggetto che la valuta. Questo è il senso della probabilità soggettiva, espressione che disturba molti – e agli inizi disturbò non poco anche chi scrive!

Immanuel Kant (1724 –1804)

Immanuel Kant (1724 –1804)

Ma la natura soggettiva è inevitabile. Rifiutare questo aspetto equivale a confondere il `mondo’ con la `scienza del mondo’. Il rifiuto iniziale nasce dal confondere quello che è soggettivo con quello che è arbitrario. Qui entra il ruolo chiarificatore della scommessa e, in particolare, della scommessa coerente, legata al nome del matematico Bruno de Finetti.

Che la scommessa sia legata al credere che un evento si verifichi è talmente radicato nel linguaggio comune che dire “scommetto su una cosa” è equivalente ad affermare che si crede più a tale cosa che al suo opposto. E così pure che si sia disposti a scommettere di più su quello che si ritiene più probabile, mentre su una cosa ritenuta praticamente impossibile non ci si scommette nemmeno il “dollaro bucato” di Tex Willer. Passando dal ben noto fumetto alla Critica della Ragion Pura, ecco come Kant descrive come capire se qualcuno crede veramente alle sue asserzioni: “L’ordinaria pietra di paragone per vedere se qualche cosa, che uno afferma, sia una semplice persuasione, o almeno una convinzione soggettiva, cioè una ferma fede, è la scommessa. Spesso uno enuncia le sue proposizioni con una risolutezza così sicura e irreducibile da parere abbia deposto ogni tema di errore. Una scommessa lo fa adombrare. A volte si vede che egli possiede bensì una persuasione da poter essere apprezzata per un ducato, ma non per dieci. Infatti egli arrischia il primo ma, di fronte a dieci, comincia ad avvedersi di ciò che prima non avvertiva, essere cioè possibilissimo che si sia sbagliato.”.

La coerenza definettiana non è altro che una norma secondo la quale chi assegna un valore di probabilità non fa altro che assegnare delle quote di scommessa (in inglese odds), pari al rapporto fra la probabilità che egli attribuisce a tale evento e quella (conseguente) del suo opposto. Ad esempio dire che si crede al 50% che avvenga l’evento A, vuol dire considerare A e non-A equiprobabili e quindi le quote di scommesse sono 1:1. Se invece si ritiene un evento doppiamente probabile del suo opposto le quote di scommessa sono 2:1 e le probabilità 2/3 e 1/3 (chi scommette su A punta 2 Euro, chi scommette su non-A punta 1 Euro e chi vince ritira i 3 Euro). E così via. La coerenza  richiede che chi fissa le quote, palesando così il suo grado di credenza, sia poi pronto ad accettare una scommessa con quelle quote sia su A che sul suo opposto.

Né più nè meno che l’idea implicita dietro il modo con il quale Laplace pubblicò il suo risultato sulla determinazione della massa di Saturno: “È una scommessa 11000 a 1 che l’errore in questo risultato non ecceda un centesimo del suo valore.” Affermazione equivalente a dire che egli si sentiva confidente al 99,99% che il valore vero fosse in un intervallo pari a 1/100 della sua migliore stima. (Si noti come il concetto base di coerenza sia contenuto in tale affermazione: Laplace non afferma infatti che lui punterebbe 11000 a 1 all’interno dell’intervallo, ma che “è una scommessa 11000 a 1”, sottintendendo accettabile in entrambe le direzioni. Così come era implicito – e in questo si superano già alcune limitazioni dell’approccio definettiano –che non si richiedeva la verificabilità: la scommessa coerente è quindi puramente virtuale e acquista quindi un ruolo normativo nell’elicitazione dei gradi di fiducia, confidando comunque nell’onestà di chi assegna il valore.)

Quindi, riassumendo questo importante punto, probabilità soggettiva sta ad indicare che la sua valutazione dipende dallo stato di informazione del soggetto che la esegue. Ma essa non è affatto arbitraria: il ruolo normativo della scommessa coerente obbliga infatti a tener conto di tutte le informazioni a disposizione.

In questa impostazione un valore di probabilità è percepito come oggettivo semplicemente quando tutti sono d’accordo su di esso, come succede negli esempi stereotipati di dadi e monete. Pur mantenendo il punto che la probabilità non sia nelle cose bensì nella mente di chi la valuta, come è palese nell’esempio del numero del lotto visto sopra. Questo è il modo di intendere la famosa affermazione provocatoria di  de Finetti: “Ma davvero esiste la probabilità? E cosa mai sarebbe? Io risponderei che non esiste.” Il concetto di probabilità soggettiva è, in ultima analisi, basato sull’idea che la probabilità è legata allo stato di incertezza, e non soltanto al risultato di esperimenti ripetuti, o all’inventario dei casi favorevoli fra quelli ugualmente possibili, e che le differenze nelle valutazioni di probabilità sono ascrivibili unicamente a differenze nell’informazione a disposizione degli individui. Siccome immaginino comunque che qualche lettore a questo punto possa essersi smarrito, in quanto potrebbe sembrare che alla fin fine ognuno possa restare sulle proprie posizioni e seguitare a mantenere le sue affermazioni di probabilità, è importante accennare alla regola per modificare razionalmente i valori di probabilità alla luce dei dati sperimentali.

Innanzitutto occorre avere dei modelli, ritenuti responsabili sia delle osservazioni passate che di quelle future, perché senza questo tramite è impossibile imparare dall’esperienza. In realtà, in molti casi, si ha un solo modello, caratterizzato da parametri dal valore incerto, ma concettualmente questo non è dissimile da avere diversi modelli, uno per ciascun set di valori dei parametri. L’esempio pratico più banale è quello di una scatola con palline bianche e nere in proporzione ignota. Se ad esempio le palline sono 100, abbiamo 101 possibilità (da nessuna bianca a tutte bianche), che possiamo pensare come 101 modelli alternativi o, preferibilmente, un modello con un parametro che può assumere 101 valori. Diciamo 101 ipotesi, che indicheremo con H0, H1, H2, etc., fino ad H100, e con Hi la i-ma. A ciascuna di queste assegniamo una probabilità p(B|Hi), o più precisamente p(B|Hi,I) a ricordare lo stato di informazione di background, di dare una pallina bianca. In questo caso banale conveniamo tutti che p(B|Hi,I) valga i/100, ovvero è nulla se la scatola contiene solo palline nere, ed è uguale ad uno se contiene solo palline bianche. Così pure, se ci è stato detto che la scatola davanti a noi è stata estratta a sorte fra le 101 possibili, che qualcuno aveva preventivamente preparato, siamo tutti d’accordo nell’assegnare probabilità 1/101 alla scatola i-ma [indichiamo questa probabilità con p(Hi|I)].

matematica-numeri-probabilita-pokerLa questione è ora cosa succede se estraiamo dalla scatola una pallina, ne annotiamo il colore e la riponiamo nella scatola (chiaramente senza sbirciare le altre). Immaginiamo che sia una pallina bianca. Questa osservazione cambia i valori di probabilità di tutte le composizioni possibili. In particolare `falsifica’ l’ipotesi “tutte nere”. Ma cambia anche la probabilità che la prossima estrazione dia ancora una pallina bianca, a conferma che la probabilità non è nella scatola – questo è il senso della battuta provocatoria di de Finetti: la probabilità “esiste” solo nella mente di chi la valuta!

Il problema è ora calcolare p(Hi|B,I), ovvero la probabilità di ciascuna composizione alla luce dell’osservazione empirica. Questa inversione di probabilità, con la quale si intende il passaggio da p(B|Hi,I) a p(Hi|B,I), viene effettuata mediante le regole della probabilità, che – un dettaglio “tecnico” ma concettualmente fondamentale – possono essere derivate dal principio di coerenza, espresso pocanzi. La formula risultante è la famosa formula di Bayes, derivante dall’omonimo teorema, che oggi si incontra in tante applicazioni scientifiche e tecnologiche. Eccola, nella sua sconvolgente semplicità, e riscritta nella forma causa-effetto, con chiaro significato dei simboli, e dove abbiamo insistito ad includere l’informazione di background I, a ricordare che la probabilità è sempre probabilità condizionata: p(Ci|E,I) = p(E|Ci,I) · p(Ci|I)/p(E|I)

Nel nostro esempio le possibili cause sono le 101 possibili composizioni  Hi e l’effetto è la pallina bianca. La sostanza della formula è che la probabilità a posteriori (modificata dall’evidenza) di ciascuna causa non dipende soltanto dalla probabilità con la quale essa produce l’effetto, ma anche dalla sua probabilità a priori (“prior”). In altre parole, nel nostro giudizio entra anche come tale causa fosse plausibile sulla base di altre considerazioni a parte l’osservazione sperimentale.

Si parla di inferenza bayesiana quando il processo di inferenza è basato sulla precedente relazione. Pur partendo da probabilità soggettive, possiamo affermare quindi che il teorema di Bayes ci fornisce così una regola rigorosa di aggiornamento – l’unica ammessa dalla teoria della probabilità – delle nostre credenze, ovvero un algoritmo di aggiornamento “oggettivo” che può condurci a risultati altamente intersoggettivi, quando condividiamo una sufficiente quantità di dati.

Il teorema acquista così un ruolo cardine in un corretto approccio inferenziale, e ormai è applicato in molti campi dell’indagine scientifica e delle realizzazioni applicative. Perché, è vero che la probabilità dipende dal soggetto che la valuta (da cui l’aggettivo soggettivo che molti hanno difficoltà ad accettare in quanto come già detto lo confondono con arbitrario) e che diversi soggetti possono avere diverse prior, ma le formule basate su tale teorema permettono di riaggiornare i valori di probabilità a mano a mano che si acquisiscono nuovi dati.

Nel cervello appare il ritratto di Bayes, matematico britannico vissuto nel '700

Nel cervello appare il ritratto di Bayes, matematico britannico vissuto nel ’700

Questo processo di aggiornamento fa sì che persone razionali e non dogmatiche, ovvero disposte a modificare i propri giudizi alla luce di nuove informazioni, sia empiriche che teoriche sui modelli di realtà, possano convergere alle stesse conclusioni, se hanno a disposizione la stessa base informativa e la stessa cultura di base. Così, diverse comunità scientifiche possono raggiungere altissimi livelli di intersoggettività, percepita come oggettività scientifica, nonostante i loro membri siano partiti da prior molto diverse, dovute ad un certo insieme di esperienze inevitabilmente individuali. Questo processo di convergenza può anche ovviamente prendere molto, moltissimo tempo, in quanto un mutamento radicale delle proprie convinzioni razionali, acquisite dopo decenni o secoli di sperimentazione e di analisi teorica, richiede prove scientifiche molto, molto solide.

Questa è la sostanza del cosiddetto approccio bayesiano, ora applicabile con successo grazie anche, e soprattutto, ai moderni metodi e strumenti di calcolo che permettono finalmente di affrontare problemi pratici fino a 20-30 anni fa proibitivi. Questo è il motivo per cui metodi basati sulla probabilità soggettiva (senza la quale non possiamo assegnare valori di probabilità ai modelli e ai loro parametri!) e su un teorema che nel 2013 ha compiuto 250 anni (evento celebrato in diverse parti del mondo ma non in Italia, per quanto ne so, nonostante il contributo davvero cruciale di de Finetti al suo ritorno in auge) sono ormai, negli ultimi decenni, in deciso sviluppo.

La metodologia bayesiana diventa in generale uno strumento naturale a supporto delle prese di decisione, nella scienza e in contesti strategici e industriali. Con lo scopo primario di aiutarci ad agire razionalmente, ovvero, almeno in prima approssimazione, a dare giudizi e a fare scelte che siano congruenti in situazioni analoghe, valutino correttamente le probabilità degli eventi possibili e tendano a massimizzare le nostre utilità, intese in rapporto alle nostre preferenze e certamente non solo di natura monetaria.

libroIl lettore a questo punto si aspetterà un minimo di indicazioni bibliografiche. Una rapida occhiata su Amazon, usando le parole chiave “Bayes” o “Bayesian”, dà un’idea della quantità di testi sul tema, data anche l’importanza pratica, per quello che si diceva pocanzi, in diagnostica di ogni sorta, in sistemi esperti e nel campo dell’intelligenza artificiale. Anche tenendo conto che molti di questi testi sono decisamente tecnici, mi permetto di suggerire ai lettori di lingua italiana un originale libricino uscito sulla piattaforma “print on demand” ilmiolibro.it: “Così è… probabilmente. Il saggio, l’ingenuo e la signorina Bayes” di Giulio D’Agostini e Dino Esposito. In esso gli autori, usando l’antico e sempre efficace espediente del dialogo, affrontano le questioni probabilistiche legate ai problemi inferenziali, predittivi e decisionali. In particolare, la forma del dialogo brillante permette al lettore di addentrarsi in questi argomenti in maniera anche divertente. Ma non per questo il testo non è profondo. Molti dei temi qui appena accennati vengono affrontati in dettaglio, incluso il caso delle scatole con (solo 5) palline bianche e nere. In particolare, un punto importante che viene affrontato e per il quale si dà a mio giudizio una proposta davvero convincente, è quello dell’annosa querelle fra probabilità soggettiva e probabilità fisica, nella quale non ho avuto modo di entrare, anche perché devo riconoscere che la mia migliore comprensione è dovuta alla lettura del divertente libricino, al quale rimando quindi il lettore.

Infine vorrei citare come tale testo ha dato lo spunto per la scrittura di uno spettacolo teatrale “L’improbabile mondo del Mago di Odds”, manifestamente ispirato anche al “Mago di Oz. Pur con personaggi che viaggiano in un mondo fantastico e vivono situazioni irreali, vengono presentate alcune fallacie logiche, e il ruolo del teorema di Bayes in questioni inferenziali e decisionali viene introdotto e discusso in maniera assolutamente rigorosa.

Metti "Mi piace" alla nostra pagina Facebook e ricevi tutti gli aggiornamenti de L'Undici: clicca qui!
Share on Facebook0Tweet about this on TwitterShare on Google+0Share on LinkedIn0Email this to someone

Perché non lasci qualcosa di scritto?