Vedere una perdita come un guadagno

    Come reagiamo all’esito delle nostre azioni e delle nostre scelte, che siano sociali o squisitamente economiche, influenza le nostre decisioni future. Ma qual è la strategia di apprendimento più efficace: la punizione o la ricompensa? Di questo si è occupato uno studio appena apparso su Nature Communications del neuroeconomista Giorgio Coricelli del Centro Mente/Cervello dell’Università degli Studi di Trento e collaboratori che hanno cercato di affrontare i due principali problemi irrisolti dell’apprendimento, dimostrando che quello per punizione è efficace quanto quello per ricompensa grazie alla capacità del cervello di contestualizzare le opzioni che ha di fronte, e vedere dove necessario una perdita minore alla stregua di un guadagno.

    Negli ultimi anni si sono fatti moltissimi progressi nella comprensione delle basi neuronali e computazionali dell’apprendimento per rinforzo basato sulle ricompense (reinforcement learning). Di contro, i meccanismi computazionali e neuronali dell’apprendimento per punizione, in cui bisogna apprendere il modo migliore per evitare la perdita maggiore, non sono ancora stati chiariti.

    Il primo problema è computazionale, infatti, l’apprendimento basato sulla punizione presenta un apparente paradosso: “Quando si evita una punizione con successo, la risposta strumentale (cioè l’azione che permette di evitare la punizione) non è più rinforzata. Come conseguenza, i modelli teorici d’apprendimento di base predicono una performance migliore per l’apprendimento per ricompensa (dove l’azione che conduce ad una ricompensa viene scelta con maggiore probabilità in futuro, i.e. rinforzo positivo) rispetto all’apprendimento per evitamento della punizione, contrariamente al fatto che i soggetti umani mostrano la stessa performance di apprendimento nei due contesti” spiega Coricelli.

    Il secondo problema è neuroanatomico: “Un dibattito aperto nelle neuroscienze cognitive riguarda il fatto che le stesse aree cerebrali (lo striato e la corteccia ventrale prefrontale) rappresentino sia valori positivi che negativi, o alternativamente che l’apprendimento e la codifica dell’apprendimento per punizione avvenga in un sistema neuronale opposto (“opponent system”, composto dall’insula e la corteccia dorso mediana prefrontale) a quello della ricompensa”, aggiunge Coricelli.

    I ricercatori hanno ipotizzato che una soluzione dei due problemi possa venire considerando la contestualizzazione del valore, in altre parole dalla capacità del cervello di contestualizzare le opzioni di scelta, cioè di valutarle in modo relativo alle altre opzioni presenti nel contesto decisionale. Quindi, per esempio, una perdita minore in un contesto di perdite potrebbe essere considerata come un risultato positivo, alla stregue di una ricompensa. Inoltre, “risultati divergenti di studi di risonanza magnetica funzionale relativi alle differenze tra apprendimento per ricompensa vs. apprendimento per punizione potrebbero essere riconciliati dal fatto che in assenza di informazione contestuale, la punizione e le ricompense potrebbero essere computate da due sistemi separati; mentre, in seguito all’acquisizione dell’informazione contestuale (cioè l’identificazione chiara del contesto di scelta) la rappresentazione del valore assegnato ad ogni opzione di scelta convergerebbe su un unico sistema composto dalla corteccia frontale e dallo striato”.

    Nel corso del nuovo studio di Coricelli, un gruppo di partecipanti sani sono stati sottoposti alla risonanza magnetica funzionale durante un compito comportamentale di apprendimento, riguardante una serie di scelte tra due opzioni (due simboli che indicavano due slot machines, un compito chiamato in inglese: two-armed bandit), in cui una delle due opzioni è migliore rispetto all’altra, e seguito da un compito di verifica dell’apprendimento dei valori di ogni opzione di scelta.

    Nel contesto delle ricompense, con l’opzione migliore si poteva vincere 0.5€ il 75% delle volte o altrimenti ottenere 0€ e con l’altra opzione si vinceva 0.5€ solo il 25% delle volte; mentre nel contesto delle punizioni, con l’opzione migliore si perdeva -0.5€ il 25% delle volte e 75% si otteneva 0€ e con l’opzione più sfavorevole si perdeva -0.5€ il 75% e 0€ per il 25% delle volte in cui si sceglieva tale opzione.

    Il compito presentava due caratteristiche fondamentali: in primo luogo il compito confrontava l’apprendimento per ricompensa (in cui i risultati possibili erano 0.5€ o 0€) con quello per punizione (in cui i risultati possibili erano -0.5€ o 0€); in secondo luogo, in contesti di scelta specifici, venivano presentati i risultati dell’opzione scelta e di quella rifiutata, questo per indurre una valutazione relativa del risultato ottenuto con quello che si sarebbe potuto ottenere con la scelta alternativa (outcome controfattuale). Questa procedura sperimentale (cioè il confronto tra informazione parziale e informazione completa) è stata introdotta per indurre l’apprendimento del valore medio del contesto di scelta (cioè il valore del contesto, “context value”).

    “Abbiamo trovato evidenza comportamentale e neuronale coerente con l’idea che presentare sia il risultato dell’opzione scelta sia quello dell’opzione non scelta (outcome controfattuale) favorisca l’apprendimento di un “reference point” specifico del contesto”, hanno spiegato il responsabile dello studio Giorgio Coricelli e il primo autore dello studio Stefano Palminteri dell’Institute of Cognitive Neuroscience (ICN) dell’University College London (UCL). «A conferma delle predizioni del nostro modello computazionale dei valori relativi, i risultati comportamentali illustrano come i partecipanti abbiano imparato ugualmente bene nei contesti di ricompense o punizioni».

    Inoltre, il circuito che elabora l’esito della nostra scelta cambia e diventa quello della ricompensa perché, anche se di fatto non vinciamo, non perdiamo tanto quanto avremmo potuto. Inoltre, i dati di risonanza hanno permesso di riconciliare dati sperimentali di studi precedenti che erano considerati contraddittori. “Infatti, l’aumento osservato della discriminazione tra i due contesti (di ricompense e di punizioni) nella condizione di informazione completa si è visto essere associato ad uno spostamento dell’elaborazione neuronale dell’outcome negativo (i.e. punizione) dall’insula verso lo striato ventrale, a dimostrazione della codifica della punizione e delle ricompense nella stessa struttura neuronale”.

    Quindi il cervello è in grado di contestualizzare le opzioni di scelta e di utilizzare efficientemente un’unica procedura di apprendimento sia nel contesto delle ricompense che in quello delle punizioni.

    Riferimenti: Contextual modulation of value signals in reward and punishment learning; Stefano Palminteri, Mehdi Khamassi, Mateus Joffily & Giorgio Coricelli; Nature Communications doi:10.1038/ncomms9096

    Se avete ricerche e studi da segnalare alla redazione per la rubrica “Ricerca d’Italia” scrivete a redazione@galileonet.it

    1 commento

    1. Molto interessante!

      Sarebbe interessante anche verificare l’apprendimento conseguente ad un insuccesso. Come appende il cervello, nello stesso contesto, in seguito ad un insuccesso verificatosi con la strategia punitiva/ricompesatoria?

    LASCIA UN COMMENTO

    Please enter your comment!
    Please enter your name here