ChatGPT supera il test di abilitazione a medicina negli Stati Uniti

chatGPT
(credit: Omsiva Prakash via Unsplash)

Nell’ultimo decennio lo sviluppo dell’intelligenza artificiale (IA) ha trasformato il modo in cui possiamo affrontare un’ampia gamma di attività, ma le applicazioni di questa tecnologia nell’assistenza clinica sono ancora limitate. Un team di ricercatori statunitensi ha valutato le prestazioni di ChatGPT, il chatbot basato su intelligenza artificiale più famoso del momento, nell’eseguire l’esame di licenza medica previsto negli Stati Uniti. Il nuovo chatbot non solo ha superato gli esami ma ha dimostrato di saper fornire spiegazioni logiche alle sue risposte. 

Cos’è ChatGPT

GPT, acronimo di Generative Pretrained Transformer, è una piattaforma di apprendimento automatico basata sull’intelligenza artificiale. È un modello linguistico di grandi dimensioni che, attraverso algoritmi di apprendimento automatico, elabora gli input che riceve e genera risposte coerenti e appropriate in un linguaggio simile a quello umano

ChatGPT alla prova d’esame in medicina

I ricercatori hanno sottoposto il nuovo sistema di IA all’United States Medical Licensing Examination (USMLE), che consiste in una serie di tre esami con domande di scienza medica di base, ragionamento clinico e bioetica. L’USMLE è utilizzato per testare le capacità e la maturità degli studenti per poter accedere al sistema medico americano. Gli esperti hanno fornito a ChatGPT 350 domande, selezionate dall’esame USMLE di giugno 2022, con l’obiettivo di ottenere un feedback qualitativo e quantitativo per valutare il possibile utilizzo del sistema in ambito sanitario

ChatGPT, come un vero e proprio studente, ha affrontato domande a risposta aperta, domande a scelta multipla e domande dove la risposta doveva essere giustificata, ottenendo risultati che gli autori dello studio definiscono sorprendenti e impressionanti. Se la soglia di superamento dell’esame è di circa il 60% (varia un po’ a seconda degli anni), GPT ha ottenuto un punteggio compreso tra il 52 e il 75% in tutte e tre le prove, ha fornito risposte e spiegazioni con una concordanza superiore al 90% in tutte le domande e ha generato intuizioni significative, non ovvie e clinicamente valide. ChatGPT ha mostrato una precisione decisamente maggiore rispetto ad altri sistemi di intelligenza artificiale (che hanno raggiunto un’accuratezza al di sotto del 40% nelle risposte) e senza alcun tipo di formazione o suggerimento esterno. Questo, secondo i ricercatori, sta ad indicare che le sue prestazioni potrebbero continuare ad aumentare, man mano che i modelli linguistici di grandi dimensioni continueranno a maturare.

ChatGPT ha svolto compiti complessi e di rilevanza notevole per la gestione medica. Sistemi di questo tipo, ha commentato l’autrice dello studio Tiffany Kung, presto potranno avere un impatto notevole sulla medicina clinica in generale. “Il nostro studio – concludono gli autori – suggerisce che modelli linguistici di dimensioni considerevoli come ChatGPT potrebbero potenzialmente assistere gli studenti in situazioni di istruzione medica, come preludio alla futura integrazione nel processo decisionale clinico”.

Riferimenti: Plos Digital Health

Credits immagine: Om siva Prakash su Unsplash