L’intelligenza artificiale sta aprendo anche in ambito sanitario scenari inimmaginabili fino a poco tempo fa. I LLM e i chatbot hanno un potenziale come strumento amministrativo per i medici, dimostrando competenza nella scrittura di articoli di ricerca e nella generazione di istruzioni per i pazienti. Il fornitore di cartelle cliniche elettroniche (EHR) Epic ha collaborato con OpenAI di Microsoft per incorporare il GPT-4 con l'obiettivo di automatizzare le componenti della documentazione clinica, e alcuni sistemi sanitari hanno già firmato per adottare il nuovo software EHR. Uno degli ambiti sui quali si sta lavorando riguarda l'accuratezza diagnostica di ChatGPT per valutare se la capacità dei modelli linguistici di grandi dimensioni (LLM), atti ad elaborare informazioni e fornire agli utenti approfondimenti da grandi quantità di dati, possa rendere questa tecnologia adatta alla risoluzione di problemi algoritmici in medicina. Uno studio recente ha rilevato che il chatbot di intelligenza artificiale (AI) ha fornito una diagnosi corretta nel 39% dei casi del New England Journal of Medicine (NEJM), evidenziando una potenzialità per supportare i medici nella diagnosi e nello sviluppo di una lista differenziale almeno per i casi complessi. Ma in ambito pediatrico, dove accanto ai sintomi è indispensabile un collegamento con l’età del paziente, siamo già ad un livello di valutazione accettabile? Questo primo studio pediatrico ha provato a inserire nel ChatGPT versione 3.5 100 sfide di casi pediatrici di JAMA Pediatrics e NEJM, con la richiesta di elencare una diagnosi differenziale e una diagnosi finale. Sono state selezionate tutte le sfide cliniche JAMA Pediatrics disponibili (n = 60). Per i casi del NEJM (n = 40), sono state selezionate casualmente le cartelle cliniche del Massachusetts General Hospital relative alla "pediatria" degli ultimi 10 anni, pubblicate dal 2013 al 2023. Gli esiti prestabiliti erano l'allineamento delle diagnosi differenziali e della diagnosi fornita dal chatbot con la diagnosi del medico del caso. Le diagnosi generate dal chatbot sono state valutate come corrette, errate o "non hanno catturato completamente la diagnosi" rispetto alla diagnosi del caso riportata.
Il chatbot ha avuto un tasso di errore diagnostico dell'83% Tra le diagnosi errate, il 72% erano errate e l'11% erano clinicamente correlate ma troppo ampie per essere considerate una diagnosi corretta. La maggior parte delle diagnosi errate generate dal chatbot (47 su 83 [56,7%]) apparteneva allo stesso sistema di organi della diagnosi corretta (ad esempio, psoriasi e dermatite seborroica) ma non era sufficientemente specifica per essere considerata corretta. Inoltre, il 36% delle diagnosi finali dei case report erano incluse nell'elenco differenziale generato dal LLM.
Perché abbiamo avuto queste elevate prestazioni diagnostiche insufficienti del chatbot? Innanzitutto è probabilmente necessario un addestramento più selettivo: i LLM sono in genere addestrati in modo non specifico su un'enorme quantità di dati internet, che spesso possono essere imprecisi. I LLM non discriminano tra informazioni affidabili e inaffidabili, ma si limitano a rigurgitare il testo dai dati di addestramento per generare una risposta. Per ovviare a questa limitazione alcuni LLM, come Med-PaLM 2 di Google, sono stati addestrati in modo specifico su dati medici e potrebbero essere meglio equipaggiati per fornire diagnosi accurate. Un secondo aspetto rilevante di alcuni LLM e chatbot è la mancanza di accesso in tempo reale alle informazioni mediche, che spinge a investire molto di più sui medici per far loro assumere un ruolo più attivo nella generazione di set di dati per i LLM, al fine di prepararli intenzionalmente alle funzioni mediche - un processo ampiamente definito come tuning.
In ogni caso l’alta percentuale di errori diagnostici evidenzia come sia ancor più determinante il ruolo dell’esperienza clinica
Pier Luigi Tucci
Diagnostic Accuracy of a Large Language Model in Pediatric Case Studies
Joseph Barile, et al.