ChatGPT-4 dokázal porazit lékaře při diagnostice nemocí

Lékaři se zdráhají naslouchat diagnózám umělé inteligence, bez ohledu na to, jak jsou správné nebo dobře vyargumentované. Pokud se neprokáže, že mají pravdu.

Klinická studie z roku 2024 provedená odborníky z několika amerických výzkumných center zkoumala vliv velkých jazykových modelů (neboli LLM), jako je ChatGPT-4, na lékařský diagnostický proces.

A výsledky byly objevné: lékaři, kteří vedle svých běžných zdrojů využívali platformu OpenAI, dosahovali jen o něco lepších výsledků než lékaři, kteří k botům neměli přístup vůbec. K překvapení výzkumníků ChatGPT působící samostatně překonal obě skupiny lékařů.

Chatboti proti lékařům

Studie, které se zúčastnilo 50 lékařů různých specializací (interní medicína, rodinná medicína a pohotovostní medicína), rozdělila účastníky do dvou skupin: jedné, která používala chatbota spolu s tradičními nástroji diagnostické podpory a druhé, která využívala pouze konvenční zdroje, jako jsou klinické databáze. Kromě toho byl hodnocen výkon chatbota, který působil autonomně.

AI models ChatGPT and Grok outperform the average doctor on a medical licensing exam: the average score by doctors is 75% – ChatGPT scored 98% and Grok 84% pic.twitter.com/QmR1NZSY4v

— Tsarathustra (@tsarnick) July 18, 2024

Chatbot používaný samostatně dosáhl průměrného skóre 92 % v ukazateli měřícím přesnost a kvalitu diagnostického uvažování, čímž překonal jak lékaře s přístupem k nástroji (76 %), tak lékaře bez přístupu (74 %).

Lidská zaujatost a nedostatečné využití AI

Jedním z nejpozoruhodnějších překvapení byla neochota lékařů akceptovat alternativní diagnózy navržené chatbotem a to i v případě, že byly přesnější. Jak vysvětlil spoluautor studie Dr. Adam Rodman, odborník na interní medicínu.

„Neposlouchali umělou inteligenci, když jim říkala věci, které byly v rozporu s jejich vlastními představami.“

Toto zjištění odráží dobře zdokumentovaný jev: přílišnou důvěru lékařů ve vlastní úsudek.

Dalším kritickým aspektem byl způsob interakce lékařů s chatbotem. Mnozí s ním zacházeli jako s běžným vyhledávačem a kladli mu konkrétní otázky, místo aby využili jeho schopnosti analyzovat celé případy a nabízet strukturovanou argumentaci. Pouze menšina využívala nástroj ke komplexnímu zpracování všech klinických informací.

Nevyužitý potenciál modelů umělé inteligence

Modely LLM prokázaly vynikající schopnost řešit složité klinické problémy díky svému tréninku na velkých objemech dat a schopnosti interpretovat přirozený jazyk. Ve studii chatbot nejen generoval přesné diagnózy, ale také podrobně vysvětloval důvody svých závěrů.

To naznačuje, že by se tyto nástroje mohly stát „lékařskými asistenty“ schopnými poskytovat cenné druhé názory, které doplní lidský úsudek.

K využití tohoto potenciálu je však nezbytné vyškolit odborníky v efektivním používání těchto nástrojů a mezi omezení studie patří skutečnost, že zúčastnění lékaři neabsolvovali specifické školení v používání chatbotů, což odráží úroveň jejich skutečného využívání zdravotníky, ale také podceňuje skutečný potenciál umělé inteligence.

Precedenty ve využívání AI v medicíně

Využívání počítačů na pomoc při diagnostice není novinkou. Od 70. let minulého století vyvíjeli vědci systémy, jako byl INTERNIST-1, který se pokoušel replikovat lidské uvažování pomocí logických kódů. Ačkoli tyto iniciativy slibovaly mnoho, jejich přijetí bylo omezené kvůli jejich vysoké složitosti a nedostatku důvěry mezi lékaři.

S příchodem LLM se přístup změnil: tyto systémy nenapodobují přímo lidské uvažování, ale generují diagnózy předpovídáním jazykových vzorců na základě předchozích dat. Jejich snadno použitelné konverzační rozhraní změnilo způsob, jakým mohou lékaři komunikovat s počítačem.