Visul unui „doctor computerizat” există cel puțin din 1959, dar până la apariția recentă a modelelor mari de limbaj, niciun program de calculator nu putea concura cu medicii umani în lucrul cu cazuri clinice complexe. Apariția modelelor LLM a aprins o nouă speranță și a generat numeroase studii cu rezultate încurajatoare. Următorul pas important a fost apariția modelelor de raționament, care mențin o secvență internă de gândire și pot explica deciziile luate.
Acest lucru a făcut confruntarea om-mașină mult mai interesantă, iar acum a apărut primul studiu riguros al unui LLM de raționament pus direct în competiție cu medicii umani, fiind publicat în revista Science. Cu toate că studiul este încă proaspăt, ritmul amețitor de progres în domeniul IA înseamnă că LLM-ul folosit – primul model de raționament al OpenAI, o1-preview – este deja învechit, iar cele mai noi modele ar trebui să performeze chiar mai bine.
Cercetătorii au testat modelul pe șase diferite sarcini în stilul unui medic, comparându-l cu sute de medici și cu modele anterioare precum GPT-4. Mai întâi, i-au furnizat o1-preview textul integral al a 143 de conferințe clinicopatologice (CPC) de la NEJM și i-au cerut să producă o listă clasată a diagnosticelor posibile (un diagnostic diferențial). Doi medici au evaluat independent rezultatele. O CPC este un format de predare folosit frecvent în care un caz real, de obicei dificil, este prezentat în detaliu unui discutant care lucrează la el în mod oral, construind un diagnostic diferențial și raționând către un răspuns final.
o1-preview a inclus diagnosticul corect undeva în diagnosticul său diferențial în 78.3% din cazuri și l-a numit ca fiind cel mai probabil răspuns în 52% din cazuri. Atunci când răspunsurile „foarte apropiate” au fost luate în considerare ca fiind corecte, acuratețea a ajuns la 97.9%.
O îngrijorare critică legată de LLM-uri pe cazuri publicate este memorizarea, deoarece un model ar putea fi întâlnit cazul și răspunsul acestuia în timpul antrenamentului. Autorii au abordat această problemă comparând performanța pe cazuri publicate înainte și după limita de preantrenament a lui o1-preview și nu au găsit diferențe semnificative, sugerând un raționament autentic în loc de memorie.
GPT-4 a avut performanțe semnificativ mai slabe. Mai important, într-un subgrup de 101 de cazuri în care răspunsurile de la medicii umani au fost documentate anterior, o1-preview a depășit oamenii atât în acuratețea top-1, cât și în acuratețea top-10.
Stabilirea unui diagnostic este doar primul pas. Va fi modelul capabil să recomande corect acțiuni ulterioare? Pentru a răspunde la această întrebare, pe aceleași 136 de CPC-uri, autorii i-au cerut lui o1-preview ce test diagnostic ar solicita următorul. În 87.5% din cazuri, modelul a ales testul corect; în alte 11%, a ales ceva ce recenzorii au considerat a fi util; și în doar 1.5% a fost alegerea considerată inutilă.
În continuare, echipa a testat o1-preview pe 20 de cazuri de la NEJM Healer, o unealtă educațională cu pacienți virtuali, evaluând răspunsurile în patru domenii diferite ale scrierii.
Sursa informatiei: https://www.lifespan.io

Senior Editor RevistaSanatatii.ro. Pasionat de lifespan, fan David Sinclair.










