Chatbot-urile AI nu oferă în mod constant răspunsuri precise în domeniul sănătății

0
(0)

„Lucrarea noastră se concentrează explicit pe scenarii de sănătate pe care utilizatorul mediu de internet ar putea să le adreseze AI, perspectivă pe care cercetările anterioare referitoare la modelele de limbaj mari (LLM-uri) și sănătate nu au acoperit-o”, a declarat autorul senior al studiului, Amulya Yadav, PhD, profesor asociat de informatică și sisteme inteligente la Universitatea Penn State. „Am dorit să înțelegem dacă oamenii folosesc LLM-uri precum ChatGPT ca un verificator de simptome de sănătate, așa cum am folosit istoric Google, cât de precis este LLM-ul în a răspunde acestor întrebări și cât de dăunătoare ar putea fi acele răspunsuri?”

Studiul a examinat o schimbare în modul în care oamenii caută informații despre sănătate online. Potrivit cercetătorilor, „peste jumătate dintre adulții din SUA consultă resurse online pentru sfaturi medicale”, o tendință care este deosebit de evidentă în rândul adulților mai tineri, aproximativ un sfert dintre persoanele sub 30 de ani folosind AI pentru îndrumare legată de sănătate.

Cercetarea a fost concepută pentru a evalua performanța AI în comunicarea reală, de zi cu zi, legată de sănătate, în loc de mediile de testare controlate care se bazează pe examene de licențiere medicală sau studii de caz clinice. Cercetătorii au scris că studiile anterioare „nu iau în considerare natura neestructurată și adesea ambiguă a întrebărilor de sănătate de zi cu zi cu caracter general”.

Pentru a efectua studiul, echipa de la Penn State a organizat o competiție „Diagnoze-a-thon” de o săptămână, la care au participat 34 de persoane, inclusiv cadre didactice, personal, studenți de licență și studenți de master. Participanții au trimis 212 provocări descriind îngrijorări reale sau imaginare legate de sănătate, din perspectivele atât a pacientului, cât și a medicului. Li s-a permis să folosească unul dintre cele patru modele AI accesibile publicului: ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro sau Llama3-8b.

„Una dintre marile noastre realizări este că încercăm practic să replicăm utilizarea reală a LLM-urilor, spunând participanților să aleagă LLM-ul dorit și să-l folosească așa cum ar face într-o zi obișnuită”, a spus autorul principal Bonam Mingole, doctorand în științele informației și tehnologie la Penn State. „Acest tip de cercetare participativă este atât de important pentru a înțelege cum publicul folosește AI în viața de zi cu zi.”

Nouă medici cu certificare de bord au evaluat răspunsurile generate de AI la provocări folosind un sistem de scală cu șase puncte pentru a măsura validitatea, calitatea informațiilor, înțelegerea și raționamentul, și potențialul de daună. Aproximativ 76% dintre răspunsuri au fost considerate precise în ansamblu și au arătat că ChatGPT-4o a fost cel mai precis, cu 84,62%, în timp ce Llama3-8b a avut cea mai mică precizie, de 50%.

Rezultatele au arătat, de asemenea, diferențe semnificative între specialitățile medicale.

Sursa articol https://insideprecisionmedicine.com

Cat de utila a fost aceasta pagina?

Click pe o steluta sa votezi

Vot mediu 0 / 5. Numar de voturi: 0

Nu sunt voturi pana acum. Fii primul care voteaza.

Ne pare rau ca nu ti-a fost util acest articol

Ajuta-ne sa ne imbunatatim

Cum putem sa ne imbunatatim?

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *