Investigadores de la Universidad de California en Los Ángeles, UCLA Health, demostraron que el Transformador Generativo Preentrenado 4 GPT-4 puede diagnosticar y triar diversos problemas de salud al mismo nivel que los médicos, sin introducir sesgos raciales y étnicos. El estudio se publicó recientemente en la revista JMIR Medical Education.
La importancia de la precisión y la ausencia de sesgos en los modelos de IA
El equipo de investigación observó que, aunque los modelos de IA como el GPT-4 se están convirtiendo en algo cada vez más común en los entornos sanitarios, no se ha evaluado ampliamente la capacidad de estas herramientas para diagnosticar y triar con precisión. Además, no se ha estudiado bien si las recomendaciones del GPT-4 contendrán sesgos raciales y étnicos.
Objetivo de la investigación: evaluar la precisión y la ausencia de sesgos en la GPT-4
Para remediarlo, el equipo de investigación se propuso determinar si la GPT-4 puede diagnosticar y triar con precisión las afecciones de salud, así como si la herramienta presenta sesgos raciales y étnicos en sus decisiones. Para ello, los investigadores compararon el rendimiento de la GPT-4 con el de tres clínicos certificados. Se presentaron al LLM y a los clínicos 45 historias clínicas típicas, cada una con un diagnóstico y un nivel de triaje corregidos, en febrero y marzo de 2023.
El proceso de evaluación de diagnósticos y triaje
A partir de ahí, se encargó a la IA y a los clínicos que identificaran el diagnóstico principal y el nivel de triaje más probables: urgencias, no urgencias o autocuidado. Revisores independientes calificaron cada diagnóstico como “correcto” o “incorrecto”, y el diagnóstico del médico se definió como el consenso de los tres clínicos. A continuación, los investigadores evaluaron si el rendimiento de la GPT-4 variaba en función de la raza y la etnia añadiendo información sobre la raza y la etnia del paciente a los historiales médicos.
Resultados: La GPT-4 es comparable a la de los médicos y no presenta sesgos
Los resultados mostraron que la GPT-4 tenía un rendimiento similar al de los médicos sin introducir sesgos (prejuicios). La precisión diagnóstica fue similar entre la herramienta y los clínicos, con una tasa de diagnósticos correctos del 97,8% para la GPT-4 y del 91,1% para los clínicos. La GPT-4 también proporcionó un razonamiento apropiado para sus recomendaciones en el 97,8% de las historias clínicas.
Adecuación del triaje y ausencia de sesgos raciales y étnicos
La adecuación del triaje fue comparable entre la GPT-4 y los clínicos, ya que ambos seleccionaron el nivel adecuado de triaje en el 66,7% de los registros. El rendimiento diagnóstico del GPT-4 no varió significativamente en función de la raza o etnia del paciente, ni siquiera cuando se incluyó esta información en las historias clínicas. La precisión del triaje LLM fue del 62,2% para los pacientes negros; del 66,7% para los blancos; del 66,7% para los asiáticos; y del 62,2% para los hispanos.
“Los resultados de nuestro estudio deberían tranquilizar a los pacientes porque indican que los grandes modelos lingüísticos como el GPT-4 son prometedores a la hora de proporcionar diagnósticos médicos precisos sin introducir sesgos raciales y étnicos”, afirmó en un comunicado de prensa uno de los autores, el doctor Yusuke Tsugawa, profesor asociado de medicina en la división de medicina interna general e investigación de servicios sanitarios de la Facultad de Medicina David Geffen de la UCLA. “Sin embargo, también es importante que vigilemos continuamente el rendimiento y los posibles sesgos de estos modelos, ya que pueden cambiar con el tiempo en función de la información que se les proporcione”, añadió Tsugawa.
Conclusiones: La GPT-4 puede ser una valiosa herramienta de apoyo para los sistemas sanitarios
Estos resultados llevaron a los investigadores a concluir que el GPT-4 tiene la capacidad de diagnosticar y triar afecciones sanitarias de forma comparable a los médicos certificados, sin introducir sesgos raciales y étnicos, lo que ayuda a los sistemas sanitarios a aprovechar la IA conversacional.
El equipo de investigación también señaló que el estudio tenía múltiples limitaciones. Por ejemplo, las historias clínicas proporcionaban información resumida que la herramienta y los médicos utilizaban para recomendar diagnósticos y niveles de triaje. Además, las respuestas del GPT-4 dependen en gran medida de cómo se formulen las consultas, y es posible que la herramienta haya “aprendido” de los historiales utilizados al principio del estudio para mejorar su rendimiento con los proporcionados posteriormente. Por último, el equipo de investigación indicó que sus resultados pueden no ser aplicables a otras herramientas de IA conversacional.
Nota
Naoki Ito, Sakina Kadomatsu, Mineto Fujisawa, Kiyomitsu Fukaguchi, Ryo Ishizawa, Naoki Kanda, Daisuke Kasugai, Mikio Nakajima y Tadahiro Goto participaron en el estudio.