La IA funciona tan bien o mejor que los oftalmólogos humanos en el diagnóstico y tratamiento del glaucoma. Autor/a: Andy S. Huang, Kyle Hirabayashi, Laura Barna, et al. Assessment of a Large Language Models Responses to Questions and Cases About Glaucoma and Retina Management
La IA funciona tan bien o mejor que los oftalmólogos humanos en el diagnóstico y tratamiento del glaucoma. También coincide con los oftalmólogos en el manejo de enfermedades de la retina.
Evaluación de las respuestas de un modelo de lenguaje grande a preguntas y casos sobre el glaucoma y el manejo de la retina Puntos clave Pregunta ¿Puede un chatbot de modelo de lenguaje grande (LLM) proporcionar respuestas precisas y completas en comparación con oftalmólogos capacitados en el manejo del glaucoma y las enfermedades de la retina? Hallazgos En este estudio transversal, con respuestas calificadas mediante una escala Likert, el chatbot LLM demostró competencia comparativa, igualando en gran medida, si no superando, a los subespecialistas en glaucoma y retina al abordar preguntas oftalmológicas y el manejo de casos de pacientes. Significado Los hallazgos subrayan la utilidad potencial de los LLM como valiosos complementos de diagnóstico en oftalmología, particularmente en subespecialidades quirúrgicas y altamente especializadas de glaucoma y retina. |
Importancia
Los modelos de lenguaje grande (LLM) están revolucionando el diagnóstico y el tratamiento médicos, ofreciendo una precisión y una facilidad sin precedentes que superan a los motores de búsqueda convencionales. Su integración en los programas de asistencia médica será fundamental para los oftalmólogos como complemento a la práctica de la medicina basada en la evidencia. Por lo tanto, la precisión del diagnóstico y el tratamiento de las respuestas generadas por LLM en comparación con los oftalmólogos capacitados puede ayudar a evaluar su precisión y validar su utilidad potencial en subespecialidades oftálmicas.
Objetivo
Comparar la precisión diagnóstica y la amplitud de las respuestas de un chatbot de LLM con las de especialistas en glaucoma y retina capacitados en preguntas oftalmológicas y manejo de casos reales de pacientes.
Diseño, entorno y participantes
Este estudio transversal comparativo reclutó a 15 participantes de entre 31 y 67 años, incluidos 12 médicos tratantes y 3 aprendices de alto nivel, de clínicas oftalmológicas afiliadas al Departamento de Oftalmología de la Escuela de Medicina Icahn en Mount Sinai, Nueva York, Nueva York. Las preguntas sobre glaucoma y retina (10 de cada tipo) se seleccionaron al azar de las preguntas más frecuentes de la Academia Estadounidense de Oftalmología.
Se seleccionaron al azar casos de glaucoma y retina no identificados (10 de cada tipo) de pacientes de oftalmología atendidos en la Escuela de Medicina Icahn en las clínicas afiliadas a Mount Sinai. El LLM utilizado fue GPT-4 (versión del 12 de mayo de 2023). Los datos se recopilaron de junio a agosto de 2023.
Principales resultados y medidas
Las respuestas se evaluaron mediante una escala Likert para determinar la precisión e integridad médica. El análisis estadístico implicó la prueba U de Mann-Whitney y la prueba de Kruskal-Wallis, seguidas de una comparación por pares.
Resultados
La clasificación media combinada de los casos de preguntas para la precisión fue 506,2 para el chatbot LLM y 403,4 para los especialistas en glaucoma (n = 831; Mann-Whitney U = 27976,5; P < 0,001), y la clasificación media para la integridad fue 528,3 y 398,7. respectivamente (n = 828; Mann-Whitney U = 25218,5; P < .001).
La clasificación media de precisión fue 235,3 para el chatbot LLM y 216,1 para los especialistas en retina (n = 440; Mann-Whitney U = 15518,0; P = .17), y la clasificación media de integridad fue 258,3 y 208,7, respectivamente (n = 439; Mann-Whitney U = 13123,5; P = .005).
La prueba de Dunn reveló una diferencia significativa entre todas las comparaciones por pares, excepto entre el especialista y el aprendiz en la calificación de la integridad del chatbot. Las comparaciones generales por pares mostraron que tanto los alumnos como los especialistas calificaron la precisión y la integridad del chatbot de manera más favorable que los de sus homólogos especialistas, y los especialistas notaron una diferencia significativa en la precisión y la integridad del chatbot (z = 3,23; P = .007) y la integridad (z = 5,86; p < .001).

Figura: En los diagramas de caja presentados, el cuadro indica el IQR entre el primer y el tercer cuartil; la línea central indica la mediana del conjunto de datos; los bigotes indican 1,5 veces el IQR; los círculos indican valores atípicos leves (valores entre 1,5 y 3 veces el IQR); y los triángulos indican valores atípicos extremos (más de 3 veces el IQR).
Conclusiones y relevancia
Este estudio acentúa la competencia comparativa de los chatbots LLM en precisión e integridad del diagnóstico en comparación con oftalmólogos capacitados en diversos escenarios clínicos.
El chatbot de LLM superó a los especialistas en glaucoma e igualó a los especialistas en retina en precisión de diagnóstico y tratamiento, lo que respalda su papel como un complemento de diagnóstico prometedor en oftalmología.
Comentarios
El nuevo estudio probó la IA con un panel de médicos humanos al evaluar 20 casos de pacientes.
La inteligencia artificial puede igualar e incluso superar a los oftalmólogos humanos en el diagnóstico y tratamiento del glaucoma, encuentra un estudio reciente.
El sistema GPT-4 de OpenAI funcionó tan bien o mejor que los oftalmólogos en la evaluación de 20 pacientes diferentes para detectar glaucoma y enfermedades de la retina, informan los investigadores en la revista JAMA Ophthalmology.
"La IA fue particularmente sorprendente por su competencia en el manejo de casos de pacientes con glaucoma y retina, igualando la precisión e integridad de los diagnósticos y sugerencias de tratamiento hechos por médicos humanos en un formato de nota clínica", dijo el autor principal del estudio, el Dr. Louis Pasquale, vicepresidente de investigación en oftalmología en el Eye and Ear Infirmary de Mount Sinai de Nueva York.
Los resultados sugieren que la IA podría desempeñar un importante papel de apoyo para los oftalmólogos cuando intentan tratar el glaucoma de los pacientes.
"Así como la aplicación de inteligencia artificial Grammarly puede enseñarnos cómo ser mejores escritores, GPT-4 puede brindarnos una guía valiosa sobre cómo ser mejores médicos, especialmente en términos de cómo documentamos los hallazgos de los exámenes de los pacientes", dijo Pasquale en un comunicado de prensa de enfermería.
El glaucoma es notoriamente difícil de diagnosticar. Aproximadamente la mitad de los 3 millones de estadounidenses con glaucoma no saben que lo tienen, según la Academia Estadounidense de Oftalmología (AAO).
El glaucoma ocurre cuando la presión del líquido se acumula dentro del ojo, dañando el nervio óptico y creando puntos ciegos en la visión de una persona, dice la AAO.
Para este estudio, los investigadores utilizaron un conjunto básico de 20 preguntas sobre glaucoma y enfermedades de la retina para probar el programa de IA con un conjunto de 12 oftalmólogos asistentes y tres aprendices de alto nivel.
Luego, las respuestas se analizaron estadísticamente y se calificaron según su precisión y minuciosidad.
Los resultados muestran que la IA superó a los oftalmólogos en respuesta al diagnóstico y tratamiento del glaucoma. Para las enfermedades de la retina, la IA igualó a los humanos en precisión, pero los superó en exhaustividad.
Los investigadores señalaron que las herramientas avanzadas de inteligencia artificial como GPT-4 se entrenan con grandes cantidades de datos, texto e imágenes.
El investigador principal, el Dr. Andy Huang, residente de oftalmología en la enfermería de ojos y oídos de Mount Sinai de Nueva York, dijo que los resultados muestran que la IA puede ayudar a tratar enfermedades oculares.
"Podría servir como un asistente confiable para los oftalmólogos brindándoles apoyo de diagnóstico y potencialmente aliviando su carga de trabajo, especialmente en casos complejos o áreas con un gran volumen de pacientes", dijo Huang.
"Para los pacientes, la integración de la IA en la práctica oftálmica convencional podría dar como resultado un acceso más rápido al asesoramiento de expertos, junto con una toma de decisiones más informada para guiar su tratamiento", añadió Huang.
Mensaje final En este estudio, un chatbot de LLM tuvo una precisión diagnóstica comparativa e integral en glaucoma y retina frente a oftalmólogos capacitados tanto en preguntas clínicas como en casos clínicos. Estos hallazgos respaldan la posibilidad de que las herramientas de inteligencia artificial puedan desempeñar un papel fundamental como complementos tanto diagnósticos como terapéuticos. |
FUENTE: New York Eye and Ear Infirmary of Mount Sinai, comunicado de prensa, febrero de 2015. 22, 2024