Seguinos en las redes

Internacionales

Israel. Según estudio de la Universidad Ben-Gurion de Negev: ChatGPT-4 supera a otros modelos en la comparación de inteligencia artificial médica

Publicada

el

chat-gpt-logo-09-2048×803

Agencia AJN.- El uso de la inteligencia artificial, particularmente de modelos de lenguaje avanzados como ChatGPT, se está volviendo cada vez más común. Como resultado, surge un interés creciente en utilizar modelos de IA para interpretar información médica y apoyar decisiones críticas en el ámbito de la salud.

which-ai-model-best-de

Preguntas de muestra. Crédito: Universidad Ben-Gurion del Negev

Un equipo de investigación de la Universidad Ben-Gurión del Néguev decidió examinar las capacidades de los modelos de lenguaje avanzados (LLMs, por sus siglas en inglés) especializados en información médica y compararlos. Los sorprendentes hallazgos de esta investigación fueron publicados en la revista Computers in Biology and Medicine.

La inteligencia artificial aplicada a la información médica se ha convertido en una herramienta habitual para responder preguntas de pacientes a través de chatbots médicos, predecir enfermedades, crear datos sintéticos para proteger la privacidad de los pacientes o generar preguntas y respuestas para estudiantes de medicina.

Los modelos de IA que procesan datos textuales han demostrado ser efectivos clasificando información. Sin embargo, cuando los datos involucran información médica clínica que puede salvar vidas, es crucial comprender el significado profundo de los códigos médicos y las diferencias entre ellos.

El estudiante de doctorado Ofir Ben Shoham y el Dr. Nadav Rappoport, del Departamento de Ingeniería de Software y Sistemas de Información de la Universidad Ben-Gurión, decidieron investigar hasta qué punto los modelos de lenguaje avanzados comprenden el mundo médico y son capaces de responder preguntas sobre este tema. Para ello, llevaron a cabo una comparación entre modelos generales y aquellos afinados específicamente con información médica.

Con este fin, los investigadores desarrollaron un método de evaluación dedicado, MedConceptsQA, diseñado para responder preguntas sobre conceptos médicos.

Los investigadores generaron más de 800,000 preguntas y respuestas cerradas sobre conceptos médicos internacionales en tres niveles de dificultad, con el objetivo de evaluar cómo los usuarios de modelos de lenguaje interpretan términos médicos y diferencian entre conceptos como diagnósticos, procedimientos y medicamentos. Utilizaron un algoritmo desarrollado por ellos para generar automáticamente preguntas que describen un código médico.

Mientras que las preguntas fáciles requieren conocimientos básicos, las difíciles demandan una comprensión detallada y la capacidad de identificar pequeñas diferencias entre conceptos médicos similares. Las preguntas de nivel intermedio exigen un conocimiento algo más profundo. Los investigadores utilizaron estándares de datos clínicos existentes para evaluar códigos médicos y distinguir entre conceptos para tareas como la codificación médica, resúmenes, facturación automática, entre otros.

Los resultados mostraron que la mayoría de los modelos tuvieron un desempeño deficiente, equivalente a adivinanzas al azar, incluso aquellos entrenados específicamente con datos médicos. Esto ocurrió en general, excepto en el caso de ChatGPT-4, que mostró un mejor desempeño que los demás, con una precisión promedio del 60%, aunque aún lejos de ser satisfactoria.

«Parece que, en su mayoría, los modelos entrenados específicamente para fines médicos lograron niveles de precisión cercanos al azar, a pesar de estar pre-entrenados con datos médicos», señaló el Dr. Rappoport.

Cabe destacar que los modelos creados para propósitos generales (como Llama3-70B y ChatGPT-4) lograron mejores resultados. ChatGPT-4 demostró el mejor desempeño, aunque su precisión no fue suficiente para responder algunas de las preguntas específicas sobre códigos médicos creadas por los investigadores. ChatGPT-4 mostró una mejora promedio del 9-11% en comparación con Llama3-OpenBioLLM-70B, el modelo clínico que obtuvo los mejores resultados.

«Nuestra métrica sirve como un recurso valioso para evaluar la capacidad de los modelos de lenguaje avanzados para interpretar códigos médicos y distinguir entre conceptos médicos. Mostramos que la mayoría de los modelos clínicos logran un desempeño equivalente al azar, mientras que ChatGPT-3.5, ChatGPT-4 y Llama3-70B superan a estos modelos clínicos, a pesar de que su enfoque no está directamente en el campo médico», explicó el estudiante Shoham.

«Con nuestra base de preguntas, podemos evaluar fácilmente, con solo presionar un botón, otros modelos que se publiquen en el futuro y compararlos».

Los datos clínicos suelen incluir tanto códigos médicos estándar como textos en lenguaje natural. Esta investigación destaca la necesidad de un lenguaje clínico más amplio en los modelos para comprender información médica y enfatiza la precaución requerida en su uso generalizado.

«Presentamos un punto de referencia para evaluar la calidad de la información de los códigos médicos y subrayamos la necesidad de cautela al utilizar esta información», concluyó el Dr. Rappoport.chatgpt

Guerra

Irán. AIEA: El reactor de agua pesada de Arak fue dañado por un ataque israelí

Publicado

el

Por

Arak

Agencia AJN.- Los ataques militares israelíes alcanzaron el reactor de investigación de agua pesada Khondab de Irán, un proyecto en construcción que aún no había comenzado a operar, y dañaron la planta cercana que produce agua pesada, según el organismo de control nuclear de la ONU.

Israel ha atacado varias instalaciones nucleares en Irán. El reactor de agua pesada, tal como se diseñó originalmente, habría podido producir fácilmente plutonio que eventualmente podría haberse utilizado en una bomba nuclear, aunque Irán niega que busque tales armas.

Sin embargo, en virtud de un acuerdo de 2015 con las principales potencias, la planta fue rediseñada para reducir el riesgo de proliferación y su núcleo fue retirado y rellenado con hormigón. Irán había informado a la Agencia Internacional de Energía Atómica, con sede en Viena, que el reactor entraría en funcionamiento en 2026.

“La AIEA tiene información de que el reactor de investigación de agua pesada de Khondab [ex Arak], en construcción, fue alcanzado. No estaba operativo y no contenía material nuclear, por lo que no se produjeron efectos radiológicos”, tuiteó.

«Si bien los daños a la cercana planta de producción de agua pesada inicialmente no eran visibles, ahora se considera que los edificios clave de la instalación sufrieron daños, incluida la unidad de destilación», añadió el organismo.

Seguir leyendo

Internacionales

Trump desmintió al Wall Street Journal: “No tiene idea de lo que pienso sobre Irán”

Publicado

el

Por

trump

Agencia AJN.- A través de una publicación en su red Truth Social, el presidente de Estados Unidos, Donald Trump, desmintió hoy al Wall Street Journal: “No tiene idea de lo que pienso sobre Irán”.

El periódico norteamericano aseguró que el presidente estadounidense aprobó los planes de ataque contra Irán, pero que postergó dar la orden final para ver si Teherán abandonaba su programa nuclear.

Según las fuentes del Wall Street Journal, Trump espera que la amenaza de unirse a los ataques de Israel lleve a Teherán a abandonar su programa nuclear.

Según el Wall Street Journal, Trump habría dado instrucciones privadas a los militares en la Sala de Crisis de la Casa Blanca el martes por la noche.

El foco de estadounidenses e israelíes estaría en la planta iraní de enriquecimiento de uranio llamada Fordow. No obstante, Israel aún no ha atacado la instalación, que se encuentra bajo una montaña y, según expertos militares, está fuera del alcance de casi cualquier bomba, salvo las más potentes.

Seguir leyendo
Banner para AJN 300×250

Más leídas

WhatsApp Suscribite al Whatsapp!