El error humano detrás de los resultados rotos

Sientes ese rasguño familiar en la parte posterior de tu garganta. Toma un sorbo de agua. Duele. Intentas limpiarlo. Todavía ahí. Entonces, como millones de otros, sacas tu teléfono y empieza a buscar en Google los síntomas.

Lo que comienza como una simple búsqueda de «dolor de garganta» rápidamente en espiral. Ahora está leyendo sobre cáncer, trastornos inmunes e infecciones raras. Panic se acumula. ¿Suena familiar?

Ahí es donde AI podría ayudar. Herramientas como ChatGPT pueden dar respuestas reflexivas y rápidas y, en su mayor parte, es gratis. De hecho, un estudio reciente de Oxford encontró que los modelos de idiomas grandes casos médicos diagnosticados correctamente el 94.9% del tiempo. Eso es más alto que muchos médicos.

Sin embargo, cuando las personas usaron esas mismas herramientas en los mismos casos, su precisión cayó a solo 34.5%. Resulta que la IA no es el factor limitante aquí con respecto al rendimiento; somos nosotros, humanos, que en realidad podrían ser reteniendo a Ai de todo su potencial.

El estudio

El estudio de Oxford, dirigido por el Dr. Adam Mahdi, trajo a casi 1.300 participantes y les dio una tarea simple: actuar como pacientes. Cada persona recibió un escenario de caso detallado, completo con síntomas, historial médico y contexto personal. Estas incluían cosas como haber terminado los exámenes o experimentar dolor al mirar hacia abajo. La idea era ver qué tan bien las personas comunes podían usar la IA para descubrir qué estaba mal y decidir qué tipo de cuidado buscar.

Se les dijo Trata a la IA como un verdadero médico. Haga preguntas, describe los síntomas y obtenga ayuda. Cada participante tuvo que interactuar con el modelo al menos una vez, pero eran libres de hacer preguntas de seguimiento o volver a intentarlo si necesitaban más información. Los investigadores utilizaron tres LLM diferentes para el experimento: CHATGPT-4O, LLAMA 3, y el comando R+.

Mientras tanto, un panel de médicos acordó el diagnóstico correcto para cada caso junto con el nivel apropiado de atención. Los investigadores ya sabían si el movimiento correcto se quedaba en casa o llamaba a una ambulancia. La prueba era si los humanos y la IA podrían llegar allí juntos.

IA inteligente, malos resultados: ¿Error humano?

Piense en AI como el empleado perfecto. Puede procesar grandes cantidades de datos, seguir las instrucciones con precisión y entregar respuestas en segundos. Pero combínalo con un mal gerente, y todo se desmorona. Las instrucciones vagas, los objetivos poco claros y las capacidades infrautilizadas pueden conducir a resultados decepcionantes. Eso es exactamente lo que sucede cuando muchas personas intentan usar AI.

Imagine a su jefe pidiéndoles que les tome un café, pero no diga qué tipo. Regresas con un café negro caliente, solo para que se quejen de que querían un café con leche de leche de avena helada con dos bombas de vainilla. Técnicamente, hiciste el trabajo. Pero sin las instrucciones adecuadas, no podría entregar lo que realmente querían.

Hay una suposición común de que estas herramientas simplemente lo «entienden», como un amigo que te conoce tan bien que pueden terminar tus oraciones. Pero la IA no es tu mejor amigo. No puede leer su tono o adivinar lo que quiso decir. Si no le da exactamente lo que necesita, no obtendrá la salida correcta.

Esta desconexión apareció claramente en el estudio de Oxford. Los investigadores encontraron que los participantes que usan LLM identificaron al menos una condición relevante en solo el 34.5 por ciento de los casos. El grupo de control, que no usaba IA en absoluto, fue mejor en 47 por ciento. Y cuando se trataba de elegir el curso de acción correcto, los usuarios de LLM lo hicieron bien solo el 44.2 por ciento del tiempo. Los modelos de IA, cuando se dejan decidir por su cuenta, lo hicieron correctamente el 56.3 por ciento del tiempo.

Entonces, ¿qué salió mal? Los participantes dieron indicaciones incompletas o poco claras. Algunos olvidaron mencionar los síntomas clave. Otros dejan de fuera severidad o tiempo. Como resultado, los modelos malinterpretaron la entrada o perdieron pistas importantes. E incluso cuando la IA dio el diagnóstico correcto, los usuarios no siempre siguieron. Esa parte no es exclusiva de las máquinas. La gente también ignora a los médicos. La facilidad de los síntomas, los antibióticos quedan sin terminar y se omiten las instrucciones.

Curiosamente, algunas herramientas de IA ya están ganando tracción en los flujos de trabajo médicos reales. OpenEvidence, por ejemplo, está siendo utilizado por los médicos para buscar y validar la literatura clínica. No está tratando de reemplazar al médico, está aumentando. La diferencia radica en el diseño: herramientas como estos profesionales de soporte que ya saben cómo filtrar, interpretar y actuar sobre los resultados. Eso es muy diferente de entregar el mismo sistema a un paciente no entrenado y esperar el mismo resultado.

El cuello de botella del diagnóstico de Human-AI

Según Nathalie Volkheimer, especialista en experiencia de usuario en el Renaissance Computing Institute, un problema con los pacientes que interactúan con los médicos es que algunas afecciones o los eventos previos a ellos pueden ser vergonzosos. Es por eso que las personas a veces dejan de lado detalles importantes.

Pero cuando la otra parte es una máquina sin juicio ni emoción, pensaría que las personas se sentirían más cómodas compartiendo todo. Ese no era el caso.

Esto resalta un defecto crucial que el estudio expuso. El problema no es que los modelos de IA no sean lo suficientemente inteligentes. Es que los humanos todavía están aprendiendo a comunicarse con ellos. Como dice Volkheimer, el problema no es la maquinaria en sí. Es la interacción entre humanos y tecnología.

También expone un defecto más profundo en la forma en que evaluamos la IA. LLMS puede aprobar exámenes médicos o pruebas legales con facilidad. Eso no es sorprendente. Están capacitados en grandes conjuntos de datos y tienen acceso a la información correcta. Pero esas pruebas no reflejan cómo las personas reales hablan, piensan o hacen preguntas.

Incluso los datos de capacitación tienen sus límites. Como Una revisión médica señalamuchos modelos están capacitados en conjuntos de datos que no reflejan la diversidad del mundo real o los casos de borde raro. En medicina, faltar esos valores atípicos puede significar perder una condición potencialmente mortal. Es por eso que el rendimiento en un examen de libros de texto no siempre se traduce en éxito en entornos clínicos desordenados.

Si una empresa quiere construir un chatbot Ai para Reemplace un representante de servicio al clienteno puede probar si el bot conoce las respuestas correctas. Necesita capacitación sobre las formas desordenadas e inconsistentes de las personas que realmente hablan. Las personas pueden expresar algo tan simple como pedir un precio de producto de una docena de maneras diferentes. Si el modelo no los reconoce a todos, no entregará la respuesta que el cliente necesita.

La IA más inteligente necesita humanos más inteligentes

Si hay una cosa que este estudio deja en claro, es que la inteligencia cruda no es el problema. El AI puede obtener la respuesta correcta. A menudo lo hace. El desglose ocurre cuando intervimos y cuando damos malas indicaciones, dejamos de lado los detalles clave o ignoramos las respuestas que no queremos escuchar.

Esto no es exclusivo de la atención médica. Ya sea que se trate de un chatbot de servicio al cliente, un asistente legal o un tutor de IA, se aplica el mismo patrón. El modelo no está fallando en la tarea. Estamos fallando en la interfaz.

Es fácil ser arrastrado por impresionantes puntajes de referencia y altos grados de precisión. Pero una IA que consiste en un examen no sabe automáticamente cómo ayudar a un humano confundido, abrumado o vago. Y hasta que comencemos a diseñar y probar estos sistemas con un comportamiento humano desordenado en mente, seguiremos sobreestimando su utilidad del mundo real.

Este contraste se vuelve aún más claro cuando se observa sistemas de IA que tienen éxito. En Johns Hopkins, investigadores desplegó una herramienta de IA que detectó la sepsis Casi seis horas antes que los métodos tradicionales y redujeron las muertes de pacientes en un 20 por ciento. La diferencia? Ese sistema se integró directamente en los flujos de trabajo del hospital y se basó en datos clínicos en tiempo real, no solo las indicaciones del paciente. Muestra que con el diseño y el contexto correctos, la IA puede funcionar, pero solo cuando explica los humanos que lo usan.

Entonces, la próxima vez que le duele la garganta y esté tentado a preguntarle a un chatbot lo que significa, recuerde que obtener una buena respuesta depende de hacer una buena pregunta. Los modelos no son el cuello de botella. Somos. Y esa es la parte que necesitamos arreglar.

Fuente: Android Headlines

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *