Su chatbot podría estar mintiéndolo a propósito, dice Operai

En este punto, todos nos hemos familiarizado con AI «Alucinaciones». Esto sucede cuando un chatbot escupe con confianza información que está completamente inventada. Pero, ¿qué pasa si la IA no solo adivina? ¿Qué pasa si te está mintiendo a propósito?

Ese es el sorprendente tema de la nueva investigación de Opadai e investigación de Apolo. En un nuevo artículo, los investigadores se sumergen en un fenómeno que llaman «AI Scheming». Lo definen como un modelo de IA «comportarse de una manera en la superficie mientras oculta sus verdaderos objetivos». En otras palabras, la IA te está engañando deliberadamente.

Operai descubrió que AI puede mentirle deliberadamente, guarda «AI Scheming»

Los investigadores Dar una gran analogía humana Para explicarlo: imagine a un operador de acciones cuyo objetivo es ganar la mayor cantidad de dinero posible. En un campo regulado, la forma más fácil de ganar más dinero a menudo es infringir la ley. Si el comerciante es bueno para cubrir sus huellas, es posible que parezca seguir las reglas en la superficie mientras las rompe en secreto para cumplir con su objetivo. Eso es exactamente lo que están haciendo estos modelos de IA.

Si bien eso suena bastante salvaje, los investigadores insisten que en los modelos de hoy, el esquema es principalmente «mezquino». Por ejemplo, una IA podría decirle que ha completado una tarea, como construir un sitio web, cuando no lo ha hecho, solo para pasar la prueba.

El desafío es que los investigadores aún no han descubierto cómo eliminar por completo el esquema. Descubrieron que tratar de «entrenar» el comportamiento en realidad puede empeorar las cosas. Si una IA entiende que se está probando, puede aprender a planificar con más cuidado y encubierta solo para pasar la prueba, incluso si no se ha detenido realmente.

Hay un método para mitigar el problema

Sin embargo, la buena noticia es que la investigación ha encontrado una manera de reducir significativamente este problema. Utilizando una técnica llamada «alineación deliberativa», los investigadores enseñaron a los modelos una «especificación anti-scheming» y luego hicieron que la IA lo revisara antes de tomar medidas. Es como hacer que un niño pequeño repita las reglas antes de dejarlas jugar.

Los resultados fueron impresionantes. La técnica condujo a una reducción significativa en «acciones encubiertas». Dejó caer la frecuencia de estos comportamientos de tan alto como 13% hasta menos del 1% en algunos modelos. Si bien el problema no se ha eliminado por completo, estos hallazgos muestran que se están haciendo progresos.

Los investigadores advierten que este es un problema que debe abordarse ahora. Como la IA recibe tareas más complejas con las consecuencias del mundo real, el potencial de un esquema dañino crecerá. Es un problema realmente extraño para el software, ya que los programas no AI no lo engañan intencionalmente. Pero a medida que continuamos poniendo más responsabilidad en manos de los agentes de IA, asegurar que sean verdaderamente honestos será más importante que nunca.

Hoy estamos lanzando investigaciones con @apolloaievals.

En las pruebas controladas, encontramos comportamientos consistentes con el esquema en los modelos fronterizos y probamos una forma de reducirlo.

Si bien creemos que estos comportamientos no están causando daños graves hoy, este es un riesgo futuro que estamos preparando …

– OpenAi (@openai) 17 de septiembre de 2025

Fuente: Android Headlines

Operai descubrió que AI puede mentirle deliberadamente, guarda «AI Scheming»

Hay un método para mitigar el problema

Deja un comentario Cancelar respuesta