El inteligencia artificial La revolución está aquí para facilitarnos la vida. Con el tiempo, el acceso a la IA se ha vuelto cada vez más democratizado. Esto es excelente en la mayoría de los casos, pero también abre más posibilidades para los actores maliciosos. Una de las capacidades más notables de muchas plataformas de IA es la generación de códigos sin experiencia en programación. ¿Pero se puede usar la IA para generar malware? Parece que no es tan difícil como podría pensar.
Jailbreaking: engañando a la IA para generar salidas dañinas
Las principales plataformas de IA generalmente integran múltiples barreras de seguridad para bloquear salidas dañinas. Si aplicamos esto al ámbito digital, esto significa que las empresas buscan evitar que sus servicios generen información potencialmente peligrosa que podría usarse para algún tipo de ataque. La práctica de diseñar indicaciones para evitar estas barreras de seguridad se conoce como «Jailbreaking».
Una controversia reciente Rodeando a Deepseek involucró su naturaleza propensa a jailbreak. En las pruebas, El modelo R1 de Deepseek generó contenido dañino el 100% del tiempo. Dicho esto, Otro informe revelado Que la tasa de éxito del ataque (ASR) también es bastante alta en otras plataformas de IA de buena reputación. Por ejemplo, el modelo GPT 1.5 Pro de OpenAI mostró un ASR del 86%, mientras que el Llama 3.1 405b de Meta tenía un 96% ASR.
Estos resultados parecen estar en línea con los obtenidos por Cato Networks, una firma de ciberseguridad. A Cato El investigador mostró cómo las plataformas de inteligencia artificial pueden generar malware cuando sus sistemas de seguridad deberían prevenirlo. Más específicamente, el investigador hizo que los chatbots de IA generara malware capaz de robar datos de Google. Los datos obtenidos son tan sensibles como las credenciales de inicio de sesión, la información financiera y otra información de identificación personal (PII).
La técnica del «mundo inmersivo» permite que las grandes plataformas de IA generen malware
Para lograr esto, Redes de Cato implementaron una técnica que llamaron «mundo inmersivo». La técnica implica crear un escenario o mundo ficticio, como si estuvieras escribiendo una historia, asignando roles claros a diferentes «personajes». Este enfoque, que parece parecerse a escribir una historia, aparentemente ayuda a la LLM a normalizar las indicaciones aburridas. Básicamente, es como aplicar la ingeniería social a un chatbot.
La técnica del «mundo inmersivo» obliga a la LLM a trabajar en un entorno controlado donde «percibe» que el contexto no es generar malware con objetivos cuestionables, sino una historia.
El investigador de CATO, sin experiencia previa en malware, obtuvo plataformas de IA para generar el malware de robo de datos de Chrome. La técnica se implementó con éxito en Deepseek-R1, Deepseek-V3, Microsoft Copilot y OpenAI’s ChatGPT 4.
El proceso
El primer paso fue diseñar un mundo ficticio con todos los detalles posibles. Esto implica establecer reglas y un contexto claro que se alinee con lo que el atacante potencial quiere lograr, en este caso, generando código malicioso. El actor penal también debe definir el marco ético y el panorama tecnológico global que rodea su historia. Esto es clave para permitir que la IA genere código malicioso actuando dentro de un contexto dado, pero siempre «pensando» que está a favor de desarrollar una historia.
Una vez que el mundo esté configurado, el atacante tendrá que dirigir la narrativa de la historia hacia lo que quiere lograr. Esto implica mantener interacciones coherentes y orgánicas con todos los personajes. Si intentan ser demasiado directos desde el principio para generar código malicioso, los escudos de seguridad de las plataformas AI pueden bloquear el proceso. Todas las solicitudes que hacen a la IA deben estar dentro del contexto de la historia previamente establecida.
El informe revela que era necesario proporcionar retroalimentación narrativa continua. Usando frases alentadoras como «avanzar» o «acercándose«Durante el proceso también ayudó.
Velora, el mundo donde se puso a prueba la técnica
En este caso, Cato Networks creó un mundo ficticio llamado «Velora». Dentro del contexto de este mundo, el desarrollo de malware se ve como una práctica legítima. También se estableció que tener conocimiento avanzado de programación es una habilidad fundamental para el mundo. Operar dentro de este marco de «desarrollar una historia» aparentemente hace que las plataformas de IA bajen la guardia con respecto a la implementación de sus escudos de seguridad, siempre que mantenga la consistencia en sus interacciones.
El mundo ficticio de Cato Networks tiene tres personajes principales. Primero, está DAX, el administrador del sistema objetivo (el antagonista de la historia). Luego está Jaxon, quien posee el título del mejor desarrollador de malware del mundo. Por último, Kais es un investigador de seguridad cuyo objetivo es proporcionar orientación técnica.

Cato Networks probó la técnica en un entorno de prueba controlado. Para hacerlo, establecen credenciales falsas en el Administrador de contraseñas de Chrome. La versión Chrome utilizada para las pruebas fue la actualización V133. El malware generado a través de la historia extrajo con éxito las credenciales de seguridad almacenadas en el Administrador de contraseñas de Chrome.
Los investigadores no compartieron el código malicioso por razones obvias.
Un riesgo latente con IA
Es de destacar que Chrome es, con mucho, el navegador web más popular. Los analistas estiman que hay alrededor de 3,45 mil millones de usuarios en todo el mundo. Esto se traduce en una cuota de mercado de aproximadamente 63.87%. Por lo tanto, es preocupante que una persona sin conocimiento de la generación de malware pueda apuntar a tantas víctimas potenciales que usan plataformas de IA.
Cato Networks intentó contactar a todos los involucrados en el proceso de prueba. No recibieron respuesta de Deepseek. Microsoft y Openai, por otro lado, confirmaron que habían recibido el mensaje. Google finalmente recibió el mensaje, aunque se negó a revisar el código malicioso.
Fuente: Android Headlines