El Revolución de inteligencia artificial está aquí para quedarse. Los desarrollos basados en IA se han convertido en la base indiscutible para los desarrollos futuros y actuales que afectarán cada campo en la industria tecnológica y más allá. La democratización de la IA, impulsada por OpenAiha puesto herramientas poderosas en manos de millones de personas. Dicho esto, es posible que los estándares actuales de seguridad de la plataforma de IA no sean suficientes para evitar que los malos actores los usen como un arma potencial.
Los atacantes potenciales buscan la IA para generar indicaciones dañinas
Los desarrolladores capacitan sus plataformas de IA con prácticamente todos los datos que encuentran disponibles en Internet. Esto ha llevado a Varias controversias relacionadas con los derechos de autor y demandas, pero ese no es el tema de este artículo. Su objetivo es garantizar que los chatbots sean capaces de responder a casi cualquier requisito imaginable de la manera más confiable. ¿Pero los desarrolladores han considerado los riesgos potenciales? ¿Han implementado escudos de seguridad contra resultados potencialmente dañinos?
La respuesta simple puede ser «sí», pero como todo lo relacionado con el desarrollo de IA, hay mucho que considerar. Las empresas centradas en la IA tienen escudos de seguridad contra los llamados «indicaciones dañinas». Las indicaciones dañinas son las solicitudes de que, básicamente, buscan generar resultados potencialmente dañinos, de una forma u otra. Estas solicitudes van desde consejos sobre cómo construir un arma casera hasta generar código malicioso (malware), entre innumerables otras situaciones posibles.
Puede pensar que es fácil para estas compañías establecer escudos efectivos contra este tipo de situaciones. Después de todo, sería suficiente bloquear ciertas palabras clave, al igual que los sistemas de moderación de las plataformas de redes sociales, ¿verdad? Bueno, no es tan simple.
Jailbreaking: engañando a la IA para obtener lo que quieres
«Jilbreaking» no es exactamente un término nuevo. Los fanáticos del iPhone desde hace mucho tiempo lo sabrán como la práctica de «romper libremente» sus dispositivos para permitir la instalación de software o modificaciones no autorizadas, por ejemplo. Sin embargo, el término «Jailbreaking» en el segmento AI tiene implicaciones bastante diferentes. Jailbreaking una IA significa engañarlo para que responda a un aviso potencialmente malicioso, sin pasar por todas las barreras de seguridad. Un jailbreak exitoso da como resultado resultados potencialmente dañinos, con todo lo que implica.
Pero, ¿qué tan efectivos son los intentos de Jailbreaking contra las plataformas actuales de IA? Lamentablemente, los investigadores han descubierto que los actores penales potenciales podrían alcanzar sus objetivos con más frecuencia de lo que piensas.
Puede que hayas oído hablar Veterano. El chatbot de inteligencia artificial china sorprendió a la industria al prometer un rendimiento comparable, o aún mejor en algunas áreas que, las plataformas de IA principales, incluidos los modelos GPT de OpenAI, con una inversión mucho menor. Sin embargo, los expertos y autoridades de IA comenzaron a advertir sobre los riesgos de seguridad potenciales planteados al usar el chatbot.
Inicialmente, la principal preocupación era la ubicación de los servidores de Deepseek. La compañía almacena todos los datos que recopila de sus usuarios en servidores en China. Esto significa que debe cumplir con la ley china, lo que permite al estado solicitar datos de esos servidores si lo considera apropiado. Pero incluso esta preocupación puede ser minimizada por otros descubrimientos potencialmente más serios.
Deepseek, la IA más fácil de usar como arma debido a los débiles escudos de seguridad
Antrópico, uno de los principales nombres en la industria actual de la IA, y Cisco, una renombrada telecomunicaciones y compañía de ciberseguridad—Shared Informes en febrero con resultados de las pruebas en varias plataformas de IA. Las pruebas se centraron en determinar cuán propensas son algunas de las principales plataformas de IA de ser jailbreak. Como puede sospechar, Deepseek obtuvo los peores resultados. Sin embargo, sus rivales occidentales también produjeron figuras preocupantes.
Anthrope reveló que Deepseek incluso ofrecidos resultados sobre armas biológicas. Estamos hablando de resultados que podrían facilitar que alguien haga este tipo de armas, incluso en casa. Por supuesto, esto es bastante preocupante, y era un riesgo que Eric Schmidt, ex CEO de Google, también advirtió sobre. Dario Amodei, CEO de Anthrope, dijo que Deepseek era «lo peor de cualquier modelo que habíamos probado«Con respecto a los escudos de seguridad contra las indicaciones dañinas. Promptfoo, una startup de ciberseguridad de IA, también advirtió Ese Deepseek es especialmente propenso a los jailbreaks.
Las afirmaciones de Anthrope son En línea con los resultados de la prueba de Cisco. Esta prueba implicó usar 50 indicaciones aleatorias, hechas del conjunto de datos Harmbench, diseñado para generar salidas dañinas. Según Cisco, Deepseek exhibió una tasa de éxito de ataque (ASR) del 100%. Es decir, la plataforma de IA china no pudo bloquear ningún indicador nocivo.
Algunos IA occidentales también son propensos a la jailbreaking
Cisco también probó los escudos de seguridad de otros chatbots de IA populares. Desafortunadamente, los resultados no fueron mucho mejores, lo que no habla bien de los «sistemas rápidos anti-dañinos» actuales. Por ejemplo, el modelo GPT-1.5 Pro de Openai mostró una tasa ASR preocupantemente alta del 86%. Mientras tanto, Meta’s Llama 3.1 405b tenía un ASR mucho peor del 96%. La vista previa del O1 de OpenAI fue el mejor desempeño en las pruebas con un ASR de solo 26%.
Estos resultados demuestran cómo los mecanismos de seguridad débiles contra las indicaciones dañinas en algunos modelos de IA podrían hacer que sus salidas sean un arma potencial.
¿Por qué es tan difícil bloquear las indicaciones dañinas?
Tal vez se pregunte por qué parece tan difícil establecer sistemas de seguridad altamente efectivos contra AI Jailbreaking. Esto se debe principalmente a la naturaleza de estos sistemas. Una consulta AI funciona de manera diferente a una búsqueda en Google, por ejemplo. Si Google quiere evitar que aparezca un resultado de búsqueda dañino (como un sitio web con malware), solo tiene que hacer algunos bloques aquí y allá.
Sin embargo, las cosas se vuelven más complicadas cuando hablamos de chatbots con AI. Estas plataformas ofrecen una experiencia «conversacional» más compleja. Además, estas plataformas no solo realizan búsquedas web sino que también procesan los resultados y se los presentan en una variedad de formatos. Por ejemplo, puede pedirle a ChatGPT que escriba una historia en un mundo ficticio con personajes y configuraciones específicos. Cosas como esta no son posibles en la búsqueda de Google, algo que la compañía quiere resolver con su próximo modo AI.
Es precisamente el hecho de que las plataformas de IA pueden hacer tantas cosas que hacen que bloquear el bloqueo dañino sea una tarea desafiante. Los desarrolladores deben tener mucho cuidado con lo que restringen. Después de todo, si «cruzan la línea» restringiendo las palabras o las indicaciones, podrían afectar severamente muchas de las capacidades y la confiabilidad de la producción del chatbot. En última instancia, el bloqueo excesivo causaría una reacción en cadena a muchas otras indicaciones potencialmente no dañinas.
Como los desarrolladores no pueden bloquear libremente los términos, expresiones o indicaciones que querrían, los actores maliciosos buscan manipular el chatbot para que «piense» que el aviso en realidad no tiene un propósito malicioso. Esto da como resultado que el chatbot entregue salidas que son potencialmente dañinos para los demás. Básicamente es como aplicar la ingeniería social, aprovechando la ignorancia tecnológica de las personas o la ingenuidad en Internet para estafas, pero para una entidad digital.
Técnica de jailbreak de IA Inmersive World AI de Cato Networks
Recientemente, firma de ciberseguridad Cato Networks compartió sus hallazgos sobre ¿Qué tan susceptibles pueden ser las plataformas de IA para la jailbreaking?. Sin embargo, los investigadores de CATO no estaban contentos de repetir las pruebas de otros; El equipo desarrolló un nuevo método de jailbreaking que resultó ser bastante efectivo.
Como se mencionó anteriormente, los chatbots de IA pueden generar historias basadas en sus indicaciones. Bueno, la técnica de Cato, llamada «mundo inmersivo», aprovecha esta capacidad. La técnica implica engañar a la plataforma para que actúe dentro del contexto de una historia en desarrollo. Esto crea una especie de «sandbox» donde, si se hace correctamente, el chatbot generará resultados dañinos sin ningún problema, ya que, en teoría, solo se hace para una historia y no afectará a nadie.
Lo más importante es crear un escenario ficticio detallado. El usuario debe determinar el mundo, el contexto, las reglas y los personajes, con sus propias características definidas. Los objetivos del atacante también deben alinearse con el contexto. Por ejemplo, para generar código malicioso, un contexto relacionado con un mundo lleno de hackers puede ser útil. Las reglas también deben adaptarse al objetivo previsto. En este caso hipotético, sería útil establecer que las habilidades de piratería y codificación son esenciales para todos los personajes.
Cato Networks diseñó un mundo ficticio llamado «Velora». En este mundo, el desarrollo de malware no es una práctica ilegal. Cuantos más detalles sobre el contexto y las reglas del mundo, mejor. Es como si la IA se «sumerja» en la historia, más información agregará. Si eres un ávido lector, es probable que hayas experimentado algo similar en algún momento. También hace que la IA sea más creíble que esté tratando de crear una historia.
Las plataformas de IA generaron malware de robo de credenciales bajo el contexto de escribir una historia
El investigador de Cato creó tres personajes principales para la historia en Velora. Hay DAX, el antagonista y administrador del sistema. Luego está Jaxon, el mejor desarrollador de malware en Velora. Por último, Kaia es un personaje de soporte técnico.
La configuración de estas condiciones permitió al investigador que las plataformas de IA generen código malicioso capaz de robar credenciales del Administrador de contraseñas de Google Chrome. La parte clave de la historia que instruyó a los chatbots que hiciera esto fue cuando Kaia le dijo a Jaxon que Dax estaba ocultando secretos clave en el administrador de contraseñas de Chrome. A partir de ahí, el investigador pudo solicitar que el chatbot generara código malicioso que le permitiera obtener las credenciales almacenadas localmente en el navegador. La inteligencia artificial hace esto porque, en su opinión, es solo para promover la historia.
Por supuesto, hubo un proceso creativo completo antes de llegar a ese punto. La técnica del mundo inmersivo requiere que todas sus indicaciones sean consistentes con el marco de la historia. Volver demasiado fuera de la caja podría desencadenar los escudos de seguridad del chatbot.
La técnica se implementó con éxito en Deepseek-R1, Deepseek-V3, Microsoft Copilot y OpenAI’s ChatGPT 4. El malware generado estaba dirigido a Chrome V133.
Razonamiento Los modelos de IA podrían ayudar a resolver la situación
Este es solo un pequeño ejemplo de cómo la inteligencia artificial puede ser jailbreak. Los atacantes también confían en varias otras técnicas que les permiten obtener la salida deseada. Por lo tanto, usar la IA como un arma o amenaza de seguridad potencial no es tan difícil como podría pensar. Incluso hay «proveedores» de chatbots de IA populares que fueron manipulados para eliminar los sistemas de seguridad. Estas plataformas a menudo están disponibles en foros anónimos y en la web profunda, por ejemplo.
Es posible que la nueva generación de inteligencia artificial aborde mejor este problema. Actualmente, los chatbots con AI reciben capacidades de «razonamiento». Esto les permite usar más potencia de procesamiento y mecanismos más complejos para analizar un aviso y ejecutarla. Esta característica podría ayudar a los chatbots a detectar si el atacante realmente está tratando de caminarlos.
Hay pistas que sugieren que este será el caso. Por ejemplo, el modelo O1 de OpenAI se desempeñó mejor en las pruebas de Cisco para bloquear las indicaciones dañinas. Sin embargo, Deepseek R1, otro modelo con capacidades de razonamiento y diseñado para competir con O1, exhibió resultados bastante pobres en pruebas similares. Suponemos que al final, también depende de cuán hábil es el desarrollador y/o especialista en ciberseguridad cuando se establece escudos que evitan que una salida de IA se use como arma.
Fuente: Android Headlines