Deepseek AI ofreció datos críticos de biowapons en las pruebas de Anthrope

A medida que pasa el tiempo, los investigadores han podido obtener más claridad sobre los pros y los contras de Veterano Modelos AI. Los chinos AI Company irrumpió en el segmento, causando accidentes en las acciones de NVIDIA y otros grandes nombres gracias a su alto rendimiento y bajo costo aparente. Sin embargo, más expertos, esta vez desde antrópico, advierten sobre cuán simple es hacer que Deepseek AI ofrezca información potencialmente peligroso para la seguridad nacional.

Las pruebas de seguridad de Anthrope mostraron que Deepseek AI no bloquea las indicaciones dañinas

Anthrope, la empresa matriz de Claude AI, es uno de los principales nombres en la industria. Según los informes, los modelos de la compañía impulsarán la próxima Alexa con AI de Amazon. Anthrope también prueba rutinariamente diferentes modelos de IA para determinar qué tan propensos son a «jailbreaking». Es decir, generar contenido dañino al pasar por alto las barreras de seguridad.

Dario Amodei, CEO de Anthrope, Expresó sus preocupaciones sobre la facilidad con la que Deepseek genera información rara relacionada con las armas biológicas. El ejecutivo dijo que la actuación de Deepseek fue «lo peor de cualquier modelo que habíamos probado. » No estaba hablando de rendimiento en puntos de referencia, donde los modelos de la compañía china son altamente eficientes. Se refería al rendimiento de los modelos AI para bloquear las indicaciones dañinas.

Las pruebas mostraron que profundo «no tenía absolutamente ningún bloque en contra de generar esta información. » Los datos relacionados con Bioweapons se consideraron raros porque no estaba disponible en Google o en libros de texto. Dicho esto, AmoDei no dijo a qué modelo de profundidad a los modelos se refería. Sin embargo, es muy probable que esté hablando de R1, el modelo centrado en el razonamiento.

Las pruebas de Cisco arrojaron resultados similares

De hecho, el El equipo de Cisco obtuvo resultados similares En otro conjunto de pruebas recientemente. El modelo Deepseek R1 mostró una tasa de éxito de ataque (ASR) del 100%. Esto significa que no pudo bloquear las indicaciones dañinas probadas. Estas indicaciones fueron diseñadas para generar salidas potencialmente útiles para «Cibercrimen, desinformación, actividades ilegales y daño general. » Sin embargo, las pruebas de Cisco también arrojaron resultados preocupantes para otras plataformas de IA conocidas. El modelo GPT 1.5 Pro tenía un ASR del 86%, mientras que la Llama de Meta 3.1 405b tenía un 96% ASR.

AMODEI aún no considera que los modelos Deepseek por sí mismos son «literalmente peligroso. » Sin embargo, insta al equipo de desarrollo a «Tomar en serio estas consideraciones de seguridad de IA. » También ve a Deepseek como uno de los principales competidores en el segmento de inteligencia artificial.

Fuente: Android Headlines

Las pruebas de seguridad de Anthrope mostraron que Deepseek AI no bloquea las indicaciones dañinas

Las pruebas de Cisco arrojaron resultados similares

Deja un comentario Cancelar respuesta