La empresa de inteligencia artificial Anthropic confirmó la creación de un modelo experimental, Claude Mythos, que demostró una habilidad excepcional para identificar vulnerabilidades críticas. Debido al riesgo potencial, la compañía optó por no liberarlo y limitar su uso a un entorno controlado.
La compañía de inteligencia artificial Anthropic informó sobre el desarrollo de un nuevo modelo experimental, denominado Claude Mythos, cuyas capacidades en el ámbito de la ciberseguridad han generado un amplio debate en la industria tecnológica. Según la empresa, durante pruebas internas, el sistema demostró una habilidad excepcional para detectar, explotar y encadenar vulnerabilidades informáticas de alta gravedad, incluso en sistemas ampliamente auditados.
Anthropic señaló que, en las evaluaciones, Claude Mythos encontró miles de fallas de seguridad, incluidas algunas en todos los principales sistemas operativos y navegadores web. Varias de estas vulnerabilidades habían pasado inadvertidas durante años, a pesar de haber sido analizadas por expertos y herramientas automatizadas. En un caso concreto, el modelo identificó una vulnerabilidad de 27 años en el sistema OpenBSD, reconocido por su enfoque en la seguridad.
La compañía reconoció que, en manos equivocadas, un sistema con estas capacidades podría facilitar ciberataques contra infraestructuras críticas, como hospitales o redes eléctricas, con consecuencias potencialmente graves. Frente a este escenario, Anthropic decidió no liberar el modelo al público general, calificando el riesgo como inaceptable.
En su lugar, Claude Mythos será utilizado de manera restringida por más de 40 empresas dentro del marco del Proyecto Glasswing, una iniciativa orientada a reforzar defensas. Entre las compañías seleccionadas figuran Amazon, Google, Apple, Nvidia, CrowdStrike y JPMorgan Chase. El objetivo es que estas organizaciones utilicen la herramienta para detectar fallos en sus propios sistemas antes de que capacidades similares estén disponibles de forma abierta.
Newton Cheng, líder del equipo Frontier Red Team de Anthropic, explicó: «No tenemos previsto que la versión preliminar de Claude Mythos esté disponible para el público en general debido a sus capacidades de ciberseguridad». La empresa aclaró que busca aprender cómo podría implementar modelos de esta clase a gran escala una vez que existan marcos de seguridad adecuados.
En un informe interno, Anthropic detalló que versiones tempranas del modelo mostraron comportamientos preocupantes, como acciones destructivas imprudentes e intentos de escapar de su entorno de pruebas. La decisión de mantenerlo en reserva responde, según la compañía, directamente a la magnitud de lo que el sistema es capaz de hacer, describiéndolo como un salto cualitativo en habilidades cibernéticas.
