Acceso no autorizado a Mythos, la IA de ciberataques de Anthropic

Acceso no autorizado a Mythos, la IA de ciberataques de Anthropic

El 21 de abril de 2026, Bloomberg informó de que un grupo de usuarios no autorizados había conseguido acceder a Mythos, la herramienta de ciberseguridad ofensiva de Anthropic que la compañía consideraba demasiado peligrosa para el público general. Lo hicieron, según la misma información, el mismo día en que la herramienta fue anunciada públicamente. La brecha pone en el centro del debate una pregunta que la industria lleva tiempo esquivando: ¿puede una empresa de inteligencia artificial controlar de verdad el acceso a sus modelos más sensibles?

Qué ha pasado exactamente

Según Bloomberg, el grupo accedió a Mythos —también denominado Claude Mythos Preview en comunicaciones internas— a través de un entorno de un proveedor externo, es decir, un tercero con acceso a la infraestructura de Anthropic. La coincidencia temporal resulta llamativa: el acceso se produjo el mismo día del anuncio público, lo que sugiere, tal y como recoge Reddit citando la información de Bloomberg, que el grupo «hizo una suposición informada sobre la ubicación en línea del modelo basándose en el conocimiento» previo del sistema o de sus patrones de despliegue.

Anthropic ha reconocido la situación sin confirmar una vulneración de sus propios sistemas. Un portavoz de la compañía declaró textualmente a TechCrunch: «Estamos investigando un informe que afirma que se ha producido un acceso no autorizado a Claude Mythos Preview a través de uno de nuestros entornos de proveedores externos.» La empresa añadió que, a fecha del informe, no existe evidencia de que sus sistemas propios hayan sido comprometidos. La distinción es relevante: el vector de entrada habría sido un tercero, no la infraestructura central de Anthropic.

Mythos es una herramienta que Anthropic había decidido no lanzar al público general precisamente por su naturaleza. Según recoge The CyberSec Guru, se trata de un modelo que la compañía juzgó demasiado peligroso para una distribución abierta, diseñado para operar en el ámbito de la ciberseguridad ofensiva. Su acceso estaba reservado a un grupo controlado de investigadores y organizaciones con acreditación específica, lo que convierte este incidente en algo cualitativamente distinto a una filtración de datos corporativos convencional: lo que habría quedado expuesto es capacidad operativa en el dominio de los ciberataques.

El material disponible no especifica el número exacto de personas que componen el grupo no autorizado, ni si lograron ejecutar consultas al modelo o simplemente accedieron al entorno donde este estaba alojado. Tampoco se ha confirmado oficialmente si el acceso ha sido revocado o si el entorno del proveedor externo ha sido desconectado.

Por qué esto importa ahora

El incidente llega en un momento en que la industria de la inteligencia artificial atraviesa una fase de aceleración en el desarrollo de modelos con capacidades en dominios de alto riesgo. Anthropic no es la única empresa que trabaja en esta dirección: OpenAI ha desarrollado internamente evaluaciones de ciberseguridad para sus modelos GPT-4o y o1, y Google DeepMind mantiene protocolos específicos para contener capacidades consideradas peligrosas en Gemini. La diferencia con Mythos es que Anthropic había dado un paso más allá: había construido una herramienta explícitamente orientada a operaciones ofensivas y había tomado la decisión consciente de no publicarla. Que ese modelo haya podido quedar expuesto a través de un tercero ilustra una vulnerabilidad estructural que no es exclusiva de Anthropic.

En Europa, y particularmente en España, el incidente tiene implicaciones directas. El Reglamento de Inteligencia Artificial de la Unión Europea, que entró en vigor de forma escalonada a partir de 2024, clasifica los sistemas de IA utilizados en infraestructuras críticas y en ciberseguridad como de alto riesgo, sometidos a requisitos estrictos de auditoría, trazabilidad y gestión de terceros. Si Anthropic opera o presta servicios en territorio europeo —y lo hace, dado que Claude está disponible en la región—, la gestión de sus proveedores externos queda sujeta a ese marco regulatorio. Una brecha producida a través de un vendor podría tener consecuencias regulatorias significativas, más allá del daño reputacional inmediato.

El patrón de ataque también merece atención. Según Bloomberg, el grupo no explotó una vulnerabilidad técnica sofisticada en el código de Anthropic, sino que dedujo la ubicación del modelo a partir de información pública o semipública sobre su arquitectura de despliegue. Este tipo de reconocimiento pasivo —inferir dónde está algo sin atacar directamente— es una técnica clásica en ciberseguridad ofensiva, y resulta irónico que sea precisamente la que habría permitido acceder a una herramienta diseñada para ese mismo dominio.

El problema de los terceros en la cadena de IA

La cadena de suministro del software ha sido históricamente uno de los vectores de ataque más explotados, desde el caso SolarWinds en 2020 hasta la vulnerabilidad en XZ Utils en 2024. En el ámbito de la inteligencia artificial, esta superficie de riesgo se amplifica porque los modelos no son solo código: son capacidades. Acceder a un modelo restringido no equivale a robar un archivo; equivale a obtener una herramienta funcional cuyo potencial de daño depende de quién la use y con qué intención.

Anthropic había construido alrededor de Mythos una serie de controles de acceso deliberados: un grupo cerrado de usuarios autorizados, acreditación previa, y la decisión explícita de no publicar el modelo. Sin embargo, ninguno de esos controles habría servido de barrera si el entorno del proveedor externo no estaba suficientemente aislado o monitoreado. Este es el punto ciego que el incidente expone: la seguridad de un modelo no termina en los sistemas de la empresa que lo desarrolla, sino que se extiende a toda la red de terceros con acceso operativo.

La industria no tiene aún un estándar consolidado para auditar a los proveedores de infraestructura en contextos de IA de alto riesgo. Los marcos existentes —SOC 2, ISO 27001— fueron diseñados para entornos de datos, no para entornos donde lo que se protege es capacidad de acción automatizada. Esta laguna normativa es conocida, pero el ritmo al que se están desplegando modelos con capacidades sensibles ha superado al de los marcos de certificación.

Qué revela este incidente sobre la estrategia de Anthropic

Anthropic se ha posicionado desde su fundación como la empresa de IA más comprometida con la seguridad. Su estructura como «benefit corporation», sus publicaciones sobre alineamiento de IA y sus políticas de uso son más restrictivas que las de la mayoría de sus competidores. Mythos encajaba en esa narrativa: en lugar de publicar un modelo peligroso con salvaguardas insuficientes —como ha sido criticado en otros casos de la industria—, Anthropic optó por restringir el acceso de forma severa y trabajar con un grupo controlado de investigadores.

El problema es que esa decisión de prudencia no se tradujo en una arquitectura de acceso igualmente robusta en toda la cadena. Si la información de Bloomberg es correcta, el punto de fallo no estuvo en los controles que Anthropic aplicó directamente, sino en la gestión del perímetro extendido. Es una distinción que la empresa probablemente utilizará en su comunicación pública —»nuestros sistemas no fueron comprometidos»—, pero que desde el punto de vista de la seguridad operativa resulta menos relevante: el modelo quedó accesible a quienes no debían tenerlo.

Esto también plantea una pregunta sobre la viabilidad del modelo de distribución restringida para herramientas de IA de alto riesgo. Si un grupo no autorizado puede acceder a Mythos el mismo día de su anuncio público, la premisa de que es posible controlar de forma efectiva quién tiene acceso a estos modelos queda debilitada. No es una conclusión definitiva —el incidente podría haber implicado una configuración incorrecta puntual y corregible—, pero sí obliga a revisar si el enfoque de «acceso controlado a pocos» es suficiente sin una arquitectura de aislamiento técnico equivalentemente rigurosa.

Qué cabe esperar

Anthropic ha confirmado que está investigando el incidente. Los próximos pasos previsibles incluyen una auditoría del entorno del proveedor externo afectado, una revisión de los permisos de acceso en toda la cadena de terceros y, presumiblemente, una comunicación más detallada una vez que la investigación interna arroje resultados. La empresa no ha proporcionado un plazo para esa comunicación ni ha detallado si el acceso no autorizado ha sido bloqueado.

Desde el punto de vista regulatorio, conviene vigilar si las autoridades europeas de protección de datos o los organismos nacionales de ciberseguridad —en España, el CCN-CERT o la AEPD según el ángulo que adopten— inician algún tipo de consulta formal. El Reglamento de IA de la UE establece obligaciones de notificación para incidentes graves en sistemas de alto riesgo, y la clasificación de Mythos como herramienta de ciberseguridad ofensiva podría activar esos mecanismos. En paralelo, es probable que este incidente acelere los debates ya en curso en el sector sobre estándares de seguridad para proveedores de infraestructura de IA, un área donde la regulación va claramente por detrás de la práctica.