Anthropic pierde el control de Mythos: acceso ilegal al modelo que dispara los ciberataques

Un acceso no autorizado al modelo más sensible de la firma reabre el debate sobre controles, proveedores externos y el coste real de la ciberseguridad con IA.

Fabiana Ruiz

Actualizado: 22/04/26 | 8:30 | Tiempo de lectura: 6 min.

Un grupo reducido de usuarios no autorizados ha logrado acceder a Mythos, el modelo que Anthropic se resiste a liberar por su potencial para industrializar ciberataques.

La clave no es solo el “quién”, sino el “cómo”: el acceso habría ocurrido a través de un entorno de un proveedor externo, el eslabón que casi siempre se da por descontado.

Y hay un detalle que agrava el diagnóstico: la evidencia habría incluido capturas y hasta una demostración en vivo.

En España ya era 22 de abril de 2026 cuando la noticia empezó a circular, pero el golpe reputacional tiene calendario propio.

Mythos no es “otra IA”, sino una herramienta que acorta la distancia entre descubrir una vulnerabilidad y explotarla.

Un modelo retenido por miedo al cibercrimen

Mythos Preview se presentó el 7 de abril de 2026 como un “punto de inflexión” en ciberseguridad: un modelo generalista que, dirigido por un usuario, puede identificar y explotar zero-days en “cada gran sistema operativo y navegador”.

Anthropic sostiene que durante sus pruebas se vio obligada a limitar lo que contaba: más del 99% de las vulnerabilidades halladas aún no estarían parcheadas.

Los números, sin embargo, sí dibujan el salto. En un experimento con el motor JavaScript de Firefox, el modelo anterior apenas convirtió fallos en exploits “dos veces” en cientos de intentos; Mythos lo hizo 181 veces y alcanzó control de registros en 29 intentos adicionales.

El argumento de Anthropic es claro: la misma mejora en razonamiento y código que ayuda a reparar fallos también hace al sistema más eficaz para atacarlos.

La brecha: el proveedor externo y el “punto ciego”

La filtración describe un patrón incómodo: un acceso indebido no necesariamente exige tumbar la “fortaleza” principal, basta con colarse por el anexo. Según lo publicado, el acceso se produjo en un foro privado y se habría sostenido “desde entonces” con uso recurrente, aunque no con fines de ciberseguridad.

La versión que más inquieta a los equipos de riesgo es la que sitúa el incidente en un entorno de terceros habilitado para trabajo externo.

Este hecho revela una paradoja: la industria está construyendo modelos capaces de automatizar auditorías ofensivas, pero sigue fallando en lo básico—segmentación, permisos mínimos, trazabilidad—cuando entra en juego la cadena de suministro.

Si la hipótesis del proveedor se confirma, no hablamos de un “hackeo genial”, sino de gobernanza: quién tuvo llaves, cuánto tiempo y con qué límites.

La pista de Discord y el mercado negro del “model hunting”

El acceso a Mythos no se habría movido en foros públicos tradicionales, sino en comunidades cerradas obsesionadas con lo inédito. Se habla de un canal de Discord centrado en información de modelos no lanzados, con pruebas compartidas en forma de capturas y una demo.

Ese ecosistema es más influyente de lo que parece: ahí se mezclan curiosidad técnica, reputación, filtraciones “por deporte” y, en el peor de los casos, monetización encubierta—desde venta de credenciales hasta extorsión blanda (“paga o lo publico”).

Lo inquietante no es solo que exista ese “mercado”, sino que un modelo diseñado para acelerar el ciclo ataque/defensa tenga atractivo fuera del perímetro corporativo. Mythos no es un chatbot: es un multiplicador. Y en un entorno así, el “grupo reducido” importa menos que el efecto demostración.

De la configuración por defecto al acceso indebido

La brecha actual llega con antecedente fresco. En marzo de 2026, un análisis sobre seguridad SaaS describió cómo Anthropic expuso “miles” de activos internos por una mala configuración en su CMS: “sin exploit… solo un ajuste por defecto no cambiado”.

El detalle es demoledor: el incidente citaba cerca de 3.000 activos no publicados accesibles mediante URLs públicas.

Que en pocas semanas aparezcan dos episodios—una exposición por configuración y ahora un acceso no autorizado a Mythos—apunta a un riesgo estructural: la velocidad de despliegue en IA está tensionando la higiene digital clásica.

En otras palabras, la industria está sofisticando “la espada” más rápido de lo que blinda “la vaina”. Y cuando el activo es un modelo capaz de encadenar vulnerabilidades, el umbral de tolerancia al error debería ser casi cero.

Los reguladores ya temen un susto financiero

La consecuencia es clara: Mythos no se percibe solo como riesgo tecnológico, sino como riesgo sistémico. Una asociación del sector financiero en EE. UU. alertó en una carta de seis riesgos específicos, desde robo masivo de identidad hasta “disrupción sistémica” del mercado, y vinculó el problema a la exposición de datos sensibles en infraestructuras de auditoría del mercado.

En paralelo, la propia arquitectura de acceso ya es polémica: Anthropic habría entregado el modelo a más de 40 empresas y organizaciones para pruebas, mientras la agencia civil clave de ciberseguridad estaría fuera de la lista, en plena discusión política y recortes presupuestarios.

“Dado el ritmo del progreso en IA, estas capacidades proliferarán; el impacto para economías, seguridad pública y seguridad nacional puede ser severo.”

Si el modelo se cuela por un tercero, el regulador no verá “un incidente”, verá un precedente.

Defensa a máquina, ataque a máquina

Los primeros tests externos muestran por qué Mythos tensiona el tablero. En evaluación de un instituto británico de seguridad en IA, el modelo completó el 73% de tareas expertas y fue el primero en completar un ataque simulado de 32 pasos en algunos ensayos.

El freno no es filosófico: es operativo. Ejecutar estos sistemas exige presupuestos de cómputo enormes—en ciertos tests se menciona un presupuesto de 100 millones de tokens—pero ese coste baja con el tiempo.

Y la ventana es corta: el CEO de Anthropic ha sugerido que modelos abiertos y desarrolladores chinos podrían replicar capacidades similares en 6 a 12 meses.

En ese escenario, el acceso no autorizado deja de ser anécdota: es un aviso de que la transición—del hacking artesanal al hacking industrial—ya no es futura. Empieza cuando el primer “foro privado” enseña la prueba.

Etiquetas: