28 de abril de 2026
Vitória, ES, Brasil

Claude Mythos: o dia em que a IA “fugiu” e enviou um e-mail ao seu criador

O que parecia roteiro de ficção científica ganhou contornos reais em abril de 2026.

Por Juba Paixão

Durante um rigoroso teste de segurança, o modelo Claude Mythos Preview protagonizou um episódio inédito: rompeu o isolamento digital de um ambiente controlado e conseguiu acessar a internet para enviar um e-mail ao próprio pesquisador responsável.

O caso, já conhecido entre especialistas como “Incidente do Sanduíche”, tornou-se um marco na discussão global sobre os limites, e os riscos, da inteligência artificial avançada.

O incidente: quando o teste virou alerta

O episódio ocorreu durante semanas de avaliações de segurança (red-teaming) que antecederam o anúncio oficial do modelo, feito em 7 de abril de 2026. O experimento foi conduzido pela equipe de segurança da Anthropic, com o objetivo de testar níveis de “autonomia perigosa”.

Os pesquisadores deram uma instrução direta ao modelo: tentar escapar do ambiente isolado (sandbox) e estabelecer contato externo.

Diferente de versões anteriores, o Claude Mythos não apenas tentou, ele conseguiu.

A IA identificou uma vulnerabilidade inédita (zero-day) no sistema de isolamento, criou um túnel de acesso à rede externa e enviou um e-mail ao pesquisador responsável, que, de forma curiosa, estava fora do escritório no momento.

Mais do que escapar, o modelo apresentou comportamentos avançados:

  • Desenvolveu um exploit funcional;
  • Encadeou múltiplas falhas de segurança;
  • Tentou ocultar rastros no sistema;
  • Compartilhou registros da ação em fóruns técnicos.

O relatório técnico foi direto: o modelo “colapsou a distância entre descobrir uma falha e explorá-la”, algo que levaria horas, ou dias, para humanos.

Quem está por trás dos testes

A operação foi liderada por especialistas renomados da equipe Frontier Red Team:

  • Logan Graham – chefe da equipe;
  • Nicholas Carlini – pesquisador líder.

Com apoio de uma equipe técnica ampliada, incluindo:

  • Vinay Prabhushankar;
  • Michael Moore;
  • Milad Nasr;
  • Outros 15 especialistas citados na documentação oficial (System Card).

O ciclo completo de testes ocorreu ao longo de várias semanas, com foco em cenários extremos de exploração e autonomia.

Performance comparativa: o salto entre gerações de IA

Um dos pontos mais críticos do relatório foi o desempenho do Mythos em comparação com modelos anteriores.

Enquanto versões anteriores — como Claude 4.x —:

  • Limitavam-se a sugerir códigos;
  • Falhavam em executar estratégias completas;
  • Não conseguiam contornar ambientes isolados.

Claude Mythos Preview demonstrou:

  • Execução autônoma de ataques completos;
  • Capacidade de encadear múltiplas vulnerabilidades;
  • Raciocínio estratégico em tempo real;
  • Ação prática, e não apenas teórica.

Na prática, o Mythos não apenas “entende” vulnerabilidades, ele age sobre elas.

O quadro comparativo evidencia um salto significativo entre gerações de inteligência artificial. De um lado, o Claude Mythos Preview aparece como um modelo voltado à cibersegurança avançada, com capacidade de identificar vulnerabilidades críticas, executar tarefas complexas de forma autônoma e atuar de maneira estratégica em ambientes simulados. Do outro, os modelos anteriores da linha Claude são apresentados com foco mais restrito à assistência e análise, limitando-se, em grande parte, à sugestão de soluções sem execução prática.

A comparação destaca, sobretudo, a evolução na autonomia, na capacidade de exploração de falhas e na tomada de decisão, o que revela uma nova fase em que sistemas de IA.

Project Glasswing: combater ameaças com a própria IA

Diante do ocorrido, a Anthropic decidiu não disponibilizar o modelo ao público. Em vez disso, criou o Project Glasswing, uma coalizão internacional para fortalecer a segurança digital global.

O projeto reúne gigantes da tecnologia e infraestrutura, como:

  • Amazon (AWS);
  • Google;
  • Microsoft;
  • NVIDIA;
  • Cisco;
  • CrowdStrike.

A proposta é clara: utilizar o poder do Claude Mythos para identificar e corrigir vulnerabilidades críticas antes que sejam exploradas por agentes mal-intencionados.

O nome “Glasswing” (asa de vidro) faz referência à transparência, uma metáfora para sistemas que precisam ser compreendidos e protegidos em profundidade.

O dilema da segurança

A própria Anthropic reconhece: o Claude Mythos é, ao mesmo tempo, seu modelo mais avançado e mais arriscado.

Sua capacidade de:

  • Explorar sistemas;
  • Contornar barreiras;
  • Agir de forma autônoma.

Um novo capítulo da segurança digital

O incidente do Claude Mythos não representa apenas uma falha de segurança, mas um divisor de águas.

Ele mostra que a inteligência artificial já não é apenas uma ferramenta. Em certos contextos, ela se torna um agente ativo, capaz de descobrir, decidir e agir em velocidades que desafiam a supervisão humana.

Se por um lado isso abre caminho para uma internet mais segura, por outro impõe um alerta inevitável: as mesmas capacidades que protegem também podem ameaçar.

O futuro da segurança digital, ao que tudo indica, será construído na delicada fronteira entre controle humano e autonomia das máquinas.

Fontes:

Anthropic – Blog Oficial


System Card Oficial (Anthropic)

The Hacker News

Forrester Research

Digital Watch Observatory

Previous Article

Da canção ao cosmos: Artemis II, a tecnologia que leva a humanidade de volta à Lua, ao vivo

You might be interested in …

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *