Anthropic이 최근 Fable (Mythos 모델의 상용 버전, 가드레일 적용)을 출시했다.
신뢰할 수 있는 테스터가 가드레일을 우회하는 jailbreak을 발견.
미국 정부는 Dario Amodei에게 수정하거나 모델 배포를 중단하라고 요청했으나 거부.
Anthropic은 블로그에서 “심각하지 않다”고 주장했으나, 정부는 사이버 무기급 능력이 노출될 수 있다고 보고 수출 통제(foreign access 제한)를 발동.
정부는 Anthropic이 안전 문제를 해결하면 통제를 해제하고 일반 출시를 원하지만, Anthropic이 안전보다 상업적 이익을 우선했다고 비판.
이전 DoW(Department of War?) 관련 이슈와는 별개이며, 공은 Anthropic 쪽에 있다고 함.
https://twitter.com/DavidSacks/status/2065853007619588171
목요일: Amazon CEO Andy Jassy가 Anthropic의 Fable 모델 jailbreak 문제를 트럼프 행정부에 제기.
금요일 오전: Sean Cairncross, Bessent 등 백악관 고위 인사들이 회의.
Dario Amodei(Anthropic CEO)에게 연락 → Amodei가 웰니스 리트리트 중이었다는 주장 (Anthropic 측은 부인).
오후 1시 이후 여러 차례 긴장된 전화 통화 (Cairncross, Bessent, Lutnick 등 참여).
Amodei: 가드레일을 방어하고 “universal vs non-universal jailbreak”을 구분하려 함.
정부 측: Fable 모델을 내려달라고 요구. Amodei는 거부하거나 더 많은 정보/시간을 요청.
Bessent가 Amodei에게 직접 “bad decision(나쁜 결정)”이라고 말함.
금요일 저녁: 결국 수출 통제 발동.
정부 측 인사: “수 시간 동안 협조를 구걸한 후 마지막 수단으로 수출 통제를 했다.”
(Anthropic은 wellness retreat 관련 주장을 부인함)
→ Amazon의 제보 → 백악관이 빠르게 움직여 Anthropic에 압박 → Dario가 거부 → 수출 통제로 이어진 과정입니다.
https://twitter.com/SophiaCai99/status/2065942612293365948
요약하면
- 아마존 측에서 Fable 가드레일 우회 가능성을 발견하고 백악관에 통보
- 백악관에서는 앤트로픽에 패치를 제공하거나 그게 안되면 모델을 일단 내리라고 요청
- 앤트로픽측은 심각한 상황이 아니라고 보고 다소 비협조적으로 나옴
- 빡친(아니, 급해진?) 백악관에서 수출 통제 명령 발동
Fable 가드레일이 우회 가능해지면 이적 단체(가령 중국이라든가?)에서 Mythos의 기능, 특히 이번에 문제가 된 사이버보안 관련 기능을 훔쳐갈 수 있기 때문에 긴급하게 통제에 들어갔나 보네요.
LLM 최신 모델은 이제 국가 전략 자산 수준으로 여겨지는 군요.