7년 만의 귀환: Jack Clark의 staged release가 다시 돌아온 이유

대부분 사람들이 기억하지 못하지만, AI 업계가 “이 모델은 너무 위험해서 공개할 수 없다”고 선언한 건 이번이 처음이 아니다. 그리고 두 번의 결정을 관통하는 한 사람이 있다.

시작은 데자뷰에서

얼마 전 Anthropic이 새 프론티어 모델 Claude Mythos Preview를 일반 공개하지 않겠다고 발표했다. 대신 AWS, Apple, Google, Microsoft, Cisco, CrowdStrike, Linux Foundation 등 11개 파트너로 구성된 Project Glasswing 컨소시엄에만 제한적으로 액세스를 제공하고, 40여 개 조직이 추가로 이 모델로 critical infrastructure를 스캔하도록 돕는다. Anthropic은 1억 달러 규모의 사용 크레딧과 4백만 달러의 오픈소스 보안 기부를 약속했다.

“공개하기엔 너무 위험하다”는 이유. 많은 사람들에게 이 장면은 낯설 것이다. AI 모델이 상용화되고 API로 풀리고 오픈 웨이트로 공개되는 게 당연했던 지난 몇 년을 떠올리면 더욱 그렇다.

그런데 나는 이게 데자뷰였다. 정확히 7년 전, 거의 똑같은 결정을 내렸던 사람이 있었기 때문이다. 그리고 이번 Mythos 비공개 결정의 한가운데에도 같은 사람이 있다.

Jack Clark. 오늘은 이 사람 이야기를 해보려고 한다.

2019년, 업계가 비웃었던 결정

2019년 2월, OpenAI가 GPT-2를 발표하면서 이례적인 선언을 했다: “1.5B 전체 모델은 공개하지 않겠다.” 악용 우려 때문이라는 게 이유였다. 가짜뉴스 자동 생성, 이메일 사칭, 소셜 미디어 여론 조작 같은 시나리오가 거론됐다.

반응은 싸늘했다.

“퍼포먼스 아니냐. 주목받으려는 수작 같다.”
“어차피 누가 복제한다. 보류는 의미 없다.”
“자기 모델을 과대평가하고 있다.”

당시 딥러닝 엔지니어 Chip Huyen은 MIT Technology Review에서 이렇게 말했다: “staged release가 이 경우엔 별로 유용하지 않다고 본다. 이 작업은 쉽게 복제 가능하기 때문이다. 다만 향후 프로젝트에 선례를 남기는 측면에선 유용할 수 있다.” 결과적으로 이 말은 절반은 맞고 절반은 틀렸다는 게 드러난다. 뒤에서 다시 이야기하겠다.

지금 시점에서 중요한 사실: 당시 OpenAI는 지금처럼 상업화된 조직이 아니었다. 비영리 연구 기관에 가까운 정체성이었고, 이런 조직조차 “보류”라는 선택에 조롱받았다는 게 당시 분위기를 보여준다.

이 결정을 설계하고, 2019년 6월 13일 미 하원 정보위원회(House Permanent Select Committee on Intelligence)에서 직접 증언한 사람이 OpenAI 정책 디렉터였던 Jack Clark이다.

Clark은 증언에서 새로운 규범의 프로토타입을 제안했다. “staged release” — 작은 모델부터 단계적으로 공개하며, 사회와 연구 공동체가 적응할 시간을 버는 방식이다. 실제로 OpenAI는 124M(2월) → 355M(5월) → 774M(8월) → 1.5B(11월) 순서로 공개했다.

업계는 다른 답을 택했다

결과적으로 우려했던 대규모 악용은 일어나지 않았다. 11월에 공개된 1.5B 전체 모델도 별 사고 없이 풀렸다. Clark이 제안한 “staged release” 프레임은 업계 표준이 되지 못했다.

대신 업계는 **“보류하지 말고, 안전장치를 붙여서 출시하자”**는 다른 답을 택했다. Red teaming, system card, Responsible Scaling Policy, RLHF 기반 안전 레이어, bug bounty 프로그램 같은 것들이 그 산물이다. GPT-3는 API로 접근 가능해졌고, ChatGPT가 공공 제품으로 출시됐고, Meta는 LLaMA를 오픈 모델로 공개했다.

“secure and then release.” 이게 지난 7년간 업계의 기본 방침이었다.

Huyen이 2019년에 말했던 “선례를 남기는 측면에선 유용할 수 있다”는 말은 이런 맥락에서 맞았다. 단, 그 선례가 **“보류”가 아니라 “출시 전 점검”**으로 형태가 바뀌어서 내려왔다는 게 반전이다.

Clark의 7년

Clark은 2020년 12월 OpenAI를 떠난다. 몇 달 뒤 그는 Anthropic 공동창업자로 다시 등장한다. Dario·Daniela Amodei 남매를 포함한 OpenAI 출신 멤버들이 만든 회사다. Anthropic은 이후 Constitutional AI, Responsible Scaling Policy, 상세한 system card 같은 업계 안전 관행의 주요 동력이 된다. 상당수는 Sam Altman의 “vibes” 기반 접근에 동의하지 않았던 OpenAI 출신들이 주도했다.

그리고 2026년 3월, Clark은 Anthropic의 Head of Public Benefit이자 신설된 Anthropic Institute의 수장이 된다. AI가 사회에 제기할 가장 심각한 도전을 다루는 연구 조직이다.

한 달 뒤, Project Glasswing이 발표된다.

Glasswing 발표 하루 전, Clark은 본인 뉴스레터 Import AI 452호에서 이렇게 썼다:

“AI that is especially good at helping you find vulnerabilities in code for defensive purposes can easily be repurposed for offensive purposes.”

(코드 취약점을 방어 목적으로 잘 찾는 AI는, 공격 목적으로도 쉽게 전용될 수 있다.)

그리고 AI를 “everything machine”이라 표현하며, 새 모델 세대마다 정책 문제가 배로 늘어난다고 덧붙였다.

7년 전 의회에서 했던 말과 본질은 같다. 달라진 건 그가 다루는 모델의 위험도다.

이번엔 증거가 먼저 나왔다

2019년 Clark의 staged release가 비웃음을 샀던 핵심 이유는 실증 없는 예방이었다는 점이다. “가짜뉴스를 만들지도 모른다”는 가능성에 기반한 보류였고, 비판자들의 “증거 없이 공포만 판다”는 지적엔 어느 정도 일리가 있었다.

Mythos는 전제가 완전히 다르다. Anthropic의 Frontier Red Team 블로그가 공개한 사례들을 보자.

OpenBSD TCP SACK — 27년 묵은 버그

보안을 설계 원칙으로 삼는 것으로 유명한 OS에서, 1998년에 추가된 TCP SACK 구현부에 취약점이 숨어 있었다. Mythos는 이걸 찾아냈다.

구조를 간단히 설명하면: OpenBSD는 SACK 상태를 singly linked list로 추적한다. 공격자가 특정 조건의 SACK 블록을 보내면, 리스트의 마지막 노드가 삭제되는 동시에 “새 hole을 append”하는 코드 경로가 트리거된다. append가 이미 NULL이 된 포인터를 통해 쓰기를 시도하며 커널이 크래시된다.

정상적으론 이 두 조건이 동시에 만족될 수 없다. 그런데 32비트 TCP sequence number의 signed integer overflow를 이용하면, 공격자가 SACK 블록의 시작점을 정상 윈도우에서 2^31만큼 떨어뜨려 두 조건을 동시에 만족시킬 수 있다.

수천 번의 코드 리뷰, 수십 번의 메이저 릴리스, 27년의 세월을 견딘 버그다. 스캐폴드 1,000회 실행 전체 비용이 2만 달러 미만이었다.

FFmpeg H.264 — fuzzer가 500만 번 놓친 버그

FFmpeg는 세계에서 가장 많이 fuzz된 미디어 라이브러리 중 하나다. H.264 디코더의 type mismatch 버그는 2003년 코드베이스에 도입됐고 2010년 리팩토링으로 exploitable해졌지만, 자동화 테스트 도구가 해당 코드 라인을 500만 번 히트했음에도 잡지 못했다. Mythos는 코드 의미를 추론해서 찾아냈다.

FreeBSD NFS RCE (CVE-2026-4747) — 17년 묵은 원격 루트

17년 동안 숨어 있던 FreeBSD NFS 서버의 원격 코드 실행 취약점. 인증 없이 root 권한을 얻을 수 있다. Anthropic에 따르면 Mythos는 초기 프롬프트 이후 사람의 개입 없이 취약점 발견부터 working exploit 구축까지 전 과정을 수행했다. 20개 가젯으로 구성된 ROP 체인을 6개 패킷에 나눠 전송하는 방식이다.

Firefox 147 취약점을 쓰는 exploit 개발 벤치마크에선 Opus 4.6이 수백 번 시도해서 2번 성공했는데, Mythos는 181번 성공했다. CyberGym에선 Mythos 83.1% vs Opus 4.6 66.6%. 모델이 근본적으로 다른 무언가를 하고 있다는 신호다.

커뮤니티가 느끼는 변화

이게 Anthropic만의 주장이었다면 회의적으로 봤을 것이다. 그런데 보안 커뮤니티가 독립적으로 같은 신호를 보고 있다.

Linux 커널 메인테이너 Greg Kroah-Hartman의 말이 인상적이다:

“몇 달 전까지만 해도 우리가 ‘AI slop’이라 부르던, 명백히 잘못되거나 저품질인 AI 생성 보안 리포트들이 들어왔다. 좀 웃겼다. 별로 걱정되지도 않았다. 그런데 한 달쯤 전에 뭔가가 바뀌었다. 세상이 스위치했다.”

curl 메인테이너 Daniel Stenberg는 이제 AI 생성 취약점 리포트를 처리하는 데 하루 몇 시간을 쓴다고 썼다.

보안 연구자 Thomas Ptacek은 3월 말 에세이 Vulnerability Research Is Cooked에서 코딩 에이전트가 exploit 개발의 실무와 경제를 근본적으로 바꿀 거라고 주장했다.

Anthropic 소속 보안 연구자 Nicholas Carlini는 Glasswing 발표 영상에서 이렇게 말했다: “최근 몇 주 동안 내가 평생 찾은 것보다 더 많은 버그를 찾았다.”

Simon Willison의 코멘트는 인용할 만하다:

“‘우리 모델이 너무 위험해서 공개 못 한다’는 건 신작 마케팅용 hype로 쓰기 좋은 문구다. 하지만 이 경우엔 그 조심스러움이 정당해 보인다.”

반론도 존재한다

공정을 기하기 위해 반대 관점도 짚어야 한다. AISLE과 Vidoc Security Lab 같은 보안 연구팀이 공개 모델(GPT-5.4, Claude Opus 4.6)로 Mythos가 찾았다는 버그 일부를 재현해냈다.

AISLE: 8/8 공개 모델이 FreeBSD exploit을 탐지했고, 36억 파라미터 모델로도 가능했다
Vidoc: GPT-5.4와 Claude Opus 4.6으로 FreeBSD, Botan, OpenBSD 케이스를 재현. 단 FFmpeg와 wolfSSL은 부분 성공에 그침

이들의 논지는 “발견(discovery) 능력은 이미 넓게 퍼져 있고, Mythos의 진짜 차별점은 exploit 구축과 운영화 쪽”이라는 것이다. **“Mythos만 할 수 있는 것”이 아니라 “이미 일어나고 있는 변화의 상층부를 보여주는 것”**이라는 해석이다.

이 관점도 Clark이 말한 dual-use 논지와 완전히 모순되진 않는다. “공개 모델도 따라오고 있다”는 말은, 역으로 Mythos-class 능력이 곧 확산된다는 의미이기도 하다. Glasswing이 존재하는 이유 자체가 그것이다.

역사가 돌아왔다, 다른 모습으로

2019년 Clark의 staged release와 2026년 Mythos 비공개를 나란히 놓고 보면, 한 사람의 원칙이 7년의 시간을 걸어온 궤적이 보인다.

달라진 것:

근거의 성격: 이론적 우려 → 실증된 역량
범위: 모델 자체를 단계적 공개 → 특정 도메인(사이버보안)에 한정한 제한 공개
생태계의 이해도: 외로운 주장 → Kroah-Hartman, Stenberg, Ptacek 같은 독립적 관찰자들의 공명
실행 방식: 단순 보류 → 12개 파트너 + 40여 조직과 1억 달러 규모의 방어적 활용 구조

변하지 않은 것:

핵심 논지: 어떤 능력은 사회가 적응할 시간이 필요하다
비판자들의 반응: “어차피 복제된다”, “과대평가다”
중심에 선 사람: Jack Clark

2019년엔 “너무 조심스럽다”고 비웃음 샀던 결정이, 2026년엔 점점 “당연한 결정”처럼 보이기 시작한다. 역사가 반복되는 게 아니라, 같은 논리가 다른 증거를 만나 돌아온 거라고 봐야 한다.

진짜 시험대는 곧 온다. OpenAI가 “Spud”라는 코드네임의 차기 모델을 pretraining 완료했다고 알려졌다. Altman은 내부적으로 “몇 주 안에 경제를 가속할 강한 모델”이 나온다고 말했다고 한다. Spud가 Mythos 수준의 사이버보안 능력을 보일 경우, OpenAI의 릴리스 전략이 Anthropic의 신중함을 업계 표준으로 만들지, 아니면 예외로 남길지가 드러날 것이다.

7년 전 업계가 한 번 버렸던 Clark의 프로토콜이, 이번엔 뿌리내릴 수 있을까.

참고 자료

Anthropic Frontier Red Team, Claude Mythos Preview
Anthropic, Project Glasswing 발표
Jack Clark, U.S. House Permanent Select Committee on Intelligence 증언 (2019.6.13)
Jack Clark, Import AI #452
OpenAI, Release Strategies and the Social Impacts of Language Models (2019)
AISLE, AI Cybersecurity After Mythos: The Jagged Frontier
Vidoc Security Lab, We Reproduced Anthropic’s Mythos Findings With Public Models
Thomas Ptacek, Vulnerability Research Is Cooked