프런티어 AI가 공개 CTF 형식을 깨뜨렸다

5 hours ago 2

프런티어 AI가 공개 온라인 CTF(Capture The Flag) 의 쉬운·중간 문제를 자동화하면서, 점수판이 인간 보안 실력을 깔끔하게 반영하지 못하게 됨
문제는 AI 보조 자체가 아니라, 모델이 추론과 풀이 코드 작성까지 맡아 인간에게 플래그 복사만 남기는 수준에 도달했다는 점임
Claude Opus 4.5와 Claude Code 이후 CTFd API로 문제별 에이전트를 띄워 초반 문제를 처리하고, 사람은 어려운 문제에 집중하기 쉬워짐
GPT-5.5 Pro는 HackTheBox Insane 난이도 active leakless heap pwn까지 원샷으로 풀 수 있어, 토큰과 에이전트 비용을 감당하는 쪽이 유리해짐
공개 점수판이 AI 오케스트레이션과 과금 능력까지 측정하게 되면서, 초보자가 실력을 쌓아 상위 팀으로 올라가던 CTF의 사다리가 약해짐

공개 온라인 CTF의 점수판이 바뀜

프런티어 AI가 공개 CTF 형식을 깨뜨리면서, 점수판은 더 이상 인간 보안 실력을 깔끔하게 측정하지 못하는 상태가 됨
핵심은 AI가 힌트를 주는 정도가 아니라, 모델이 추론을 수행하고 풀이 코드를 작성한 뒤 인간에게 플래그 복사만 남기는 상황임
예전 CTF는 퍼즐 묶음이 아니라, 초보자가 실력을 쌓고 더 높은 팀과 대회로 올라가는 사다리였음
공개 온라인 CTF 성과는 보안 실력뿐 아니라 프런티어 모델을 쓰려는 의지, 자동화 구성, 충분한 토큰을 투입할 수 있는 능력까지 반영하게 됨
현재 형식의 공개 온라인 CTF는 과거의 역할을 이어가기 어렵고, 근본적 변화가 없었던 것처럼 보기 어려움

변화의 배경

CTF 경험과 문제의식
- 2021년 대학 입학과 함께 CTF를 시작했고, 첫 대회였던 HCKSYD 48시간 솔로 CTF를 2시간 만에 전부 풀고 우승함
- 이후 Blitzkrieg와 함께 호주 최대 CTF인 DownUnderCTF에서 여러 차례 우승했고, 나중에는 국제 상위권 팀 TheHackersCrew에 합류함
- TheHackersCrew는 CTFTime에서 꾸준히 높은 순위를 기록했고, 2025년 말까지 세계적인 CTF에서 상위 10위권 안에 자주 들었음
- CTF는 보안을 좋아하게 만든 계기였고, 학습 방법과 자기 측정 수단, 존중하는 많은 사람을 만나는 경로였음
GPT-4 이후의 첫 변화
- GPT-4 등장 이후 중간 난이도 CTF 문제 상당수가 한 번의 프롬프트로 풀이와 플래그를 얻을 수 있는 원샷(one-shot) 대상이 됨
- 암호학 문제를 ChatGPT에 붙여 넣고 10분 뒤 돌아오면 해답을 얻는 식의 상황이 가능해짐
- 당시에는 어려운 문제들이 대체로 영향을 덜 받았고, 절약되는 시간이 대회를 망칠 정도로 크지 않다고 여겨졌음
- CTF 플레이어는 원래 도구를 사용해 왔기 때문에, 문제는 AI 보조 자체가 아니라 의미 있는 인간 작업이 사라지는 수준에 도달했는지였음

Claude Opus 4.5가 만든 형식 변화

Claude Opus 4.5 이후 거의 모든 중간 난이도 문제와 일부 어려운 문제가 에이전트로 풀 수 있는 대상이 됨
Claude Code는 모든 것을 CLI로 묶고 다른 CLI 및 MCP 도구 연결을 쉽게 만들어, CTFd API로 각 문제마다 Claude 인스턴스를 띄우는 오케스트레이터 구성을 쉽게 만듦
대회 첫 1시간 동안 시스템으로 쉬운 문제와 중간 문제를 처리한 뒤, 사람은 남은 문제에만 집중하는 방식이 가능해짐
AI를 쓰지 않는 팀은 단순한 편의를 놓치는 것이 아니라, 더 느린 버전의 대회를 치르는 셈이 됨
공개 온라인 CTF는 쉬운 문제와 중간 문제를 얼마나 빨리 자동화하고, 가장 어려운 문제에 얼마나 많은 인간 주의를 남길 수 있는지의 게임으로 바뀜
점수판은 보안 실력과 함께, 때로는 그보다 더 크게 오케스트레이션 능력과 프런티어 모델을 쓸 의지를 측정하기 시작함
CTFTime 리더보드는 이상하게 느껴졌고, 꾸준히 상위권에 있던 전설적인 팀들이 덜 보이며, 플레이어 활동도 낮아진 듯한 상태가 됨
문제 제작자들이 몇 주 동안 정교한 문제를 만들어도 에이전트가 몇 분 만에 풀어버린다면, CTF를 예술 형식처럼 대하던 동기도 줄어듦

GPT-5.5 이후의 결정적 변화

GPT-5.5와 GPT-5.5 Pro는 벤치마크 기준으로 Claude Mythos에 가깝거나, Pro의 경우 이를 넘어설 가능성이 있음
이 모델들은 HackTheBox의 Insane 난이도 active leakless heap pwn 문제를 원샷으로 풀 수 있음
작은 CTF 주최자가 현실적으로 만들 수 있는 문제의 큰 부분을 해결할 수 있고, 48시간 CTF에서 Pro를 Insane 문제에 오케스트레이션하면 대회 종료 전 플래그를 얻을 가능성이 있음
그 결과 공개 CTF는 과금 승부(pay-to-win) 성격을 띠게 됨
더 많은 토큰을 대회에 투입할수록 점수판을 더 빨리 내려갈 수 있음
Alias Robotics의 alias1 같은 특화 사이버보안 모델은 일반 프런티어 LLM에 비해 덜 중요해지는 흐름임
경쟁은 충분한 컨텍스트와 충분한 시간 동안 충분한 수의 에이전트를 돌릴 비용을 누가 감당할 수 있는지로 바뀜
CTF 성과는 예전처럼 개인의 실력을 정의하지 못하며, CTF 성과로 보안 인력을 채용하는 의미도 약해짐
CTF에 필요한 오케스트레이션 대부분은 이미 오픈소스이거나 분위기 기반 코딩으로 만들 수 있어, AI 실력을 측정하는 좋은 지표도 아님

초보자 학습 경로의 손상

점수판은 학습 사다리였음
- CTF는 초보자가 더 많은 문제를 풀고 더 높은 순위를 얻고 더 좋은 팀에 합류하며 경쟁력을 높이는 사다리였음
- 공개 점수판이 AI를 쓰는 팀들에 의해 지배되면, 초보자는 AI가 대체하는 감각을 익히기도 전에 AI 사용으로 밀려남
- 이는 능동적 학습을 막는 반패턴이며, 실제로 가르치는 부분은 능동적 고생과 직접 부딪힘임
- 진짜 노력을 들여도 위쪽 사다리가 자동화되어 눈에 보이는 성장이 나타나지 않으면 동기가 크게 떨어짐
초보자용 CTF와 학습 플랫폼의 차이
- 초보자 CTF까지 사람들이 조용히 프롬프트를 붙여 넣고 점수판을 오르는 공간이 되면, 문제 제작자는 학습 플랫폼에 더 힘을 쓰는 편이 낫게 됨
- picoGym과 HackTheBox 같은 플랫폼에서는 기대값이 교육에 있고, 초보자가 스스로 학습을 속이는 유인이 공개 점수판보다 낮음
- 초보자는 공개 점수판이 인간 성장을 반영하는 척하는 경쟁보다, picoGym, HackTheBox, 기타 랩 환경에서 배우는 편이 더 나음

“CTF는 죽지 않았다”는 반론의 한계

AI가 모든 문제를 풀 수 없고, DEF CON 같은 CTF가 여전히 있다는 반론은 일부 사실이지만 핵심 방어가 되지 못함
최상위 결승의 가장 어려운 문제들은 참가자가 매우 적고, 보통 결승보다 쉬운 예선을 통해 접근이 제한됨
예선이 에이전트에 의해 무너지면, 아직 AI에 저항하는 문제에 도달하는 진짜 자격 있는 사람이 줄어듦
소수의 엘리트 결승이 대부분의 사람이 실제로 플레이하는 공개 온라인 형식을 구해 주지는 못함
모든 문제가 풀린다는 뜻이 아니라, 점수판의 충분히 큰 부분이 자동화되어 예전과 같은 의미를 잃었다는 점이 핵심임

보안 연구와 경쟁 CTF는 다름

CTF는 새로운 흥미로운 기법을 보여줄 수 있지만, 그 자체가 보안 연구의 발견 지점은 아니었음
AI가 보안 분야에서 유용하다는 사실만으로, 해당 분야의 경쟁 구도 안에 무제한으로 들어와야 한다는 결론은 나오지 않음
CTF에서 제한 없는 AI는 인간을 퍼즐에서 거의 제거하고, 보안의 예술성을 프롬프트로 축소함
LLM은 CTF가 존재하는 한 보안 역량을 계속 높이겠지만, 그것이 경쟁 형식이 건강하다는 뜻은 아님
CTF는 기법을 공유하고 인간 보안 실력의 한계를 밀어붙이는 방식이었지만, 그 목적이 벗겨지고 있음

체스 엔진 비유의 문제

체스는 오래전부터 컴퓨터가 지배했지만, 체스 엔진은 경쟁 경기 중 사용할 수 없음
체스 엔진은 분석, 훈련, 해설, 연습에 쓰이며, 경쟁자를 대체하지 않고 경쟁 주변의 게임을 풍부하게 만듦
모든 체스 선수에게 최고의 엔진을 제공하고 경기 중 자유롭게 쓰게 한다면, 그것이 공정한지, 보는 재미가 있는지, 상금을 정당화하는지, 인간 한계를 밀어붙이는지 의문이 생김
같은 질문이 CTF에도 적용됨

주최자가 대응하기 어려운 이유

CTF 주최자들은 LLM 풀이를 깨거나 억제하는 기법을 시도했지만, 대부분 일시적 마찰에 그침
Claude Code는 오래된 거부 문자열 트릭에 의미 있게 흔들리지 않음
프런티어 모델은 프롬프트 주입을 알아차리는 능력이 좋아지고 있음
웹 검색 기능은 학습 컷오프 이후에 나온 기술에 기반한 문제의 방어력을 약하게 만듦
LLM을 쓰지 말라는 규칙은 공개 온라인 이벤트에서 무시되기 쉽고, 거의 집행할 수 없음
일반적인 문제를 만들면 에이전트가 너무 많이 풀고, 에이전트에 적대적인 문제를 만들면 인간에게도 추측성·과설계·불쾌한 문제가 되기 쉬움
이런 대응은 실제 해결책이 아니라, 모두에게 CTF를 더 나쁘게 만드는 방향임

“그냥 적응하라”는 말의 빈틈

적응이 더 나은 도구 제작을 뜻한다면, CTF 플레이어들은 이미 그렇게 해 왔음
적응이 더 어려운 문제 작성을 뜻한다면, 주최자들도 이미 시도했음
적응이 점수판을 AI 오케스트레이션 벤치마크로 받아들이는 것이라면, 예전 경쟁이 아직 존재하는 척하지 말고 그렇게 솔직히 말해야 함
현재 LLM이 풀 수 없는 추측성·과설계 문제를 만들어도, 플레이어가 경쟁력을 유지하면서 필요한 기술을 배울 좋은 경로가 없음
몇 개 모델이 더 나온 뒤에는 그 지점마저 무의미해질 수 있으며, LLM의 보안 역량 발전 속도는 문제 설계가 오래 앞서가기 어렵게 만듦

현재 CTF 장면의 여파

CTFTime 리더보드는 역사성과 인간 실력을 거의 반영하지 못하는 상태가 되었고, 2026년 점수판은 이전 해들과 알아보기 어려울 만큼 달라짐
TheHackersCrew를 포함해 크고 평판 있는 많은 팀들이 아예 플레이하지 않거나, 훨씬 적은 인원으로 플레이하거나, 상위 10위권 진입에 어려움을 겪음
규제되지 않은 부정행위가 크게 늘었고, Plaid CTF 같은 좋은 CTF 일부는 더 이상 열리지 않음
로컬 팀 Emu Exploit의 많은 구성원도 비슷하게 느끼며, 이들은 International Cybersecurity Championship에 꾸준히 참가하고, 버그 바운티 프로그램에서 상위권 성과를 내고, Pwn2Own에 출전하고, Black Hat 같은 콘퍼런스에서 발표하는 사람들임
흥미를 잃는 사람들은 구경꾼이 아니라, CTF 장면이 원래 만들어 내고 붙잡아 두던 유형의 사람들임
손실은 단지 점수판이 아니라, 초보자의 호기심에서 엘리트 경쟁으로 이어지던 사다리, 문제 설계의 장인정신, 어려운 것을 깊이 이해해 푼 인간의 감각임
현재의 공개 온라인 CTF는 그 유산을 이어가기 어렵고, 근본적 변화를 부정하면 손실을 솔직히 말하기 더 어려워짐