프런티어 AI가 공개 CTF 형식을 깨뜨렸다

5 hours ago 2
  • 프런티어 AI가 공개 온라인 CTF(Capture The Flag) 의 쉬운·중간 문제를 자동화하면서, 점수판이 인간 보안 실력을 깔끔하게 반영하지 못하게 됨
  • 문제는 AI 보조 자체가 아니라, 모델이 추론과 풀이 코드 작성까지 맡아 인간에게 플래그 복사만 남기는 수준에 도달했다는 점임
  • Claude Opus 4.5와 Claude Code 이후 CTFd API로 문제별 에이전트를 띄워 초반 문제를 처리하고, 사람은 어려운 문제에 집중하기 쉬워짐
  • GPT-5.5 Pro는 HackTheBox Insane 난이도 active leakless heap pwn까지 원샷으로 풀 수 있어, 토큰과 에이전트 비용을 감당하는 쪽이 유리해짐
  • 공개 점수판이 AI 오케스트레이션과 과금 능력까지 측정하게 되면서, 초보자가 실력을 쌓아 상위 팀으로 올라가던 CTF의 사다리가 약해짐

공개 온라인 CTF의 점수판이 바뀜

  • 프런티어 AI가 공개 CTF 형식을 깨뜨리면서, 점수판은 더 이상 인간 보안 실력을 깔끔하게 측정하지 못하는 상태가 됨
  • 핵심은 AI가 힌트를 주는 정도가 아니라, 모델이 추론을 수행하고 풀이 코드를 작성한 뒤 인간에게 플래그 복사만 남기는 상황임
  • 예전 CTF는 퍼즐 묶음이 아니라, 초보자가 실력을 쌓고 더 높은 팀과 대회로 올라가는 사다리였음
  • 공개 온라인 CTF 성과는 보안 실력뿐 아니라 프런티어 모델을 쓰려는 의지, 자동화 구성, 충분한 토큰을 투입할 수 있는 능력까지 반영하게 됨
  • 현재 형식의 공개 온라인 CTF는 과거의 역할을 이어가기 어렵고, 근본적 변화가 없었던 것처럼 보기 어려움

변화의 배경

  • CTF 경험과 문제의식

    • 2021년 대학 입학과 함께 CTF를 시작했고, 첫 대회였던 HCKSYD 48시간 솔로 CTF를 2시간 만에 전부 풀고 우승함
    • 이후 Blitzkrieg와 함께 호주 최대 CTF인 DownUnderCTF에서 여러 차례 우승했고, 나중에는 국제 상위권 팀 TheHackersCrew에 합류함
    • TheHackersCrew는 CTFTime에서 꾸준히 높은 순위를 기록했고, 2025년 말까지 세계적인 CTF에서 상위 10위권 안에 자주 들었음
    • CTF는 보안을 좋아하게 만든 계기였고, 학습 방법과 자기 측정 수단, 존중하는 많은 사람을 만나는 경로였음
  • GPT-4 이후의 첫 변화

    • GPT-4 등장 이후 중간 난이도 CTF 문제 상당수가 한 번의 프롬프트로 풀이와 플래그를 얻을 수 있는 원샷(one-shot) 대상이 됨
    • 암호학 문제를 ChatGPT에 붙여 넣고 10분 뒤 돌아오면 해답을 얻는 식의 상황이 가능해짐
    • 당시에는 어려운 문제들이 대체로 영향을 덜 받았고, 절약되는 시간이 대회를 망칠 정도로 크지 않다고 여겨졌음
    • CTF 플레이어는 원래 도구를 사용해 왔기 때문에, 문제는 AI 보조 자체가 아니라 의미 있는 인간 작업이 사라지는 수준에 도달했는지였음

Claude Opus 4.5가 만든 형식 변화

  • Claude Opus 4.5 이후 거의 모든 중간 난이도 문제와 일부 어려운 문제가 에이전트로 풀 수 있는 대상이 됨
  • Claude Code는 모든 것을 CLI로 묶고 다른 CLI 및 MCP 도구 연결을 쉽게 만들어, CTFd API로 각 문제마다 Claude 인스턴스를 띄우는 오케스트레이터 구성을 쉽게 만듦
  • 대회 첫 1시간 동안 시스템으로 쉬운 문제와 중간 문제를 처리한 뒤, 사람은 남은 문제에만 집중하는 방식이 가능해짐
  • AI를 쓰지 않는 팀은 단순한 편의를 놓치는 것이 아니라, 더 느린 버전의 대회를 치르는 셈이 됨
  • 공개 온라인 CTF는 쉬운 문제와 중간 문제를 얼마나 빨리 자동화하고, 가장 어려운 문제에 얼마나 많은 인간 주의를 남길 수 있는지의 게임으로 바뀜
  • 점수판은 보안 실력과 함께, 때로는 그보다 더 크게 오케스트레이션 능력과 프런티어 모델을 쓸 의지를 측정하기 시작함
  • CTFTime 리더보드는 이상하게 느껴졌고, 꾸준히 상위권에 있던 전설적인 팀들이 덜 보이며, 플레이어 활동도 낮아진 듯한 상태가 됨
  • 문제 제작자들이 몇 주 동안 정교한 문제를 만들어도 에이전트가 몇 분 만에 풀어버린다면, CTF를 예술 형식처럼 대하던 동기도 줄어듦

GPT-5.5 이후의 결정적 변화

  • GPT-5.5GPT-5.5 Pro는 벤치마크 기준으로 Claude Mythos에 가깝거나, Pro의 경우 이를 넘어설 가능성이 있음
  • 이 모델들은 HackTheBox의 Insane 난이도 active leakless heap pwn 문제를 원샷으로 풀 수 있음
  • 작은 CTF 주최자가 현실적으로 만들 수 있는 문제의 큰 부분을 해결할 수 있고, 48시간 CTF에서 Pro를 Insane 문제에 오케스트레이션하면 대회 종료 전 플래그를 얻을 가능성이 있음
  • 그 결과 공개 CTF는 과금 승부(pay-to-win) 성격을 띠게 됨
  • 더 많은 토큰을 대회에 투입할수록 점수판을 더 빨리 내려갈 수 있음
  • Alias Robotics의 alias1 같은 특화 사이버보안 모델은 일반 프런티어 LLM에 비해 덜 중요해지는 흐름임
  • 경쟁은 충분한 컨텍스트와 충분한 시간 동안 충분한 수의 에이전트를 돌릴 비용을 누가 감당할 수 있는지로 바뀜
  • CTF 성과는 예전처럼 개인의 실력을 정의하지 못하며, CTF 성과로 보안 인력을 채용하는 의미도 약해짐
  • CTF에 필요한 오케스트레이션 대부분은 이미 오픈소스이거나 분위기 기반 코딩으로 만들 수 있어, AI 실력을 측정하는 좋은 지표도 아님

초보자 학습 경로의 손상

  • 점수판은 학습 사다리였음

    • CTF는 초보자가 더 많은 문제를 풀고 더 높은 순위를 얻고 더 좋은 팀에 합류하며 경쟁력을 높이는 사다리였음
    • 공개 점수판이 AI를 쓰는 팀들에 의해 지배되면, 초보자는 AI가 대체하는 감각을 익히기도 전에 AI 사용으로 밀려남
    • 이는 능동적 학습을 막는 반패턴이며, 실제로 가르치는 부분은 능동적 고생과 직접 부딪힘임
    • 진짜 노력을 들여도 위쪽 사다리가 자동화되어 눈에 보이는 성장이 나타나지 않으면 동기가 크게 떨어짐
  • 초보자용 CTF와 학습 플랫폼의 차이

    • 초보자 CTF까지 사람들이 조용히 프롬프트를 붙여 넣고 점수판을 오르는 공간이 되면, 문제 제작자는 학습 플랫폼에 더 힘을 쓰는 편이 낫게 됨
    • picoGymHackTheBox 같은 플랫폼에서는 기대값이 교육에 있고, 초보자가 스스로 학습을 속이는 유인이 공개 점수판보다 낮음
    • 초보자는 공개 점수판이 인간 성장을 반영하는 척하는 경쟁보다, picoGym, HackTheBox, 기타 랩 환경에서 배우는 편이 더 나음

“CTF는 죽지 않았다”는 반론의 한계

  • AI가 모든 문제를 풀 수 없고, DEF CON 같은 CTF가 여전히 있다는 반론은 일부 사실이지만 핵심 방어가 되지 못함
  • 최상위 결승의 가장 어려운 문제들은 참가자가 매우 적고, 보통 결승보다 쉬운 예선을 통해 접근이 제한됨
  • 예선이 에이전트에 의해 무너지면, 아직 AI에 저항하는 문제에 도달하는 진짜 자격 있는 사람이 줄어듦
  • 소수의 엘리트 결승이 대부분의 사람이 실제로 플레이하는 공개 온라인 형식을 구해 주지는 못함
  • 모든 문제가 풀린다는 뜻이 아니라, 점수판의 충분히 큰 부분이 자동화되어 예전과 같은 의미를 잃었다는 점이 핵심임

보안 연구와 경쟁 CTF는 다름

  • CTF는 새로운 흥미로운 기법을 보여줄 수 있지만, 그 자체가 보안 연구의 발견 지점은 아니었음
  • AI가 보안 분야에서 유용하다는 사실만으로, 해당 분야의 경쟁 구도 안에 무제한으로 들어와야 한다는 결론은 나오지 않음
  • CTF에서 제한 없는 AI는 인간을 퍼즐에서 거의 제거하고, 보안의 예술성을 프롬프트로 축소함
  • LLM은 CTF가 존재하는 한 보안 역량을 계속 높이겠지만, 그것이 경쟁 형식이 건강하다는 뜻은 아님
  • CTF는 기법을 공유하고 인간 보안 실력의 한계를 밀어붙이는 방식이었지만, 그 목적이 벗겨지고 있음

체스 엔진 비유의 문제

  • 체스는 오래전부터 컴퓨터가 지배했지만, 체스 엔진은 경쟁 경기 중 사용할 수 없음
  • 체스 엔진은 분석, 훈련, 해설, 연습에 쓰이며, 경쟁자를 대체하지 않고 경쟁 주변의 게임을 풍부하게 만듦
  • 모든 체스 선수에게 최고의 엔진을 제공하고 경기 중 자유롭게 쓰게 한다면, 그것이 공정한지, 보는 재미가 있는지, 상금을 정당화하는지, 인간 한계를 밀어붙이는지 의문이 생김
  • 같은 질문이 CTF에도 적용됨

주최자가 대응하기 어려운 이유

  • CTF 주최자들은 LLM 풀이를 깨거나 억제하는 기법을 시도했지만, 대부분 일시적 마찰에 그침
  • Claude Code는 오래된 거부 문자열 트릭에 의미 있게 흔들리지 않음
  • 프런티어 모델은 프롬프트 주입을 알아차리는 능력이 좋아지고 있음
  • 웹 검색 기능은 학습 컷오프 이후에 나온 기술에 기반한 문제의 방어력을 약하게 만듦
  • LLM을 쓰지 말라는 규칙은 공개 온라인 이벤트에서 무시되기 쉽고, 거의 집행할 수 없음
  • 일반적인 문제를 만들면 에이전트가 너무 많이 풀고, 에이전트에 적대적인 문제를 만들면 인간에게도 추측성·과설계·불쾌한 문제가 되기 쉬움
  • 이런 대응은 실제 해결책이 아니라, 모두에게 CTF를 더 나쁘게 만드는 방향임

“그냥 적응하라”는 말의 빈틈

  • 적응이 더 나은 도구 제작을 뜻한다면, CTF 플레이어들은 이미 그렇게 해 왔음
  • 적응이 더 어려운 문제 작성을 뜻한다면, 주최자들도 이미 시도했음
  • 적응이 점수판을 AI 오케스트레이션 벤치마크로 받아들이는 것이라면, 예전 경쟁이 아직 존재하는 척하지 말고 그렇게 솔직히 말해야 함
  • 현재 LLM이 풀 수 없는 추측성·과설계 문제를 만들어도, 플레이어가 경쟁력을 유지하면서 필요한 기술을 배울 좋은 경로가 없음
  • 몇 개 모델이 더 나온 뒤에는 그 지점마저 무의미해질 수 있으며, LLM의 보안 역량 발전 속도는 문제 설계가 오래 앞서가기 어렵게 만듦

현재 CTF 장면의 여파

  • CTFTime 리더보드는 역사성과 인간 실력을 거의 반영하지 못하는 상태가 되었고, 2026년 점수판은 이전 해들과 알아보기 어려울 만큼 달라짐
  • TheHackersCrew를 포함해 크고 평판 있는 많은 팀들이 아예 플레이하지 않거나, 훨씬 적은 인원으로 플레이하거나, 상위 10위권 진입에 어려움을 겪음
  • 규제되지 않은 부정행위가 크게 늘었고, Plaid CTF 같은 좋은 CTF 일부는 더 이상 열리지 않음
  • 로컬 팀 Emu Exploit의 많은 구성원도 비슷하게 느끼며, 이들은 International Cybersecurity Championship에 꾸준히 참가하고, 버그 바운티 프로그램에서 상위권 성과를 내고, Pwn2Own에 출전하고, Black Hat 같은 콘퍼런스에서 발표하는 사람들임
  • 흥미를 잃는 사람들은 구경꾼이 아니라, CTF 장면이 원래 만들어 내고 붙잡아 두던 유형의 사람들임
  • 손실은 단지 점수판이 아니라, 초보자의 호기심에서 엘리트 경쟁으로 이어지던 사다리, 문제 설계의 장인정신, 어려운 것을 깊이 이해해 푼 인간의 감각임
  • 현재의 공개 온라인 CTF는 그 유산을 이어가기 어렵고, 근본적 변화를 부정하면 손실을 솔직히 말하기 더 어려워짐

앞으로 남길 것

  • CTF와 AI 주변의 많은 일이 상업화되고 통제 밖에 있지만, CTF는 업계에 매우 긍정적인 영향을 줬음
  • CTF를 통해 친절하고 똑똑하고 열정적인 사람들을 많이 만났고, 아름답게 제작된 문제와 흥미로운 의도치 않은 풀이를 경험함
  • CTF 커뮤니티는 배우고 성장하고 연결되는 훌륭한 공간이었으며, 경쟁이 어디로 가든 이 부분은 잃지 않아야 함
  • 커뮤니티는 함께 남아 열정을 유지하고 계속 배울 새로운 경로를 만들어야 함
  • SecTalks, 학생 콘퍼런스, 로컬 밋업 같은 보안 인접 사회적 이벤트는 연결과 참여를 유지하는 좋은 방법임
  • Discord 같은 커뮤니티를 제공하는 학습 플랫폼도 가치 있는 자원임
  • 과거와 같은 대안을 찾기 어렵더라도, CTF 주변에 만들어진 커뮤니티는 경쟁 정신을 살릴 새 방식을 찾는 지금 더 중요해짐
Read Entire Article