확률적 엔지니어링과 24/7 직원

2 hours ago 2
  • 소프트웨어 개발이 결정론적 시스템에서 확률적 시스템으로 조용히 전환되고 있으며, AI 에이전트가 밤새 코드를 생성·리뷰·병합하는 시대에 개발자의 역할과 조직 구조가 근본적으로 변화 중
  • AI 네이티브 팀 내부에서 역할이 상위로 이동하는 동시에 하위로 분화되고 있으며, 에이전트 출력을 관리하는 단순 작업이 새로운 저임금 직군으로 고착될 위험 존재
  • 코드 생성 비용이 제로에 수렴하면서 Jevons의 역설처럼 코드 생산량이 폭증하지만, 생성은 저렴해진 반면 검증은 저렴해지지 않은 비대칭이 핵심 과제
  • 주니어 엔지니어들이 AI에 의존해 시작부터 폴리싱된 코드를 출력하면서 디버깅·판단력·장인정신의 훈련 위기가 이미 현실화
  • 현재 모델이 앞으로 사용할 모델 중 가장 약한 모델이므로, 조직은 지금의 역량이 아닌 아직 출시되지 않은 미래 모델에 대비한 체계를 구축해야 함

확률적 엔지니어링으로의 전환

  • 소프트웨어 업계는 수십 년간 결정론적 계약 위에 구축되어 왔음 — 코드를 작성하고, 테스트하고, 출시하면 작동한다는 보장이 있었음
  • 이 계약이 깨지고 있으며, AI 네이티브 기업의 상위 운영자 사이에서 코드베이스는 "작동한다고 믿는" 것으로 변화, 정확한 확률을 더 이상 명시할 수 없는 상태
  • Compound Loop이라는 사이드 프로젝트를 구축한 경험이 그 계기 — 여러 프론티어 모델을 서로 대립시켜 코드를 자율적으로 작성·리뷰·병합하는 시스템
    • 잠들기 전 실제 문제에 시스템을 실행하면, 아침에 전날 밤 존재하지 않았던 PR 스택을 트리아지하는 형태
    • 일부는 우수하고, 일부는 오류가 있으며, 일부는 묻지 않았던 질문을 표면화
  • 지식 노동 역사상 처음으로, 퇴근한 사람이 유일한 두뇌 복사본을 가져가지 않는 상황
  • 9-9-6 개념은 사실상 사망했으며, 24/7 직원이란 24시간 일하는 사람이 아니라 에이전트가 대규모 병렬화로 작업하는 사람을 의미
  • 2026년 대부분의 팀은 여전히 타이핑이 아닌 조율(coordination)에서 병목이 발생하고 있으며, 조직 재편은 아직 초기 단계

역할의 분화 — 상승과 하강 동시 발생

  • AI 네이티브 팀 내부에서는 "모두가 레벨업한다"는 깔끔한 서사보다 훨씬 복잡한 패턴 존재
  • 상위 이동: 최고의 엔지니어는 더 효과적인 PM으로, 최고의 PM은 시스템 아키텍트로, 최고의 아키텍트는 유통·성장·시장 구조를 고민하는 방향으로 이동
    • 이 그룹에게는 역사상 가장 레버리지 높은 업무 환경
  • 하위 분화: 동시에 많은 엔지니어가 아키텍트가 되는 것이 아니라 스펙 작성자, 리뷰어, 에이전트 베이비시터로 전환
    • 의도를 머신이 읽을 수 있는 프롬프트로 번역하고, 자신이 완전히 보유하지 못한 기준에 대해 머신의 작업을 채점하는 역할
    • 일부는 중요한 작업이지만, 일부는 새로운 용어로 포장된 2026년판 데이터 입력
  • 분화된 역할은 더 낮은 급여, 더 낮은 가치 평가, 다수의 경우 커리어 막다른 골목이 될 전망
  • 에이전트 함대를 효과적으로 운영하는 상위 3분의 1과 출력물을 관리하는 중간층 사이의 급여 격차는 이전 시대의 엔지니어-영업 급여 격차보다 더 클 것
  • AI 인프라에서 커널 성능, 컴파일러 설계, 하드웨어 추상화는 여전히 방어 가능한 해자(moat)로 남아 있음 — 시스템 엔지니어링 최하위 레벨에서는 여전히 높은 결정론적 정확성 필요

Jevons의 역설 — 코드 버전

  • 1865년 경제학자 William Stanley Jevons는 더 효율적인 증기기관이 석탄 소비를 줄이는 것이 아니라 더 늘렸다고 관찰 — 효율성이 엔진을 만들 가치가 있는 것의 범위를 확장
  • 코드 작성 단위 비용이 제로에 수렴하면서 소프트웨어도 같은 현상을 겪고 있음 — 덜 작성하는 것이 아니라 훨씬 더 많이 작성하고 훨씬 더 많이 출시
  • 스케일링 법칙이 무한하다고 믿는 기업들이 그에 맞춰 구축하고 있으며, 이들이 멱법칙 분포의 승자가 될 것
  • 실제 현장에서 이미 벌어지고 있는 현상:
    • 에이전트가 PR을 열고, 서로의 작업을 리뷰하고, 사람이 키보드를 만지지 않고 닫음
    • 자가 치유 테스트 스위트가 기반 코드 변경 시 스스로 재작성
    • 자율 실험 루프가 팀이 과거에 3개 실행할 동안 100개의 가설을 실행·측정·해체
    • 문서가 병합 시 자동 업데이트되며 자기 개선하는 AI 스킬 활용
  • 에이전트 중심으로 재구조화한 팀은 1년 전 대비 3배, 5배, 10배 출력을 달성하며, 곡선이 평탄해지는 것이 아니라 상승 중
  • Jevons의 두 번째 교훈: 공급이 폭발하면 선별(selection)이 곧 핵심
    • 에이전트 함대를 올바른 문제로 지시하고, 출력에서 가치 있는 것을 필터링하고, 결과를 일관성 있는 것으로 통합하는 운영자가 현재 소프트웨어에서 가장 높은 레버리지의 작업 수행
    • 작업의 가치는 더 이상 생산 노력이 아니라 방향 설정, 선별, 일관성으로 결정

결정론적 엔지니어링에서 확률적 엔지니어링으로

  • 결정론적 엔지니어링은 대부분의 소프트웨어 역사를 지배한 계약 — 코드를 작성·테스트·리뷰하면 잘 이해된 범위 내에서 동작을 파악 가능, 버그는 재현 가능한 대상
  • 확률적 엔지니어링은 이미 프론티어 팀에 도착 — 코드베이스 대부분이 확률적 시스템에 의해 생성되고, 시간 압박 속에서 리뷰되며, 단일 인간이 설계하지 않은 전체에 통합
  • 핵심 비대칭: 생성은 저렴해졌지만 검증은 저렴해지지 않음
    • 에이전트가 500줄 PR을 1분 안에 생성 가능하지만, 동시성 문제·스펙 오해석·의도와 다른 구현 같은 미묘한 버그를 잡는 데는 시니어 엔지니어가 1시간 이상 소요
    • 리뷰는 생성보다 스케일링이 느리며, 출력량에 대해 선형보다 더 나쁘게 스케일링 — 더 많은 코드베이스가 에이전트에 의해 작성될수록 개별 조각을 평가하는 데 필요한 컨텍스트 증가
  • 일정 규모를 넘으면 시스템이 인간이 신뢰할 수 있게 평가할 수 있는 것보다 더 많이 생산하며, 정확성이 확률적으로 변화
  • 구체적 사례: 테스트 스위트를 10번 중 9번 통과하는 경합 조건, 스테이징에서는 완벽하지만 예상 못한 프롬프트 분포에서 실패하는 기능, 1만 행 중 1행을 조용히 손상시키며 3주 후에야 발견되는 마이그레이션
  • Proximal과 Modular가 프론티어 에이전트 시스템의 기본 작업 테스트에 대한 공동 연구를 발표했으며, 문서화된 실패 패턴이 이 현상과 직접 대응
  • 실패 모드는 극적인 붕괴가 아니라 느리고 조용한 열화 — 생성 증가, 리뷰 품질 하락, 눈에 띄지 않는 결함 축적, 고객·감사·프로덕션 인시던트가 문제를 드러낼 때까지 신뢰의 조용한 침식
  • 이 문제를 제대로 해결할 도구는 아직 존재하지 않음 — 작은 병합, 엄격한 게이트, 폴리싱된 출력에 대한 무자비한 회의주의, 관측 가능성, 롤백 규율 같은 문화적 대응이 도움이 되지만, 문화는 일정 팀 규모를 넘으면 스케일링 불가
  • 이 문제를 해결하는 누군가가 향후 10년 진지한 소프트웨어 개발의 운영체제를 정의할 것

산업별 전환 속도 차이

  • 결정론적에서 확률적 엔지니어링으로의 전환은 균일하지 않으며, 산업과 위험 프로파일별로 계층화
  • 결정론적 계층

    • 항공전자, 의료기기, 금융 거래 인프라, 원자력 제어 시스템, 결제 네트워크 코어 등 고규제·고위험 도메인
    • 에이전트 지원을 공식 검증, 광범위한 시뮬레이션, 인간 서명 체인 뒤에서 신중하게 채택
    • 이는 상상력의 실패가 아니라 위험 수준에 대한 올바른 판단
  • 확률적 계층

    • 소비자 소프트웨어, 내부 도구, 마케팅 시스템, 대부분의 SaaS, 콘텐츠 인프라, 실험적·초기 단계 제품
    • 버그의 비용이 롤백·사과·핫픽스 수준이며, 대신 결정론적 세계가 구조적으로 따라올 수 없는 반복 속도 획득
    • 확률적 팀은 분기당 결정론적 경쟁자보다 10배 더 많이 학습 가능
  • 수렴 지대(Convergence Zone)

    • 모델이 더 스마트해지고 하네스가 개선되면서, "확률적으로 해도 충분히 안전한" 영역의 프론티어가 계속 이동
    • 보험, 헬스케어, 엔터프라이즈 인프라 일부 등 현재 결정론적으로 보이는 도메인에 확률적 방법이 아래에서부터 10%씩 침투
    • 확률적 엔지니어링의 선두는 결정론적 가드레일을 다시 구축 — 형식 검사, 검증된 크리티컬 경로, 확률적 생성이 결정론적 검증으로 경계 지어진 하이브리드 시스템
  • 향후 10년의 승자는 자신이 어느 계층에 있는지 아는 팀, 다른 계층에 있는 척하는 유혹에 저항하고 자체 스택 내 경계를 정밀하게 설정하는 팀

에이전트 함대(Agentic Fleet)

  • "공장 교대"는 적절한 비유가 아님 — 공장 노동자는 자동화되는 시스템이었지만 현재의 주체는 그것이 아님
  • 적절한 비유는 에이전트 함대 — 단, "함대"가 내포하는 질서·위계·신뢰성은 현실이 아직 갖추지 못한 수준
    • 실제로 대부분의 운영자가 실행하는 것은 잘 훈련된 해군보다는 취약한 계약자 떼에 가까움
    • 에이전트는 역량이 불균등하고, 행동이 확률적이며, 가끔 확신에 차서 틀리고, 대규모 실행 시 비용이 높음
    • 오케스트레이션 레이어가 깨지고, 컨텍스트 윈도우가 폭발하고, 추론 비용이 이사회에 보여주기 꺼리는 청구서에 등장
  • 그럼에도 함대 개념은 유효: 구성(다른 작업에 다른 에이전트), 조율(핸드오프, 의존성, 에스컬레이션), 지휘 구조(미션 결정, 교전 규칙, 결과 리뷰), 교대 근무(사령관이 자도 지시 범위 내에서 계속 작업하고 아침에 보고)
  • 좋은 함대의 정의는 생산량이 아니라 생산물의 일관성
  • 새로운 업무 형태:
    • 아침에 트리아지와 병합
    • 중간에 높은 레버리지의 인간 작업 — 고객 대화, 전략, 제품 결정, 야간 실행을 구동할 스펙 작성
    • 오후에 첫 에이전트들이 돌아오면 리뷰와 방향 재설정
    • 하루 끝에 이전 세대가 하지 않았던 것 — 핸드오프 — 작업을 큐에 넣고 에이전트 함대에 야간 시도할 스펙을 전달, 일부는 틀리고 일부는 빛날 것이며 그 차이를 판단하는 것이 오직 인간만 할 수 있는 작업

아직 출시되지 않은 모델을 위해 구축할 것

  • 지난 몇 년간 일관되게 강조해 온 포인트: 오늘 사용하는 모델이 앞으로 사용할 모델 중 가장 멍청한 모델
  • 단, 역량 성장이 매끄러울 것이라는 보장은 없음 — 비용, 지연 시간, 신뢰성, 스케일링 한계가 곡선을 복잡하게 만들 수 있음
  • 그러나 방향성 베팅은 인프라 레이어에서 관찰되는 것에 의해 잘 뒷받침됨: 프론티어 역량이 향후 6~12개월 내에 오늘을 의미 있게 초과할 것이며, 현재와 1년 후 최고 모델 간 격차는 작년과 올해 간 격차보다 더 클 가능성
  • 전략적 함의: 조직은 현재 모델이 아니라 아직 보유하지 않은 모델을 활용할 역량을 구축해야 함
    • 스펙 작성법, 리뷰 문화, 관측 가능성 배선, 에이전트 함대 운영, 주니어의 기술 유지를 위한 훈련 의식 — 이 모든 것이 2026년 역량이 아니라 2027~2028년을 위한 스캐폴딩
  • 이 스캐폴딩을 지금 구축하는 기업은 다음 역량 점프를 레버리지로 흡수, 도구가 성숙할 때까지 기다리는 기업은 얼리 무버가 이미 아는 것을 첫 1년간 학습하는 데 소비
  • 현 모델이 요구하는 것보다 스펙, 리뷰, 운영 규율에 과잉 투자할 의지 필요
  • 이 시대의 무관련성(irrelevancy)은 스스로 알리지 않음 — 1년 전에는 눈에 띄게 더 낫지 않았던 팀을 따라가지 못하는 점진적 무능력으로 도착

잃어버릴 근육

  • AI가 사회를 결정적으로 계층화하거나 대체로 민주화할 것이라는 전제 — 인간은 최소 저항 경로를 최적화하는 데 탁월
  • 핵심 명제: 직접 구축하지 않으면 구축된 것을 평가하는 능력도 잃음
  • 이미 현실화된 현상: 첫 주부터 AI에 의존한 주니어 엔지니어들이 빠르게 출시하고 폴리싱된 코드를 생산하지만, 모델이 예상하지 못한 방식으로 실패할 때 버그를 찾지 못함 — 새벽 2시에 스택 트레이스와 100번째 씨름하면서만 형성되는 시스템 내부 모델을 개발하지 못했기 때문
  • 취향(taste) 은 폴리싱된 초안에 승인을 누른다고 배울 수 없고, 판단력(judgment) 은 어려운 문제와 한 오후를 보내는 대신 머신의 그럴듯한 답을 5초 만에 수용한다고 개발되지 않으며, 장인정신(craft) 은 다른 에이전트의 작업을 리뷰한다고 획득되지 않음
  • 이것이 대부분의 조직이 아직 인식하지 못한 훈련 위기
    • 소프트웨어 엔지니어링의 도제 모델(주니어가 작은 것을 출시 → 시니어가 리뷰 → 주니어가 빨간 잉크를 통해 취향 흡수)이 붕괴 — 주니어는 에이전트를 통해 출시하고, 시니어는 인간 출력 대신 에이전트 출력을 리뷰
    • 다음 세대의 장인정신은 어디서 오는가? 반복 없이 취향을 어떻게 훈련하는가? 멘티가 처음부터 작성하지 않은 것에 대해 멘토링이 어떻게 대체되는가?
  • 대부분의 전통 조직에서 현재 세대의 시니어 엔지니어들은 구 방법론으로 완전히 훈련받은 마지막 코호트
  • 균형 잡힌 대응: 의도적이고 정기적으로, 중요한 무언가에 대해 함대 없이 어려운 방식으로 직접 수행 — 대부분의 동료가 그 근육을 유지하지 않을 것이며, 10년 후 그것이 차이를 만들 수 있음

불안한 부분

  • 이 에세이는 의도적으로 낙관론으로 귀결되지 않음 — 변화가 오지 않는 척하는 것은 도착을 막지 못함
  • 업무는 이미 영원히 바뀌었으며, AI의 속도에 맞춰 진화적이고 점진적
  • 인간이 진정으로 필요한 작업을 위해 낮을 되찾고, 머신이 항상 단순 노동이었던 작업을 위해 밤을 되찾을 것
  • 향후 몇 년간 발생 가능한 시나리오:
    • 리뷰 부담에 지친 직원 계층
    • 시스템이 필요로 하지만 보상하지 않는 분화된 역할 계층
    • 현재 시니어가 판단에 사용하는 장인정신을 개발하지 못하는 주니어 세대
    • 출력량을 작업 품질로 혼동하고 인시던트가 발생할 때까지 격차를 인식하지 못하는 팀
    • 다음 모델을 위한 운영 근육을 구축한 조직과 그렇지 않은 조직 사이의 계속 벌어지는 격차
  • 핵심 메시지: 아직 보유하지 않은 모델을 위한 조직을 구축하고, 때때로 어려운 것을 직접 만들어 방법을 기억하고, 야간 함대를 파견하고 작업이 진행되고 있음을 알며 잘 자되 — 돌아오는 것 중 일부가 더 이상 볼 수 있도록 훈련받지 못한 방식으로 틀릴 가능성에 깨어 있어야 함
  • 24/7 직원은 약속이 아니라 재배치이자 확률적 엔지니어링 미래에 대한 베팅 — 루프 안의 인간이 충분히 날카롭고, 정직하고, 잘 훈련되어 루프에 있을 가치가 있으며, 그 인간을 둘러싼 조직이 오늘의 모델이 아닌 아직 출시되지 않은 모델을 위해 구축되어 있다는 베팅
Read Entire Article