확률적 엔지니어링과 24/7 직원

2 hours ago 2

소프트웨어 개발이 결정론적 시스템에서 확률적 시스템으로 조용히 전환되고 있으며, AI 에이전트가 밤새 코드를 생성·리뷰·병합하는 시대에 개발자의 역할과 조직 구조가 근본적으로 변화 중
AI 네이티브 팀 내부에서 역할이 상위로 이동하는 동시에 하위로 분화되고 있으며, 에이전트 출력을 관리하는 단순 작업이 새로운 저임금 직군으로 고착될 위험 존재
코드 생성 비용이 제로에 수렴하면서 Jevons의 역설처럼 코드 생산량이 폭증하지만, 생성은 저렴해진 반면 검증은 저렴해지지 않은 비대칭이 핵심 과제
주니어 엔지니어들이 AI에 의존해 시작부터 폴리싱된 코드를 출력하면서 디버깅·판단력·장인정신의 훈련 위기가 이미 현실화
현재 모델이 앞으로 사용할 모델 중 가장 약한 모델이므로, 조직은 지금의 역량이 아닌 아직 출시되지 않은 미래 모델에 대비한 체계를 구축해야 함

확률적 엔지니어링으로의 전환

소프트웨어 업계는 수십 년간 결정론적 계약 위에 구축되어 왔음 — 코드를 작성하고, 테스트하고, 출시하면 작동한다는 보장이 있었음
이 계약이 깨지고 있으며, AI 네이티브 기업의 상위 운영자 사이에서 코드베이스는 "작동한다고 믿는" 것으로 변화, 정확한 확률을 더 이상 명시할 수 없는 상태
Compound Loop이라는 사이드 프로젝트를 구축한 경험이 그 계기 — 여러 프론티어 모델을 서로 대립시켜 코드를 자율적으로 작성·리뷰·병합하는 시스템
- 잠들기 전 실제 문제에 시스템을 실행하면, 아침에 전날 밤 존재하지 않았던 PR 스택을 트리아지하는 형태
- 일부는 우수하고, 일부는 오류가 있으며, 일부는 묻지 않았던 질문을 표면화
지식 노동 역사상 처음으로, 퇴근한 사람이 유일한 두뇌 복사본을 가져가지 않는 상황
9-9-6 개념은 사실상 사망했으며, 24/7 직원이란 24시간 일하는 사람이 아니라 에이전트가 대규모 병렬화로 작업하는 사람을 의미
2026년 대부분의 팀은 여전히 타이핑이 아닌 조율(coordination)에서 병목이 발생하고 있으며, 조직 재편은 아직 초기 단계

역할의 분화 — 상승과 하강 동시 발생

AI 네이티브 팀 내부에서는 "모두가 레벨업한다"는 깔끔한 서사보다 훨씬 복잡한 패턴 존재
상위 이동: 최고의 엔지니어는 더 효과적인 PM으로, 최고의 PM은 시스템 아키텍트로, 최고의 아키텍트는 유통·성장·시장 구조를 고민하는 방향으로 이동
- 이 그룹에게는 역사상 가장 레버리지 높은 업무 환경
하위 분화: 동시에 많은 엔지니어가 아키텍트가 되는 것이 아니라 스펙 작성자, 리뷰어, 에이전트 베이비시터로 전환
- 의도를 머신이 읽을 수 있는 프롬프트로 번역하고, 자신이 완전히 보유하지 못한 기준에 대해 머신의 작업을 채점하는 역할
- 일부는 중요한 작업이지만, 일부는 새로운 용어로 포장된 2026년판 데이터 입력
분화된 역할은 더 낮은 급여, 더 낮은 가치 평가, 다수의 경우 커리어 막다른 골목이 될 전망
에이전트 함대를 효과적으로 운영하는 상위 3분의 1과 출력물을 관리하는 중간층 사이의 급여 격차는 이전 시대의 엔지니어-영업 급여 격차보다 더 클 것
AI 인프라에서 커널 성능, 컴파일러 설계, 하드웨어 추상화는 여전히 방어 가능한 해자(moat)로 남아 있음 — 시스템 엔지니어링 최하위 레벨에서는 여전히 높은 결정론적 정확성 필요

Jevons의 역설 — 코드 버전

1865년 경제학자 William Stanley Jevons는 더 효율적인 증기기관이 석탄 소비를 줄이는 것이 아니라 더 늘렸다고 관찰 — 효율성이 엔진을 만들 가치가 있는 것의 범위를 확장
코드 작성 단위 비용이 제로에 수렴하면서 소프트웨어도 같은 현상을 겪고 있음 — 덜 작성하는 것이 아니라 훨씬 더 많이 작성하고 훨씬 더 많이 출시
스케일링 법칙이 무한하다고 믿는 기업들이 그에 맞춰 구축하고 있으며, 이들이 멱법칙 분포의 승자가 될 것
실제 현장에서 이미 벌어지고 있는 현상:
- 에이전트가 PR을 열고, 서로의 작업을 리뷰하고, 사람이 키보드를 만지지 않고 닫음
- 자가 치유 테스트 스위트가 기반 코드 변경 시 스스로 재작성
- 자율 실험 루프가 팀이 과거에 3개 실행할 동안 100개의 가설을 실행·측정·해체
- 문서가 병합 시 자동 업데이트되며 자기 개선하는 AI 스킬 활용
에이전트 중심으로 재구조화한 팀은 1년 전 대비 3배, 5배, 10배 출력을 달성하며, 곡선이 평탄해지는 것이 아니라 상승 중
Jevons의 두 번째 교훈: 공급이 폭발하면 선별(selection)이 곧 핵심
- 에이전트 함대를 올바른 문제로 지시하고, 출력에서 가치 있는 것을 필터링하고, 결과를 일관성 있는 것으로 통합하는 운영자가 현재 소프트웨어에서 가장 높은 레버리지의 작업 수행
- 작업의 가치는 더 이상 생산 노력이 아니라 방향 설정, 선별, 일관성으로 결정

결정론적 엔지니어링에서 확률적 엔지니어링으로

결정론적 엔지니어링은 대부분의 소프트웨어 역사를 지배한 계약 — 코드를 작성·테스트·리뷰하면 잘 이해된 범위 내에서 동작을 파악 가능, 버그는 재현 가능한 대상
확률적 엔지니어링은 이미 프론티어 팀에 도착 — 코드베이스 대부분이 확률적 시스템에 의해 생성되고, 시간 압박 속에서 리뷰되며, 단일 인간이 설계하지 않은 전체에 통합
핵심 비대칭: 생성은 저렴해졌지만 검증은 저렴해지지 않음
- 에이전트가 500줄 PR을 1분 안에 생성 가능하지만, 동시성 문제·스펙 오해석·의도와 다른 구현 같은 미묘한 버그를 잡는 데는 시니어 엔지니어가 1시간 이상 소요
- 리뷰는 생성보다 스케일링이 느리며, 출력량에 대해 선형보다 더 나쁘게 스케일링 — 더 많은 코드베이스가 에이전트에 의해 작성될수록 개별 조각을 평가하는 데 필요한 컨텍스트 증가
일정 규모를 넘으면 시스템이 인간이 신뢰할 수 있게 평가할 수 있는 것보다 더 많이 생산하며, 정확성이 확률적으로 변화
구체적 사례: 테스트 스위트를 10번 중 9번 통과하는 경합 조건, 스테이징에서는 완벽하지만 예상 못한 프롬프트 분포에서 실패하는 기능, 1만 행 중 1행을 조용히 손상시키며 3주 후에야 발견되는 마이그레이션
Proximal과 Modular가 프론티어 에이전트 시스템의 기본 작업 테스트에 대한 공동 연구를 발표했으며, 문서화된 실패 패턴이 이 현상과 직접 대응
실패 모드는 극적인 붕괴가 아니라 느리고 조용한 열화 — 생성 증가, 리뷰 품질 하락, 눈에 띄지 않는 결함 축적, 고객·감사·프로덕션 인시던트가 문제를 드러낼 때까지 신뢰의 조용한 침식
이 문제를 제대로 해결할 도구는 아직 존재하지 않음 — 작은 병합, 엄격한 게이트, 폴리싱된 출력에 대한 무자비한 회의주의, 관측 가능성, 롤백 규율 같은 문화적 대응이 도움이 되지만, 문화는 일정 팀 규모를 넘으면 스케일링 불가
이 문제를 해결하는 누군가가 향후 10년 진지한 소프트웨어 개발의 운영체제를 정의할 것

산업별 전환 속도 차이

결정론적에서 확률적 엔지니어링으로의 전환은 균일하지 않으며, 산업과 위험 프로파일별로 계층화
결정론적 계층
- 항공전자, 의료기기, 금융 거래 인프라, 원자력 제어 시스템, 결제 네트워크 코어 등 고규제·고위험 도메인
- 에이전트 지원을 공식 검증, 광범위한 시뮬레이션, 인간 서명 체인 뒤에서 신중하게 채택
- 이는 상상력의 실패가 아니라 위험 수준에 대한 올바른 판단
확률적 계층
- 소비자 소프트웨어, 내부 도구, 마케팅 시스템, 대부분의 SaaS, 콘텐츠 인프라, 실험적·초기 단계 제품
- 버그의 비용이 롤백·사과·핫픽스 수준이며, 대신 결정론적 세계가 구조적으로 따라올 수 없는 반복 속도 획득
- 확률적 팀은 분기당 결정론적 경쟁자보다 10배 더 많이 학습 가능
수렴 지대(Convergence Zone)
- 모델이 더 스마트해지고 하네스가 개선되면서, "확률적으로 해도 충분히 안전한" 영역의 프론티어가 계속 이동
- 보험, 헬스케어, 엔터프라이즈 인프라 일부 등 현재 결정론적으로 보이는 도메인에 확률적 방법이 아래에서부터 10%씩 침투
- 확률적 엔지니어링의 선두는 결정론적 가드레일을 다시 구축 — 형식 검사, 검증된 크리티컬 경로, 확률적 생성이 결정론적 검증으로 경계 지어진 하이브리드 시스템
향후 10년의 승자는 자신이 어느 계층에 있는지 아는 팀, 다른 계층에 있는 척하는 유혹에 저항하고 자체 스택 내 경계를 정밀하게 설정하는 팀

에이전트 함대(Agentic Fleet)

"공장 교대"는 적절한 비유가 아님 — 공장 노동자는 자동화되는 시스템이었지만 현재의 주체는 그것이 아님
적절한 비유는 에이전트 함대 — 단, "함대"가 내포하는 질서·위계·신뢰성은 현실이 아직 갖추지 못한 수준
- 실제로 대부분의 운영자가 실행하는 것은 잘 훈련된 해군보다는 취약한 계약자 떼에 가까움
- 에이전트는 역량이 불균등하고, 행동이 확률적이며, 가끔 확신에 차서 틀리고, 대규모 실행 시 비용이 높음
- 오케스트레이션 레이어가 깨지고, 컨텍스트 윈도우가 폭발하고, 추론 비용이 이사회에 보여주기 꺼리는 청구서에 등장
그럼에도 함대 개념은 유효: 구성(다른 작업에 다른 에이전트), 조율(핸드오프, 의존성, 에스컬레이션), 지휘 구조(미션 결정, 교전 규칙, 결과 리뷰), 교대 근무(사령관이 자도 지시 범위 내에서 계속 작업하고 아침에 보고)
좋은 함대의 정의는 생산량이 아니라 생산물의 일관성
새로운 업무 형태:
- 아침에 트리아지와 병합
- 중간에 높은 레버리지의 인간 작업 — 고객 대화, 전략, 제품 결정, 야간 실행을 구동할 스펙 작성
- 오후에 첫 에이전트들이 돌아오면 리뷰와 방향 재설정
- 하루 끝에 이전 세대가 하지 않았던 것 — 핸드오프 — 작업을 큐에 넣고 에이전트 함대에 야간 시도할 스펙을 전달, 일부는 틀리고 일부는 빛날 것이며 그 차이를 판단하는 것이 오직 인간만 할 수 있는 작업

아직 출시되지 않은 모델을 위해 구축할 것

지난 몇 년간 일관되게 강조해 온 포인트: 오늘 사용하는 모델이 앞으로 사용할 모델 중 가장 멍청한 모델
단, 역량 성장이 매끄러울 것이라는 보장은 없음 — 비용, 지연 시간, 신뢰성, 스케일링 한계가 곡선을 복잡하게 만들 수 있음
그러나 방향성 베팅은 인프라 레이어에서 관찰되는 것에 의해 잘 뒷받침됨: 프론티어 역량이 향후 6~12개월 내에 오늘을 의미 있게 초과할 것이며, 현재와 1년 후 최고 모델 간 격차는 작년과 올해 간 격차보다 더 클 가능성
전략적 함의: 조직은 현재 모델이 아니라 아직 보유하지 않은 모델을 활용할 역량을 구축해야 함
- 스펙 작성법, 리뷰 문화, 관측 가능성 배선, 에이전트 함대 운영, 주니어의 기술 유지를 위한 훈련 의식 — 이 모든 것이 2026년 역량이 아니라 2027~2028년을 위한 스캐폴딩
이 스캐폴딩을 지금 구축하는 기업은 다음 역량 점프를 레버리지로 흡수, 도구가 성숙할 때까지 기다리는 기업은 얼리 무버가 이미 아는 것을 첫 1년간 학습하는 데 소비
현 모델이 요구하는 것보다 스펙, 리뷰, 운영 규율에 과잉 투자할 의지 필요
이 시대의 무관련성(irrelevancy)은 스스로 알리지 않음 — 1년 전에는 눈에 띄게 더 낫지 않았던 팀을 따라가지 못하는 점진적 무능력으로 도착

잃어버릴 근육

AI가 사회를 결정적으로 계층화하거나 대체로 민주화할 것이라는 전제 — 인간은 최소 저항 경로를 최적화하는 데 탁월
핵심 명제: 직접 구축하지 않으면 구축된 것을 평가하는 능력도 잃음
이미 현실화된 현상: 첫 주부터 AI에 의존한 주니어 엔지니어들이 빠르게 출시하고 폴리싱된 코드를 생산하지만, 모델이 예상하지 못한 방식으로 실패할 때 버그를 찾지 못함 — 새벽 2시에 스택 트레이스와 100번째 씨름하면서만 형성되는 시스템 내부 모델을 개발하지 못했기 때문
취향(taste) 은 폴리싱된 초안에 승인을 누른다고 배울 수 없고, 판단력(judgment) 은 어려운 문제와 한 오후를 보내는 대신 머신의 그럴듯한 답을 5초 만에 수용한다고 개발되지 않으며, 장인정신(craft) 은 다른 에이전트의 작업을 리뷰한다고 획득되지 않음
이것이 대부분의 조직이 아직 인식하지 못한 훈련 위기
- 소프트웨어 엔지니어링의 도제 모델(주니어가 작은 것을 출시 → 시니어가 리뷰 → 주니어가 빨간 잉크를 통해 취향 흡수)이 붕괴 — 주니어는 에이전트를 통해 출시하고, 시니어는 인간 출력 대신 에이전트 출력을 리뷰
- 다음 세대의 장인정신은 어디서 오는가? 반복 없이 취향을 어떻게 훈련하는가? 멘티가 처음부터 작성하지 않은 것에 대해 멘토링이 어떻게 대체되는가?
대부분의 전통 조직에서 현재 세대의 시니어 엔지니어들은 구 방법론으로 완전히 훈련받은 마지막 코호트
균형 잡힌 대응: 의도적이고 정기적으로, 중요한 무언가에 대해 함대 없이 어려운 방식으로 직접 수행 — 대부분의 동료가 그 근육을 유지하지 않을 것이며, 10년 후 그것이 차이를 만들 수 있음

불안한 부분

이 에세이는 의도적으로 낙관론으로 귀결되지 않음 — 변화가 오지 않는 척하는 것은 도착을 막지 못함
업무는 이미 영원히 바뀌었으며, AI의 속도에 맞춰 진화적이고 점진적
인간이 진정으로 필요한 작업을 위해 낮을 되찾고, 머신이 항상 단순 노동이었던 작업을 위해 밤을 되찾을 것
향후 몇 년간 발생 가능한 시나리오:
- 리뷰 부담에 지친 직원 계층
- 시스템이 필요로 하지만 보상하지 않는 분화된 역할 계층
- 현재 시니어가 판단에 사용하는 장인정신을 개발하지 못하는 주니어 세대
- 출력량을 작업 품질로 혼동하고 인시던트가 발생할 때까지 격차를 인식하지 못하는 팀
- 다음 모델을 위한 운영 근육을 구축한 조직과 그렇지 않은 조직 사이의 계속 벌어지는 격차
핵심 메시지: 아직 보유하지 않은 모델을 위한 조직을 구축하고, 때때로 어려운 것을 직접 만들어 방법을 기억하고, 야간 함대를 파견하고 작업이 진행되고 있음을 알며 잘 자되 — 돌아오는 것 중 일부가 더 이상 볼 수 있도록 훈련받지 못한 방식으로 틀릴 가능성에 깨어 있어야 함
24/7 직원은 약속이 아니라 재배치이자 확률적 엔지니어링 미래에 대한 베팅 — 루프 안의 인간이 충분히 날카롭고, 정직하고, 잘 훈련되어 루프에 있을 가치가 있으며, 그 인간을 둘러싼 조직이 오늘의 모델이 아닌 아직 출시되지 않은 모델을 위해 구축되어 있다는 베팅