루프 엔지니어링의 미학 (The Art of Loop Engineering)

2 hours ago 2

에이전트를 안정적으로 유용한 작업에 활용하려면 좋은 모델만으로는 부족하며, 작업 집합에 맞게 설계된 하네스(harness) 가 필요함
가장 기본이 되는 에이전트 루프는 LLM에 컨텍스트를 주고 작업이 끝날 때까지 도구를 반복 호출하는 구조
여기에 검증 루프, 이벤트 기반 루프, 힐 클라이밍 루프를 쌓아 올리는(stacking) 방식으로 더 효과적인 에이전트를 구성
각 루프 계층은 LangChain 프리미티브로 계측(instrument)할 수 있으며, 내부 문서 작성 에이전트를 예시로 설명
진정한 잠재력은 모델 자체가 아니라 에이전트를 둘러싸고 구축하는 루프에 있음

Loop 1: 에이전트 루프

에이전트는 본질적으로 작업이 완료될 때까지 도구를 반복 호출하는 모델
LangChain의 create_agent가 이 루프를 제공하며, 모델을 고르고 도구(tools) 를 연결하면 동작하는 에이전트 루프가 완성
- 도구는 에이전트가 현실 세계에서 행동을 취할 수 있게 하는 요소
내부 문서 에이전트 예시에서, 첫 루프 단계는 문서 개선 요청을 받아 모델이 변경 사항을 계획·초안 작성하고, repo 클론·파일 읽기·문서 작성·풀 리퀘스트(pull request) 열기 등에 도구를 사용

Level 2: 검증 루프

에이전트 루프는 작업을 처리하지만 첫 시도에서 항상 정확하거나 일관된 결과를 내지는 않으며, 일관성이 중요할 때 출력을 점검하고 미흡하면 피드백을 모델로 되돌리는 검증 루프로 감쌈
검증 루프는 그레이더(grader) 를 추가해 에이전트 출력을 루브릭(rubric)에 대조하고, 실패 시 피드백과 함께 결과를 되돌림
- 그레이더는 결정론적이거나 에이전트형일 수 있으며, LLM as a judge가 전형적 예시
- RubricMiddleware가 이 패턴을 처리하거나, create_agent의 after_agent 훅으로 연결 가능
문서 작성 예시에서 그레이더는 각 시도 후 테스트를 실행해 모든 링크 정상 작동, 모든 CI 체크 통과, diff가 요청 범위에 한정됐는지 확인하여 수동 리뷰 없이 오류 유형을 포착
검증 추가는 실행당 지연 시간과 비용을 늘리지만, 속도보다 품질이 중요한 대부분의 프로덕션 용도에서는 가치가 있음

Level 3: 이벤트 기반 루프

에이전트 개발에서 가장 중요한 부분 중 하나는 통합 계층(integrations layer) 으로, 에이전트를 생태계에 연결해 백그라운드에서 실행되도록 함
이벤트 기반 루프는 새 문서 도착, 스케줄 발동, 웹훅 도착 같은 이벤트가 발생하면 에이전트를 실행
- 에이전트는 수동으로 호출하는 대상이 아니라, 더 큰 시스템 안에서 지속적으로 동작하는 구성 요소
LangSmith Deployment가 트리거 인프라를 지원하며, cron 스케줄과 웹훅을 지원
- cron 활용의 인기 예시는 openclaw의 heartbeats로, 에이전트를 항상 켜져 있는 능동형 어시스턴트로 전환
문서 에이전트는 노코드 에이전트 빌더 Fleet로 구동되며, Fleet의 channels와 schedules가 이벤트 기반·cron 트리거를 처리
- #docs-plz Slack 채널에 메시지가 오면 채널을 통해 문서 에이전트를 실행

Level 4: 힐 클라이밍 루프

앞의 세 루프가 작업을 자동화한다면, 네 번째 루프는 개선(improvement) 자체를 자동화
모든 에이전트 실행은 모델의 행동, 호출한 도구, 그레이더 피드백 등을 기록한 트레이스(trace) 를 생성하며, 이 트레이스에는 무엇이 작동하고 무엇이 안 되는지에 대한 높은 가치의 신호가 담김
힐 클라이밍 루프는 트레이스에 대해 분석 에이전트를 실행하고, 그 결과로 하네스 구성을 개선된 설정으로 재작성
- 여기에는 프롬프트/도구 조정이나 그레이더 조정이 포함
- LangSmith에서는 트레이스 분석 에이전트 Engine으로 이 네 번째 루프를 계측
문서 에이전트 예시에서 engine을 트레이스에 실행해 문제를 감지하며, 여러 트레이스가 잠재적 문제를 신호하면 문제되는 프롬프트나 도구의 변경을 요청하는 이슈가 등록
핵심은 반환 화살표가 단순히 맨 위로 되돌아가는 것이 아니라, 내부로 들어가 에이전트 루프를 직접 갱신한다는 점이며, 외부 루프의 각 주기가 내부 루프를 더 효과적으로 만듦
향후 전망
- 프롬프트와 도구 구성이 가장 개선하기 쉽지만 유일한 선택지는 아니며, 오픈 웨이트 모델을 운영하는 팀은 힐 클라이밍 루프를 RL 파인튜닝에 연결해 트레이스나 평가 결과를 학습 신호로 삼아 모델 자체를 개선 가능
- 메모리, 검색된 스킬 같은 보조 컨텍스트도 같은 방식으로 개선 가능하며, 루프는 패턴이고 무엇을 최적화할지는 사용자에게 달림

사람의 감독과 전문성

자동화가 사람을 루프에서 제거하는 것을 뜻하지는 않으며, 모든 계층에 사람의 감독이 가치를 더하는 지점이 존재
- 자동 그레이더는 링크가 정상 작동하는지 확인할 수 있지만, 대상 독자에게 프레이밍이 잘못됐음을 알아채는 것은 사람의 몫이며, 맥락·경험·안목에서 나오는 판단이 사람 리뷰가 필요한 지점
일부 전문성은 프롬프트/도구 자체에 코드화해야 하지만, 금융 거래나 DB 작업 같은 민감한 행동에는 실시간 사람 리뷰가 필수
LangChain은 모든 루프에서 이 접점을 계측하기 쉽게 지원
- 에이전트 루프: 민감한 행동/도구 호출 전 사람 입력 요구
- 검증 루프: 민감한 워크플로에서 사람이 그레이더 역할 수행
- 애플리케이션 루프: 최종 사용자에게 반환 전 사람이 출력을 승인
- 힐 클라이밍 루프: 배포 전 하네스 개선을 사람 리뷰로 통과
모든 LangChain 오픈소스 프레임워크는 human in the loop을 일급 프리미티브로 제공

종합 정리

네 개의 루프가 쌓이는 방식 요약
- 에이전트 루프: 작업 완료까지 모델이 도구를 반복 호출 → 작업 자동화, 프리미티브는 create_agent 및 LangChain 지원 모델
- 검증 루프: 출력을 루브릭으로 채점하고 실패 시 피드백과 함께 재시도 → 작업 품질·정확성 보장, 프리미티브는 RubricMiddleware
- 이벤트 기반 루프: 이벤트가 실제 시스템을 갱신하는 에이전트 실행을 트리거 → 대규모 작업 자동화, 프리미티브는 cron 트리거/웹훅 기반 LangSmith Deployment 또는 Fleet channels
- 힐 클라이밍 루프: 프로덕션 실행 트레이스가 분석 에이전트를 통해 하네스 구성을 개선 → 하네스 개선, 프리미티브는 LangSmith Engine
이것이 swyx가 말하는 loopcraft, 즉 실제 루프 엔지니어링의 모습이며, Steipete·Boris·Andrej 같은 리더들도 에이전트의 잠재력이 그것을 둘러싸고 구축하는 루프에 있다는 동일한 결론에 도달
루프 1·2는 오랫동안 다뤄왔으나, 이제 초점은 에이전트를 생태계에 내장해 기준에 따라 지속 개선되며 가치가 복리로 쌓이는 루프 3·4로 전환되어야 함
Satya는 조직 차원의 이해관계를 짚으며, 사람의 판단과 토큰 자본이 함께 복리로 쌓이는 학습 루프를 일찍 구축하는 기업이 복제하기 어려운 우위를 확보한다고 언급