TL;DR
리뷰를 집중적으로 해야 하는 하네스 — 코드 리뷰, 문서 리뷰, UX 리서치, 인터뷰 시뮬레이션 — 에서는 5명의 리뷰어가 5개의 다른 관점을 가져야 가치가 있다. 일반 AI 에이전트 팀은 5명이 모두 비슷한
톤·관점이라 사실상 1명의 의견이 5번 반복됨.
이 포크는 NVIDIA Nemotron-Personas-Korea(100만 행, CC BY 4.0)를 런타임 동적 검색으로 끌어와, 한국 직장의 실재 인물(직무·세대·지역·가족 상황까지)을 에이전트에 입혀서 진짜 다른 관점의 리뷰를
만든다.
왜 리뷰 하네스에 페르소나 깊이가 필요한가
같은 코드/문서/디자인을 봐도 사람마다 다른 관점을 갖는다:
-
45세 SI 출신 백엔드 팀장
→ "리스크 관리 차원에서 단계별 배포로 가시죠. 검증 충분히 하고 가는 게 결국 일정 단축이 됩니다." -
24세 MZ 그로스 마케터
→ "수치 튀었을 때 원인 가설 빠르게 세우는 자세 좋은데, 유의수준이 좀 약해요. A/B 더 돌려볼까요?" -
38세 워킹맘 PM
→ "결론적으로 이번 분기 안에 못 가는 거면, 우선순위 조정 한번 부탁드릴게요." -
27세 핀테크 출신 디자이너
→ "사용자 인터뷰 정성 데이터에서 '쿠폰 받는 순간이 좀 밋밋하다'는 코멘트가 반복되더라구요."
→ 같은 코드를 봐도 4명이 다른 리스크/가치/우선순위를 잡는다. 이게 리뷰 팀의 본질.
무엇이 추가되었나 (3개 신규 스킬, 비침습)
기존 revfactory/harness는 변경 없이, description 키워드로 자동 트리거 분기:
- korean-persona-search — Parquet predicate pushdown 다축 필터(직무·지역·연령·학력·세대) + 다양성 샘플링
- korean-voice-adapter — 합쇼/해요 매트릭스 + 한국 직장 문화(보고 라인·회의 매너·우회 표현) + 13개 산업 어휘 사전
- korean-persona-harness — 메타 오케스트레이터 (서브 에이전트 5인 파이프라인: 시나리오 분석가 → 퍼소나 큐레이터 → 화법 어댑터 → 에이전트 빌더 → 다양성 QA)
Claude Code + Codex CLI 양쪽 호환 — SKILL.md 포맷 동일, 데이터셋 캐시 공유.
검증 — 같은 LLM, 같은 작업, 같은 분량 (102줄 vs 103줄)
5인 팀 주간 스탠드업 회의록 시뮬레이션. 도메인 정확도는 동등. 차이는 관점의 다양성에서 나타난다.
일반 harness 결과:
- 음성 식별성: 낮음 (5명이 거의 같은 톤)
- 한국 직장 매너: 미미
- 상호 응답·격려·답례: 0회
- 부탁/컨펌 톤: 5회
- 개인 사정 노출: 0건
korean-persona-harness 결과:
- 음성 식별성: 매우 높음 (이름 가리고도 식별 가능)
- 한국 직장 매너: 풍부 (단정 회피·멘토링·컨펌 톤)
- 상호 응답·격려·답례: 4회
- 부탁/컨펌 톤: 11회
- 개인 사정 노출: 2건 (가족 일정·권한 호소)
Run B에만 등장한 인간적 디테일:
백엔드(두 아이 아빠): "다음 주에는 제가 아이 일정이 좀 있어서 로테이션 한 번 사전에 정리해 두면 어떨까 싶습니다."
- 한국 직장 매너: 미미
- 한국 직장 매너: 미미
- 상호 응답·격려·답례: 0회
- 부탁/컨펌 톤: 5회
- 개인 사정 노출: 0건
korean-persona-harness 결과:
- 음성 식별성: 매우 높음 (이름 가리고도 식별 가능)
- 한국 직장 매너: 풍부 (단정 회피·멘토링·컨펌 톤)
- 상호 응답·격려·답례: 4회
- 부탁/컨펌 톤: 11회
- 개인 사정 노출: 2건 (가족 일정·권한 호소)
Run B에만 등장한 인간적 디테일:
백엔드(두 아이 아빠): "다음 주에는 제가 아이 일정이 좀 있어서 로테이션 한 번 사전에 정리해 두면 어떨까 싶습니다."
팀장(45세) → 마케터(24세): "수치 튀었을 때 원인 가설 빠르게 세우는 자세, 계속 그렇게 가시면 됩니다."
마케터: "아, 감사합니다 팀장님!"
팀장: "다만 우리 쪽 재시도 정책이 너무 공격적으로 동작해서 장애가 일부 증폭된 정황이 있습니다. 단정은 RCA 최종본에서 짓겠습니다."
→ 가족·세대·직무 페르소나가 발화에 자연스럽게 결합. 추상적 "안정성 우선"이 아니라 왜 이 사람이 이 우선순위를 가지는지가 행동에 묻어남.
가치 매트릭스 — 어디서 쓸 만한가
- 코드 리뷰 (5명 다른 관점) → 매우 높음
- 가상 사용자 인터뷰 시뮬레이션 → 매우 높음
- 한국 사용자용 마케팅 카피 리뷰 → 매우 높음
- UX 리서치·페르소나 워크숍 → 높음
- 회의록·협업 시뮬레이션 → 높음
- RFC·기술 문서 → 보통
- 인프라·아키텍처 설계 → 낮음 (기본 harness가 적합)
설치 (1줄)
Claude Code:
/plugin marketplace add hongsw/harness /plugin install harness@harnessCodex CLI:
python3 ~/.codex/skills/.system/skill-installer/scripts/install-skill-from-github.py \ --repo hongsw/harness \ --path skills/korean-persona-search \ --path skills/korean-voice-adapter \ --path skills/korean-persona-harness데이터셋 캐시 (양 런타임 공유):
pip install huggingface_hub pyarrow python3 $SKILL_DIR/korean-persona-search/scripts/download.py⚠️ 주의: 기존 revfactory/harness 설치자는 마켓플레이스·플러그인 이름이 같아 4단계 마이그레이션 필요:
/plugin uninstall harness@harness /plugin marketplace remove harness-marketplace /plugin marketplace add hongsw/harness /plugin install harness@harness링크
- 포크 리포: github.com/hongsw/harness
- 업스트림 PR #9 (머지 대기): github.com/revfactory/harness/pull/9
- 검증 산출물: _workspace/comparison_test
- 데이터셋: huggingface.co/.../Nemotron-Personas-Korea (CC BY 4.0)
- 원본 Harness: github.com/revfactory/harness

2 weeks ago
8

!["아아 팔아 갖고는"…치킨·볶음밥까지 내놓은 커피전문점 '속사정' [트렌드+]](https://img.hankyung.com/photo/202604/01.43949627.1.jpg)






English (US) ·