NVIDIA Nemotron-Personas-Korea - 대한민국 실제 인구 분포 기반 100만 건 합성 페르소나 데이터셋

2 weeks ago 9

대한민국 통계청, 대법원, 국민건강보험공단 등 공공 데이터를 기반으로 실제 인구통계·지리·성격 분포를 반영한 최초의 대규모 한국어 페르소나 데이터셋
100만 건 레코드에 700만 개 페르소나를 포함하며, 이름·성별·나이·혼인 상태·교육 수준·직업·거주 지역 등 26개 필드로 구성
엔터프라이즈급 합성 데이터 생성 시스템인 NeMo Data Designer와 google/gemma-4-31B-it 모델을 활용해 제작
기존 페르소나 데이터셋 대비 고령층, 농촌 지역, 다양한 학력·직업 분포를 더 충실히 반영해 소버린 AI 모델의 편향 완화에 기여
CC BY 4.0 라이선스로 상업적·비상업적 용도 모두 자유롭게 사용 가능

기존 LLM이 생성하는 한국 페르소나의 문제점

페르소나란 개인의 고유한 특성·관심사·성격·직업 등에 대한 묘사이며, 페르소나가 모여 있는 데이터셋은 해당 집단의 문화적·분포적 특성을 올바르게 반영해야 함
외국 LLM에 "한국 사회의 현실적이고 다양한 인물 프로필을 생성하라"고 프롬프트를 주어도 결과는 심각하게 왜곡됨
- 생성된 페르소나의 40%가 샐러드를 가장 좋아하는 음식으로 선택하거나, "경상북도 안동시에서 사과 과수원을 운영합니다" 같은 비현실적 결과 산출
Claude Opus 4.7로 우리나라 페르소나 2천 개를 무작위 샘플링한 결과, 직업 분포에서 77.6%가 "유자 재배 농민" 으로 생성되는 극단적 편향 확인
GPT-5.4의 경우 90.1%가 "요양보호사" 로 생성
도시 분포, 가족 형태, 주거 점유 형태, 음식 선호도 등 모든 측면에서 우리나라 실정과 맞지 않는 편향이 존재

데이터셋 개요 및 목적

대한민국 인구의 다양성과 특성을 폭넓게 반영하도록 설계된 오픈소스 합성 페르소나 데이터셋
우리말로 누구나 쉽게 읽을 수 있게 작성
소버린 AI 시스템 구축 시 학습 데이터의 결측 데이터 및 잠재적 편향을 완화하는 것이 주요 목표
합성 데이터 생성에 사용되는 기존 페르소나 데이터셋의 편향, 특히 나이·지역·교육 수준·직업 축에서의 편향 해소에 초점

데이터 소스 및 제작 방식

KOSIS(통계청 국가통계포털)의 성별, 지역, 산업, 직업, 여행, 여가생활 관련 인구조사 데이터 활용
대법원의 출생연도·성별·이름 데이터, 국민건강보험공단의 건강검진 정보, 농촌경제연구원의 식품소비행태조사 결과 활용
NAVER Cloud가 설계 단계에서 초기 데이터와 도메인 전문 지식 제공
독자적인 확률적 그래프 모델(PGM) 과 Apache-2.0 라이선스인 google/gemma-4-31B-it 모델, 그리고 NeMo Data Designer의 검증·평가 방법 사용
이름·나이·성별·지역·혼인·가족·주거·학력·전공분야·경제활동·소득·산업군·직업군·혈압·혈당·허리둘레·BMI·여행·여가생활·선호 식당 종류·배달 및 외식 빈도 등 포괄
모든 데이터는 실제 분포를 반영하되 완전히 인공적으로 합성되었으며, 실존 인물과의 유사성은 우연에 의한 것

데이터셋 규모 및 구성

총 17억 개 토큰(페르소나 10억 개 토큰)으로 구성된 100만 건 레코드
26개 필드: 7개 페르소나 필드, 6개 페르소나 속성 필드, 12개 인구통계·지리 컨텍스트 필드, 1개 고유 식별자
17개 시도, 252개 시군구의 포괄적 행정구역 커버리지
20만 9천여 개 고유 성명 조합 (118개 성씨, 2만 1,400개 이름)
7가지 페르소나 유형: 직업, 스포츠, 예술, 여행, 음식, 가족, 요약
추가 페르소나 속성: 문화적 배경, 기술 및 전문성, 경력 목표·포부, 취미·관심사

이름 분포

현재 우리나라에서 공개된 이름 데이터는 2008년 이후로만 한정
Nemotron-Personas-Korea는 최초로 1940년부터의 우리나라 이름 전수 데이터를 기반으로 한 공개 데이터셋
"82세 김하율씨?" "21세 김순자씨?" 같은 시대상에 맞지 않는 이름 배정 문제 해결
성씨 분포는 김(21.5%), 이(14.7%), 박(8.5%), 정(4.8%), 최(4.7%) 등 상위 5개 성이 전체의 약 54% 차지
이름은 성별과 출생 연도에 따라 세대별 작명 경향 반영
- 여성: 영숙·정숙·순자 등 고연령대 이름과 지영·유진·지현 등 젊은 세대 이름이 공존
- 남성: 지훈·현우·준호 등 현대적 이름이 상위 차지
가장 빈번한 전체 이름은 김영숙으로, 실제 조사결과와 일치

연령 분포

중간이 볼록한 항아리형 구조로, 저출산·고령화가 동시에 진행되는 현재 인구 구조를 충실히 반영
가장 두꺼운 구간은 50~64세(비중 약 0.09)로, 1960~70년대 베이비붐 세대에 해당
70세 이상 고령층에서 여성 비중이 남성보다 뚜렷하게 큼
- 80~89세 구간에서 여성 비율이 남성의 약 1.52배

혼인 상태 분포

미혼 비율은 19~24세에서 95% 이상, 30대에서 55%→31%로 감소하여 평균 초혼 연령 31~33세의 만혼 추세와 일치
유배우자 비율은 35세부터 64%로 상승, 50대 후반 78% 에서 정점
사별은 60대부터 급증해 80대 후반 66%, 90대 74~81% 도달
이혼은 50대~60대 초반에서 약 12% 로 가장 높아 황혼 이혼 추세 부합

가구 유형 분포

전 연령대에서 부부+미혼자녀 가구가 가장 높은 비중, 19세에서 63.6%로 최고치
50대 이후 부부 가구가 급증해 65~69세에서 45.7% 정점
1인가구는 20대 초반(15~22%)과 75세 이후(21~32%)에서 이중 봉우리 패턴
모+미혼자녀 가구(5~14%)가 부+미혼자녀(2~5%)보다 높아 한부모 가구의 성별 비대칭 확인

학력 수준 분포

20~34세 젊은 세대는 4년제 대학 졸업 비율 50% 초과, 전문대 포함 시 약 75%가 대학 이상 학력 보유
80세 이상에서는 무학(36%)과 초등학교(37%)가 전체의 73% 차지
지역별로 세종(49.0%), 서울(45.1%), 대전(39.7%) 순으로 학사 이상 비율이 높음
- 세종은 정부세종청사 이전에 따른 고학력 공무원·연구직 유입 영향

직업 분포

전문가와 사무직이 가장 큰 비중으로, 서비스·지식 기반 경제 구조 반영
판매직에서 온라인 쇼핑 판매원(19.8%)이 1위로, 높은 전자상거래 비중 확인
단순노무에서 건물 경비원(21.3%)과 건물 청소원(16.0%) 집중
군인은 전체 취업자의 약 1% 이며 육군이 2/3 이상 차지

기술적 제약 및 한계

공개 데이터 가용성·시의성·PGM 모델의 현실적 제약으로 인해 특정 변수 간 독립성 가정 적용
- 예: 세부 직업 배정 시 성별, 소득, 학력, 전공 등이 독립적으로 영향을 미친다고 가정하며 교호작용 미반영
젠더(gender) 에 대한 포괄적 통계는 국내 공공 데이터에 존재하지 않아 미반영
만 19세 이상 성인 페르소나만 포함
금융, 헬스케어 등 엔터프라이즈 고객 관련 페르소나는 제외

LLM 의존 방식 대비 개선 결과

LLM에만 의존 시 도시 분포가 순천시·창원시 등에 편중되었으나, Nemotron-Personas-Korea는 경기 화성시·남양주시·서울 송파구 등 실제 인구 비례 분포 반영
가족 형태는 1인가구 일변도에서 배우자 동거·배우자+자녀 동거·부모 동거 등 다양한 형태로 확장
주거 점유 형태도 자가 100%에서 자가와 임차의 실제 비율 반영
음식 분포도 샐러드 일변도에서 비빔밥·일식·치킨·갈비·삼겹살·떡볶이·분식·빵·된장찌개·짜장면 등 실제 식문화 반영

문화 반영 사례

"퇴근길 동료들과 삼겹살에 소주를 곁들이며 하루의 피로를 푸는 33세 캥거루족 정준 씨" — 서울 송파구 거주, 4년제 대학교, 미혼, 부모 동거 등 한국 사회의 캥거루족 현상 반영
"심수봉 노래, 가족 단체 채팅방에 사진 올리기를 좋아하는 울산의 73세 김춘희 씨" — 여자, 무학, 배우자 있음, 무직 등 고령 여성 인구 반영

페르소나 데이터셋이 LLM에 도움이 되는 이유

사람은 각기 고유의 지식을 보유하며, 페르소나는 이런 고유의 지식을 함축시킨 표현형
- 예: 전기 기사 페르소나는 전기 관련 지식을 LLM으로부터 끌어낼 수 있는 매개체
합성 데이터에서 다양성이 매우 중요한 지표이며, 사람이 바로 가장 좋은 다양성의 원천
"{주어진 페르소나}와 관련된 논리적 추론 문제를 만들어봐" 형태로 페르소나별 다양한 합성 학습 데이터 생성 가능

실제 활용 사례

일반적인 툴 사용 성능 향상: 사용자-LLM에게 tool set과 페르소나를 함께 주어 데이터 합성 및 학습. Nemotron-Nano-9B-v2-Japanese가 해당 방법론을 차용해 Nejumi 리더보드 1위 달성. 비슷한 방법을 Nemotron Nano v3와 Super v3에도 도입
모델 안전성 향상: Sensitive-safety-category-refusals(SSCR) 데이터셋의 시드 데이터로 활용. SSCR 데이터셋은 nemotron-safety-blend에 포함

사용 방법 및 라이선스

Python datasets 라이브러리로 load_dataset("nvidia/Nemotron-Personas-Korea") 호출하여 로드 가능
CC BY 4.0 라이선스로 상업적·비상업적 용도 모두 자유 사용 가능
NeMo Data Designer에서 직접 사용할 수 있는 확장 버전도 별도 제공

Read Entire Article