NVIDIA Nemotron-Personas-Korea - 대한민국 실제 인구 분포 기반 100만 건 합성 페르소나 데이터셋

2 weeks ago 9
  • 대한민국 통계청, 대법원, 국민건강보험공단 등 공공 데이터를 기반으로 실제 인구통계·지리·성격 분포를 반영한 최초의 대규모 한국어 페르소나 데이터셋
  • 100만 건 레코드에 700만 개 페르소나를 포함하며, 이름·성별·나이·혼인 상태·교육 수준·직업·거주 지역 등 26개 필드로 구성
  • 엔터프라이즈급 합성 데이터 생성 시스템인 NeMo Data Designer와 google/gemma-4-31B-it 모델을 활용해 제작
  • 기존 페르소나 데이터셋 대비 고령층, 농촌 지역, 다양한 학력·직업 분포를 더 충실히 반영해 소버린 AI 모델의 편향 완화에 기여
  • CC BY 4.0 라이선스로 상업적·비상업적 용도 모두 자유롭게 사용 가능

기존 LLM이 생성하는 한국 페르소나의 문제점

  • 페르소나란 개인의 고유한 특성·관심사·성격·직업 등에 대한 묘사이며, 페르소나가 모여 있는 데이터셋은 해당 집단의 문화적·분포적 특성을 올바르게 반영해야 함
  • 외국 LLM에 "한국 사회의 현실적이고 다양한 인물 프로필을 생성하라"고 프롬프트를 주어도 결과는 심각하게 왜곡
    • 생성된 페르소나의 40%가 샐러드를 가장 좋아하는 음식으로 선택하거나, "경상북도 안동시에서 사과 과수원을 운영합니다" 같은 비현실적 결과 산출
  • Claude Opus 4.7로 우리나라 페르소나 2천 개를 무작위 샘플링한 결과, 직업 분포에서 77.6%가 "유자 재배 농민" 으로 생성되는 극단적 편향 확인
  • GPT-5.4의 경우 90.1%가 "요양보호사" 로 생성
  • 도시 분포, 가족 형태, 주거 점유 형태, 음식 선호도 등 모든 측면에서 우리나라 실정과 맞지 않는 편향이 존재

데이터셋 개요 및 목적

  • 대한민국 인구의 다양성과 특성을 폭넓게 반영하도록 설계된 오픈소스 합성 페르소나 데이터셋
  • 우리말로 누구나 쉽게 읽을 수 있게 작성
  • 소버린 AI 시스템 구축 시 학습 데이터의 결측 데이터 및 잠재적 편향을 완화하는 것이 주요 목표
  • 합성 데이터 생성에 사용되는 기존 페르소나 데이터셋의 편향, 특히 나이·지역·교육 수준·직업 축에서의 편향 해소에 초점

데이터 소스 및 제작 방식

  • KOSIS(통계청 국가통계포털)의 성별, 지역, 산업, 직업, 여행, 여가생활 관련 인구조사 데이터 활용
  • 대법원의 출생연도·성별·이름 데이터, 국민건강보험공단의 건강검진 정보, 농촌경제연구원의 식품소비행태조사 결과 활용
  • NAVER Cloud가 설계 단계에서 초기 데이터와 도메인 전문 지식 제공
  • 독자적인 확률적 그래프 모델(PGM) 과 Apache-2.0 라이선스인 google/gemma-4-31B-it 모델, 그리고 NeMo Data Designer의 검증·평가 방법 사용
  • 이름·나이·성별·지역·혼인·가족·주거·학력·전공분야·경제활동·소득·산업군·직업군·혈압·혈당·허리둘레·BMI·여행·여가생활·선호 식당 종류·배달 및 외식 빈도 등 포괄
  • 모든 데이터는 실제 분포를 반영하되 완전히 인공적으로 합성되었으며, 실존 인물과의 유사성은 우연에 의한 것

데이터셋 규모 및 구성

  • 17억 개 토큰(페르소나 10억 개 토큰)으로 구성된 100만 건 레코드
  • 26개 필드: 7개 페르소나 필드, 6개 페르소나 속성 필드, 12개 인구통계·지리 컨텍스트 필드, 1개 고유 식별자
  • 17개 시도, 252개 시군구의 포괄적 행정구역 커버리지
  • 20만 9천여 개 고유 성명 조합 (118개 성씨, 2만 1,400개 이름)
  • 7가지 페르소나 유형: 직업, 스포츠, 예술, 여행, 음식, 가족, 요약
  • 추가 페르소나 속성: 문화적 배경, 기술 및 전문성, 경력 목표·포부, 취미·관심사

이름 분포

  • 현재 우리나라에서 공개된 이름 데이터는 2008년 이후로만 한정
  • Nemotron-Personas-Korea는 최초로 1940년부터의 우리나라 이름 전수 데이터를 기반으로 한 공개 데이터셋
  • "82세 김하율씨?" "21세 김순자씨?" 같은 시대상에 맞지 않는 이름 배정 문제 해결
  • 성씨 분포는 김(21.5%), 이(14.7%), 박(8.5%), 정(4.8%), 최(4.7%) 등 상위 5개 성이 전체의 약 54% 차지
  • 이름은 성별과 출생 연도에 따라 세대별 작명 경향 반영
    • 여성: 영숙·정숙·순자 등 고연령대 이름과 지영·유진·지현 등 젊은 세대 이름이 공존
    • 남성: 지훈·현우·준호 등 현대적 이름이 상위 차지
  • 가장 빈번한 전체 이름은 김영숙으로, 실제 조사결과와 일치

연령 분포

  • 중간이 볼록한 항아리형 구조로, 저출산·고령화가 동시에 진행되는 현재 인구 구조를 충실히 반영
  • 가장 두꺼운 구간은 50~64세(비중 약 0.09)로, 1960~70년대 베이비붐 세대에 해당
  • 70세 이상 고령층에서 여성 비중이 남성보다 뚜렷하게 큼
    • 80~89세 구간에서 여성 비율이 남성의 약 1.52배

혼인 상태 분포

  • 미혼 비율은 19~24세에서 95% 이상, 30대에서 55%→31%로 감소하여 평균 초혼 연령 31~33세의 만혼 추세와 일치
  • 유배우자 비율은 35세부터 64%로 상승, 50대 후반 78% 에서 정점
  • 사별은 60대부터 급증해 80대 후반 66%, 90대 74~81% 도달
  • 이혼은 50대~60대 초반에서 약 12% 로 가장 높아 황혼 이혼 추세 부합

가구 유형 분포

  • 전 연령대에서 부부+미혼자녀 가구가 가장 높은 비중, 19세에서 63.6%로 최고치
  • 50대 이후 부부 가구가 급증해 65~69세에서 45.7% 정점
  • 1인가구는 20대 초반(15~22%)과 75세 이후(21~32%)에서 이중 봉우리 패턴
  • 모+미혼자녀 가구(5~14%)가 부+미혼자녀(2~5%)보다 높아 한부모 가구의 성별 비대칭 확인

학력 수준 분포

  • 20~34세 젊은 세대는 4년제 대학 졸업 비율 50% 초과, 전문대 포함 시 약 75%가 대학 이상 학력 보유
  • 80세 이상에서는 무학(36%)과 초등학교(37%)가 전체의 73% 차지
  • 지역별로 세종(49.0%), 서울(45.1%), 대전(39.7%) 순으로 학사 이상 비율이 높음
    • 세종은 정부세종청사 이전에 따른 고학력 공무원·연구직 유입 영향

직업 분포

  • 전문가와 사무직이 가장 큰 비중으로, 서비스·지식 기반 경제 구조 반영
  • 판매직에서 온라인 쇼핑 판매원(19.8%)이 1위로, 높은 전자상거래 비중 확인
  • 단순노무에서 건물 경비원(21.3%)과 건물 청소원(16.0%) 집중
  • 군인은 전체 취업자의 약 1% 이며 육군이 2/3 이상 차지

기술적 제약 및 한계

  • 공개 데이터 가용성·시의성·PGM 모델의 현실적 제약으로 인해 특정 변수 간 독립성 가정 적용
    • 예: 세부 직업 배정 시 성별, 소득, 학력, 전공 등이 독립적으로 영향을 미친다고 가정하며 교호작용 미반영
  • 젠더(gender) 에 대한 포괄적 통계는 국내 공공 데이터에 존재하지 않아 미반영
  • 19세 이상 성인 페르소나만 포함
  • 금융, 헬스케어 등 엔터프라이즈 고객 관련 페르소나는 제외

LLM 의존 방식 대비 개선 결과

  • LLM에만 의존 시 도시 분포가 순천시·창원시 등에 편중되었으나, Nemotron-Personas-Korea는 경기 화성시·남양주시·서울 송파구 등 실제 인구 비례 분포 반영
  • 가족 형태는 1인가구 일변도에서 배우자 동거·배우자+자녀 동거·부모 동거 등 다양한 형태로 확장
  • 주거 점유 형태도 자가 100%에서 자가와 임차의 실제 비율 반영
  • 음식 분포도 샐러드 일변도에서 비빔밥·일식·치킨·갈비·삼겹살·떡볶이·분식·빵·된장찌개·짜장면 등 실제 식문화 반영

문화 반영 사례

  • "퇴근길 동료들과 삼겹살에 소주를 곁들이며 하루의 피로를 푸는 33세 캥거루족 정준 씨" — 서울 송파구 거주, 4년제 대학교, 미혼, 부모 동거 등 한국 사회의 캥거루족 현상 반영
  • "심수봉 노래, 가족 단체 채팅방에 사진 올리기를 좋아하는 울산의 73세 김춘희 씨" — 여자, 무학, 배우자 있음, 무직 등 고령 여성 인구 반영

페르소나 데이터셋이 LLM에 도움이 되는 이유

  • 사람은 각기 고유의 지식을 보유하며, 페르소나는 이런 고유의 지식을 함축시킨 표현형
    • 예: 전기 기사 페르소나는 전기 관련 지식을 LLM으로부터 끌어낼 수 있는 매개체
  • 합성 데이터에서 다양성이 매우 중요한 지표이며, 사람이 바로 가장 좋은 다양성의 원천
  • "{주어진 페르소나}와 관련된 논리적 추론 문제를 만들어봐" 형태로 페르소나별 다양한 합성 학습 데이터 생성 가능

실제 활용 사례

  • 일반적인 툴 사용 성능 향상: 사용자-LLM에게 tool set과 페르소나를 함께 주어 데이터 합성 및 학습. Nemotron-Nano-9B-v2-Japanese가 해당 방법론을 차용해 Nejumi 리더보드 1위 달성. 비슷한 방법을 Nemotron Nano v3와 Super v3에도 도입
  • 모델 안전성 향상: Sensitive-safety-category-refusals(SSCR) 데이터셋의 시드 데이터로 활용. SSCR 데이터셋은 nemotron-safety-blend에 포함

사용 방법 및 라이선스

  • Python datasets 라이브러리로 load_dataset("nvidia/Nemotron-Personas-Korea") 호출하여 로드 가능
  • CC BY 4.0 라이선스로 상업적·비상업적 용도 모두 자유 사용 가능
  • NeMo Data Designer에서 직접 사용할 수 있는 확장 버전도 별도 제공
Read Entire Article