DeepSeek V4 Pro, 정밀도에서 GPT-5.5 Pro를 앞서다

4 days ago 9
  • 사전 준비가 불가능하도록 즉석 생성된 4개 텍스트 과제 1:1 비교에서 DeepSeek V4 Pro가 38.0점, GPT-5.5 Pro가 33.0점 기록
  • 두 모델 모두 강력했으나, DeepSeek는 더 엄격하고 직역적이며 제약 조건 하 신뢰성이 높았고, GPT-5.5 Pro는 불필요한 즉흥적 변경으로 감점
  • 가장 명확한 기술적 우위는 python-log-redactor 과제로, 단일 정규식과 치환 함수로 중첩 패턴을 올바른 우선순위로 처리하며 누락 없는 결과 도출
  • 지시 따르기 과제에서 프롬프트 요구사항만 정확히 수행한 반면, GPT-5.5 Pro는 교대 인수인계·에스컬레이션 같은 비요청 항목을 추가
  • 작은 편차가 실제 실패로 이어지는 정밀 작업에서 더 절제되고 정확하며 의존 가능한 모델로 평가

종합 평가 결과

  • 점수상 DeepSeek V4 Pro가 38.0 대 33.0으로 승리, 격차에 충분한 근거 존재
  • 채점된 과제 전반에서 Model A(DeepSeek)는 더 엄격하고 직역적이며 제약 조건에서 더 안정적
    • Model B(GPT-5.5 Pro)는 우수하나 즉흥적 변경에 다소 과도한 경향
  • 최종 결론은 작은 편차가 실제 실패로 직결되는 작업에서 더 절제되고 정확하며 의존 가능한 모델이라는 평가

python-log-redactor (코드 작성 과제)

  • Python 3로 redact_log(line: str) -> str 함수 구현 과제로, 이메일은 [EMAIL], IPv4는 [IP], INC- + 숫자 6자리 형태의 티켓 ID는 [TICKET]으로 마스킹
    • 나머지 텍스트는 그대로 보존, 999.1.2.3 같은 잘못된 IP는 마스킹 제외, 멀티라인 입력 없음 가정
  • 승자: DeepSeek V4 Pro — 단일 정규식과 치환 함수로 중첩 패턴을 처리해 올바른 치환 우선순위 보장 및 누락 없음
    • GPT-5.5 Pro는 정규식을 분리해 순서 오류 위험 발생, 이메일 정규식에 단어 경계 누락·과잉 매칭 같은 결함 존재

vendor-delay-update (업무 메시지 작성 과제)

  • 운영 담당 VP가 지역 창고 관리자에게 보낼 상태 업데이트 작성 과제로, 바코드 스캐너 공급사 North Quay Devices의 배터리 인증 실패로 교체 유닛 420대 배송이 5월 12일에서 19일로 지연된 상황 전달
    • 여유 스캐너는 Memphis·Reno만 충당 가능, Tulsa·Allentown은 1주간 기기 공유 필요
    • 비필수 재고 재점검 중단, 출고 피킹 우선, 매일 현지 시각 오후 4시까지 부족분 집계 보고 요청, 어조는 차분·책임감·실용적, 분량 140~180단어
  • 승자: DeepSeek V4 Pro — 프롬프트 요구대로 "매일 현지 시각 오후 4시까지 부족분 집계 보고"를 VP에게 직접 명시, 차분·책임감·실용적 어조 유지
    • GPT-5.5 Pro는 교대 인수인계·에스컬레이션 같은 비요청 세부사항을 추가하고 수신자를 "Operations Planning"으로 전환해 지시에서 다소 이탈, 단 양측 모두 고품질·단어 제한 내 유지

meeting-notes-summary (요약 및 JSON 생성 과제)

  • 회의록을 읽고 2문장 요약과 함께 launch_date, owner, blocked_by, open_questions(배열), decisions(배열) 키를 가진 JSON 객체 생성 과제
    • 회의록은 Cedar Lane 테넌트 포털 개편 프로젝트 관련으로, 법무 승인, 프런트엔드 완료 상태, 2026-03-18 출시 희망, 금융 샌드박스의 ACH 재시도 중복 영수증 ID 차단 이슈, 다크 모드 제거 결정 등 포함
  • 승자: DeepSeek V4 Pro — 요청된 스키마를 정확히 준수하고 2문장 요약과 올바른 타입의 JSON 필드 제공
    • GPT-5.5 Pro는 요약은 양호했으나 launch_date에 조건부 텍스트를 포함하고 단일 값이 필요한 blocked_by를 배열로 처리해 구조 위반

messy-orders-to-json (데이터 정규화 과제)

  • 지저분한 주문 라인을 지정된 스키마의 객체 배열 유효 JSON으로 변환하는 과제로, 입력 순서 보존 필수
    • priority를 true/false로 정규화, none·tbd·- 같은 누락 배송일은 null로 변환, 값 앞뒤 공백 제거, 항목은 ;로 구분되고 각 항목은 SKU xQTY 형식
  • 결과: 무승부 — 양측 모두 유효 JSON, 입력 순서 보존, 스키마 정확 일치, priority·ship_by 값 정규화를 올바르게 수행
    • 품질·정확성에서 실질적 차이 없음, 다만 쉬운 정리 과제의 무승부가 정밀 작업의 실수를 상쇄하지는 못함

테스트 방식

  • 어느 모델도 사전 준비할 수 없도록 매치업용으로 즉석 생성된 4개 텍스트 과제 사용
  • 채점은 grok-4-1-fast-non-reasoning이 각 과제별로 수행
  • 최종 점수는 DeepSeek V4 Pro 38.0, GPT-5.5 Pro 33.0

모델 사양

  • OpenAI: GPT-5.5 Pro

    • 깊은 추론과 정확성에 최적화된 고성능 모델로 복잡하고 고위험 워크로드 대상
    • 1M+ 토큰 컨텍스트(입력 922K, 출력 128K), 텍스트·이미지 입력 지원, 장기 호흡 문제 해결·에이전트 코딩·다단계 워크플로의 정밀 실행 설계
    • 가격 입력 $30.00 / 출력 $180.00 (백만 토큰당), 컨텍스트 1.1M, 컷오프 2025-12-01
  • DeepSeek: DeepSeek V4 Pro

    • 1.6T 파라미터·활성 49B 파라미터의 대규모 Mixture-of-Experts 모델로 1M 토큰 컨텍스트 지원
    • 고급 추론·코딩·장기 호흡 에이전트 워크플로 대상이며 지식·수학·소프트웨어 엔지니어링 벤치마크에서 강력한 성능
    • DeepSeek V4 Flash와 동일 아키텍처 기반으로, 효율적 장문 처리를 위한 하이브리드 어텐션 시스템 도입
    • 추론 강도 high·xhigh 지원, xhigh는 최대 추론에 매핑, 전체 코드베이스 분석·다단계 자동화·대규모 정보 종합 같은 복잡 워크로드에 적합
    • 가격 입력 $0.435 / 출력 $0.870 (백만 토큰당), 컨텍스트 1M
Read Entire Article