DeepSeek V4 Pro, 정밀도에서 GPT-5.5 Pro를 앞서다

4 days ago 9

사전 준비가 불가능하도록 즉석 생성된 4개 텍스트 과제 1:1 비교에서 DeepSeek V4 Pro가 38.0점, GPT-5.5 Pro가 33.0점 기록
두 모델 모두 강력했으나, DeepSeek는 더 엄격하고 직역적이며 제약 조건 하 신뢰성이 높았고, GPT-5.5 Pro는 불필요한 즉흥적 변경으로 감점
가장 명확한 기술적 우위는 python-log-redactor 과제로, 단일 정규식과 치환 함수로 중첩 패턴을 올바른 우선순위로 처리하며 누락 없는 결과 도출
지시 따르기 과제에서 프롬프트 요구사항만 정확히 수행한 반면, GPT-5.5 Pro는 교대 인수인계·에스컬레이션 같은 비요청 항목을 추가
작은 편차가 실제 실패로 이어지는 정밀 작업에서 더 절제되고 정확하며 의존 가능한 모델로 평가

종합 평가 결과

점수상 DeepSeek V4 Pro가 38.0 대 33.0으로 승리, 격차에 충분한 근거 존재
채점된 과제 전반에서 Model A(DeepSeek)는 더 엄격하고 직역적이며 제약 조건에서 더 안정적
- Model B(GPT-5.5 Pro)는 우수하나 즉흥적 변경에 다소 과도한 경향
최종 결론은 작은 편차가 실제 실패로 직결되는 작업에서 더 절제되고 정확하며 의존 가능한 모델이라는 평가

Python 3로 redact_log(line: str) -> str 함수 구현 과제로, 이메일은 [EMAIL], IPv4는 [IP], INC- + 숫자 6자리 형태의 티켓 ID는 [TICKET]으로 마스킹
- 나머지 텍스트는 그대로 보존, 999.1.2.3 같은 잘못된 IP는 마스킹 제외, 멀티라인 입력 없음 가정
승자: DeepSeek V4 Pro — 단일 정규식과 치환 함수로 중첩 패턴을 처리해 올바른 치환 우선순위 보장 및 누락 없음
- GPT-5.5 Pro는 정규식을 분리해 순서 오류 위험 발생, 이메일 정규식에 단어 경계 누락·과잉 매칭 같은 결함 존재

운영 담당 VP가 지역 창고 관리자에게 보낼 상태 업데이트 작성 과제로, 바코드 스캐너 공급사 North Quay Devices의 배터리 인증 실패로 교체 유닛 420대 배송이 5월 12일에서 19일로 지연된 상황 전달
- 여유 스캐너는 Memphis·Reno만 충당 가능, Tulsa·Allentown은 1주간 기기 공유 필요
- 비필수 재고 재점검 중단, 출고 피킹 우선, 매일 현지 시각 오후 4시까지 부족분 집계 보고 요청, 어조는 차분·책임감·실용적, 분량 140~180단어
승자: DeepSeek V4 Pro — 프롬프트 요구대로 "매일 현지 시각 오후 4시까지 부족분 집계 보고"를 VP에게 직접 명시, 차분·책임감·실용적 어조 유지
- GPT-5.5 Pro는 교대 인수인계·에스컬레이션 같은 비요청 세부사항을 추가하고 수신자를 "Operations Planning"으로 전환해 지시에서 다소 이탈, 단 양측 모두 고품질·단어 제한 내 유지

회의록을 읽고 2문장 요약과 함께 launch_date, owner, blocked_by, open_questions(배열), decisions(배열) 키를 가진 JSON 객체 생성 과제
- 회의록은 Cedar Lane 테넌트 포털 개편 프로젝트 관련으로, 법무 승인, 프런트엔드 완료 상태, 2026-03-18 출시 희망, 금융 샌드박스의 ACH 재시도 중복 영수증 ID 차단 이슈, 다크 모드 제거 결정 등 포함
승자: DeepSeek V4 Pro — 요청된 스키마를 정확히 준수하고 2문장 요약과 올바른 타입의 JSON 필드 제공
- GPT-5.5 Pro는 요약은 양호했으나 launch_date에 조건부 텍스트를 포함하고 단일 값이 필요한 blocked_by를 배열로 처리해 구조 위반

지저분한 주문 라인을 지정된 스키마의 객체 배열 유효 JSON으로 변환하는 과제로, 입력 순서 보존 필수
- priority를 true/false로 정규화, none·tbd·- 같은 누락 배송일은 null로 변환, 값 앞뒤 공백 제거, 항목은 ;로 구분되고 각 항목은 SKU xQTY 형식
결과: 무승부 — 양측 모두 유효 JSON, 입력 순서 보존, 스키마 정확 일치, priority·ship_by 값 정규화를 올바르게 수행
- 품질·정확성에서 실질적 차이 없음, 다만 쉬운 정리 과제의 무승부가 정밀 작업의 실수를 상쇄하지는 못함

OpenAI: GPT-5.5 Pro
- 깊은 추론과 정확성에 최적화된 고성능 모델로 복잡하고 고위험 워크로드 대상
- 1M+ 토큰 컨텍스트(입력 922K, 출력 128K), 텍스트·이미지 입력 지원, 장기 호흡 문제 해결·에이전트 코딩·다단계 워크플로의 정밀 실행 설계
- 가격 입력 $30.00 / 출력 $180.00 (백만 토큰당), 컨텍스트 1.1M, 컷오프 2025-12-01
DeepSeek: DeepSeek V4 Pro
- 총 1.6T 파라미터·활성 49B 파라미터의 대규모 Mixture-of-Experts 모델로 1M 토큰 컨텍스트 지원
- 고급 추론·코딩·장기 호흡 에이전트 워크플로 대상이며 지식·수학·소프트웨어 엔지니어링 벤치마크에서 강력한 성능
- DeepSeek V4 Flash와 동일 아키텍처 기반으로, 효율적 장문 처리를 위한 하이브리드 어텐션 시스템 도입
- 추론 강도 high·xhigh 지원, xhigh는 최대 추론에 매핑, 전체 코드베이스 분석·다단계 자동화·대규모 정보 종합 같은 복잡 워크로드에 적합
- 가격 입력 $0.435 / 출력 $0.870 (백만 토큰당), 컨텍스트 1M