벤치마크는 --ctx 32768, --nothink, greedy decoding, -n 256 조건의 단일 실행 Metal CLI 수치로, MacBook Pro M3 Max 128GB q2에서 짧은 프롬프트 생성 26.68 t/s, Mac Studio M3 Ultra 512GB q4에서 짧은 프롬프트 생성 35.50 t/s를 기록함
CLI는 일회성 프롬프트와 인터랙티브 다중 턴 채팅을 지원하며, 기본은 사고 모드이고 /nothink 또는 --nothink로 직접 답변 모드를 사용할 수 있음
ds4-server는 로컬 OpenAI/Anthropic 호환 서버를 제공하며 /v1/chat/completions, /v1/completions, /v1/messages 등을 지원하고, SSE 스트리밍과 도구 호출 매핑을 처리함
서버는 하나의 mutable graph/KV checkpoint를 메모리에 유지해 같은 프롬프트 접두사를 재사용하지만, 독립 요청을 배치하지 않고 하나의 Metal worker에서 추론을 직렬화하므로 동시 요청은 차례를 기다림
디스크 KV 캐시는 에이전트 클라이언트가 매 요청 전체 대화를 다시 보내는 상황에서 토큰 접두사를 비교해 재사용하며, 세션 전환이나 서버 재시작 뒤에도 유용한 접두사를 다시 prefill하지 않도록 설계됨
전체 100만 토큰 컨텍스트는 대략 26GB 메모리를 쓰며, 128GB RAM에서 2비트 모델 자체가 81GB이므로 README는 100~300k 토큰 정도의 컨텍스트가 더 현실적이라고 안내함
선택적 MTP speculative decoding GGUF는 q2/q4와 함께 쓸 수 있지만 명시적으로 --mtp로 켜야 하며, 현재는 correctness-gated 실험 경로라 의미 있는 생성 속도 향상보다는 약간의 속도 향상에 그침
CPU 경로는 정확성 확인용 참조·디버그 경로일 뿐 운영 대상이 아니며, 현재 macOS 가상 메모리 구현 버그로 CPU 코드를 실행하면 커널 크래시가 날 수 있다고 경고함
ds4.c는 GGML에 링크하지 않지만 llama.cpp와 GGML의 커널·양자화 형식·GGUF 생태계·엔지니어링 지식에 기반했으며, 일부 소스 수준 요소는 MIT 라이선스 아래 유지 또는 조정됨