로컬에서 오픈 LLM과 코딩 어시스턴트를 사용하는 개발자들의 환경 공유

1 day ago 4

Hacker News 의견
  • AI를 직접 다뤄보고 싶어서 Dell Precision 3620 Tower i7-7700을 중고로 구입했음
    RAM을 업그레이드하고, GPU로 RTX 3060을 달기 위해 전원 공급 장치도 교체했음
    Ubuntu Server를 설치하고 집의 k3s 클러스터 노드로 구성했으며, Ollama와 OpenWebUI를 돌리고 있음
    주로 Karakeep의 AI 태깅과 요약에 쓰지만, Python 코드로 택배 차량을 감지하는 드라이브웨이 카메라 분석에도 활용 중임

  • GPU 없이 Dell Precision T710(Xeon E6320, 120GB RAM, RAID5 SSD 240TB)에서 Ollama를 CPU 기반으로 돌리고 있음
    50개 주의 선거법을 RAG로 인덱싱해 용어 불일치와 환각 문제를 시각화하려는 프로젝트를 진행 중임
    목표는 선거 절차의 무결성 격차를 파악하는 것임
    관련 마인드맵은 Election Frauds v1.4 Mindmap PDF에서 볼 수 있음

    • 이런 사회적 프로젝트에 재능을 쓰는 건 정말 멋진 일임
  • 로컬 LLM으로 코딩을 하긴 하지만, 노트북에서는 상상도 못함
    GPU 서버에서 llama.cpp + llama-swap으로 모델을 전환하며 사용 중임
    가장 만족스러운 환경은 Aider + gpt-oss-120b 조합임
    Ryzen AI Max+ 128GB RAM으로도 가능하겠지만, 비NVIDIA 하드웨어는 속도가 매우 느림
    OpenRouter를 통해 데이터 보존 없는 제공자만 선택할 수도 있음
    하지만 GPT5나 Claude는 로컬보다 훨씬 빠르고 저렴함

    • gpt-oss-120b로 RAG 에이전트를 만들어 GCP 문서를 학습시켰음
      ChatGPT는 6분에 46/50, gpt-oss-120b는 1시간에 47/50을 기록했음
      i7 + 64GB RAM + 8GB VRAM GPU 환경에서 실행했음
    • llama-swap GitHub 링크
  • Mac에서 로컬 코드 에이전트를 돌리고 싶다면 다음처럼 하면 됨

    1. npm install -g @openai/codex
    2. brew install ollama; ollama serve
    3. ollama pull gpt-oss:20b
    4. codex --oss -m gpt-oss:20b
      인터넷 없이 동작하며, M1 이상 Mac + 24GB GPU 메모리가 필요함
      120b 모델은 20b보다 1.5배 성능이지만 요구 사양은 5배임
    • LM Studio는 더 간단하며 JetBrains IDE나 Zed와도 연동됨
    • 20b 모델로 실제로 가치 있는 코드를 만들 수 있었는지 궁금함
  • MacBook Pro 64GB에서 Qwen3-Coder-30B-A3B Q4 quant를 llama.cpp로 돌리고 있음
    VSCode에서는 continue.dev를 써서 시스템 프롬프트를 짧게 설정함
    초당 50토큰 생성, 550토큰 처리 속도를 얻음
    짧고 명확한 작업에서는 프론티어 모델과 비슷한 품질을 보여줌
    오프라인 환경에서도 빠르고 안정적이라 만족함
    더 복잡한 작업은 Claude나 Deepseek API를 사용함

    • continue.dev의 Instinct 모델을 써봤는지, Qwen과 비교가 궁금함
    • 128GB 머신이라면 다른 quant를 쓰는 게 나을지, Hugging Face 다운로드 링크를 공유해달라는 요청이 있었음
    • Qwen3를 llama-vscode에서 어떻게 돌리는지 묻는 댓글도 있었음 (이슈 링크)
  • Mac을 살 거라면 Pro 모델 이상을 추천함
    Air에는 팬이 없어 열 관리가 안 됨, Mac mini보다 Studio가 낫다고 생각함
    TG Pro 앱으로 팬을 더 민감하게 조정할 수 있음 (약 $20)
    M4 Pro + 24GB RAM MacBook Pro에서 GPT OSS 20B 모델을 돌리지만 컨텍스트 윈도우가 작음
    128GB 모델이라면 하루 종일 오프라인 코딩도 가능할 듯함

    • Mac mini에도 팬이 있고, Studio는 단지 더 강력한 칩을 탑재한 버전임
    • Mac을 산다면 Max나 Ultra 칩 + 최대 메모리 구성이 이상적임
    • 128GB MacBook Pro는 컨텍스트 캐시 성능이 압도적
    • 기본 컨텍스트 윈도우는 작지만, gpt-oss-20b에서는 4배로 확장 가능함
    • M3/M4 + 128GB에서도 긴 프롬프트 처리 속도가 느리다는 의견이 있었음
  • Apple M4 Max 128GBGPD Win 4 (Ubuntu 24.04) 를 USB-C로 연결해 사용 중임
    Claude Code, RA.Aid, llama.cpp를 조합해 Agent Organizer로 작업을 분배함
    Claude가 아키텍처 설계부터 코드 리뷰까지 자동화

    • GPD Win 4가 어떤 역할을 하는지, 작은 모델로 분산 처리하는지 묻는 질문이 있었음
    • 각 모델의 토큰 처리 속도를 묻는 댓글도 있었음
    • 사용 중인 Agent Organizer가 무엇인지 궁금하다는 질문도 있었음
  • LLM 워크스테이션을 보고 싶다면 Alex Ziskind의 YouTube 채널(@AZisk)을 추천함
    다양한 로컬 LLM용 워크스테이션 리뷰를 다룸
    발표도 깔끔하고 조언이 실용적임

    • 스폰서 지원이 있겠지만, 장비를 직접 구매해 리뷰하는 리스크 감수가 인상적임
    • “쓸데없는 말 없이 핵심만 말하는 채널”이라며 추천하는 댓글도 있었음
  • MacBook Pro M4 Max 128GB에서 LMStudio와 Ollama를 주로 사용함
    모델은 qwen3-coder-30b A3B Instruct 8-bit MLX와 gpt-oss-120b-MXFP4-Q8
    대규모 코드 생성은 한계가 있지만, 로컬 리포 요약·문서화에는 충분함
    관련 커뮤니티도 활발함

    • r/LocalLLM
    • r/LocalLLaMA
    • Mac에서 Coderunner(GitHub 링크)를 쓰면 LLM이 생성한 코드를 안전하게 샌드박스 실행할 수 있음
    • LM Studio API와 qwen CLI를 연결하면 Claude Code와 유사한 환경을 만들 수 있음
      README 생성에는 gemma3-27b-it-qat와 gpt-oss-120b를 선호함
  • MacBook Pro M1 Pro 32GB + Asahi Linux에서 Qwen3:32b를 CLI로 돌리고 있음
    ARMv8 어셈블리나 SoC 관련 도움을 받음
    속도는 읽는 속도보다 약간 느린 정도로 충분히 쓸 만함
    Qwen3-coder가 더 빠르다는 얘기를 듣고 관심이 생김
    클라우드나 에이전트 통합 없이 완전한 로컬 환경을 선호함
    Ollama가 오프라인 중심에서 벗어나서 이제 llama.cpp로 전환하려 함
    모델 포맷이 달라서 Ollama 모델을 그대로 쓸 수 있을지 고민 중임
    [주의] 리눅스에서는 전력 소모가 커서 반드시 전원 연결 상태로 써야 함

    • Qwen3 Coder는 MoE 구조(30B 중 3B 활성) 라 훨씬 빠름
      일반 작업엔 덜 똑똑하지만 코딩 중심 작업엔 효율적

Read Entire Article