로컬에서 오픈 LLM과 코딩 어시스턴트를 사용하는 개발자들의 환경 공유

1 day ago 4

Hacker News 의견

AI를 직접 다뤄보고 싶어서 Dell Precision 3620 Tower i7-7700을 중고로 구입했음
RAM을 업그레이드하고, GPU로 RTX 3060을 달기 위해 전원 공급 장치도 교체했음
Ubuntu Server를 설치하고 집의 k3s 클러스터 노드로 구성했으며, Ollama와 OpenWebUI를 돌리고 있음
주로 Karakeep의 AI 태깅과 요약에 쓰지만, Python 코드로 택배 차량을 감지하는 드라이브웨이 카메라 분석에도 활용 중임
GPU 없이 Dell Precision T710(Xeon E6320, 120GB RAM, RAID5 SSD 240TB)에서 Ollama를 CPU 기반으로 돌리고 있음
50개 주의 선거법을 RAG로 인덱싱해 용어 불일치와 환각 문제를 시각화하려는 프로젝트를 진행 중임
목표는 선거 절차의 무결성 격차를 파악하는 것임
관련 마인드맵은 Election Frauds v1.4 Mindmap PDF에서 볼 수 있음
- 이런 사회적 프로젝트에 재능을 쓰는 건 정말 멋진 일임
로컬 LLM으로 코딩을 하긴 하지만, 노트북에서는 상상도 못함
GPU 서버에서 llama.cpp + llama-swap으로 모델을 전환하며 사용 중임
가장 만족스러운 환경은 Aider + gpt-oss-120b 조합임
Ryzen AI Max+ 128GB RAM으로도 가능하겠지만, 비NVIDIA 하드웨어는 속도가 매우 느림
OpenRouter를 통해 데이터 보존 없는 제공자만 선택할 수도 있음
하지만 GPT5나 Claude는 로컬보다 훨씬 빠르고 저렴함
- gpt-oss-120b로 RAG 에이전트를 만들어 GCP 문서를 학습시켰음
  ChatGPT는 6분에 46/50, gpt-oss-120b는 1시간에 47/50을 기록했음
  i7 + 64GB RAM + 8GB VRAM GPU 환경에서 실행했음
- llama-swap GitHub 링크
Mac에서 로컬 코드 에이전트를 돌리고 싶다면 다음처럼 하면 됨
1. npm install -g @openai/codex
2. brew install ollama; ollama serve
3. ollama pull gpt-oss:20b
4. codex --oss -m gpt-oss:20b
  인터넷 없이 동작하며, M1 이상 Mac + 24GB GPU 메모리가 필요함
  120b 모델은 20b보다 1.5배 성능이지만 요구 사양은 5배임
- LM Studio는 더 간단하며 JetBrains IDE나 Zed와도 연동됨
- 20b 모델로 실제로 가치 있는 코드를 만들 수 있었는지 궁금함
MacBook Pro 64GB에서 Qwen3-Coder-30B-A3B Q4 quant를 llama.cpp로 돌리고 있음
VSCode에서는 continue.dev를 써서 시스템 프롬프트를 짧게 설정함
초당 50토큰 생성, 550토큰 처리 속도를 얻음
짧고 명확한 작업에서는 프론티어 모델과 비슷한 품질을 보여줌
오프라인 환경에서도 빠르고 안정적이라 만족함
더 복잡한 작업은 Claude나 Deepseek API를 사용함
- continue.dev의 Instinct 모델을 써봤는지, Qwen과 비교가 궁금함
- 128GB 머신이라면 다른 quant를 쓰는 게 나을지, Hugging Face 다운로드 링크를 공유해달라는 요청이 있었음
- Qwen3를 llama-vscode에서 어떻게 돌리는지 묻는 댓글도 있었음 (이슈 링크)
Mac을 살 거라면 Pro 모델 이상을 추천함
Air에는 팬이 없어 열 관리가 안 됨, Mac mini보다 Studio가 낫다고 생각함
TG Pro 앱으로 팬을 더 민감하게 조정할 수 있음 (약 $20)
M4 Pro + 24GB RAM MacBook Pro에서 GPT OSS 20B 모델을 돌리지만 컨텍스트 윈도우가 작음
128GB 모델이라면 하루 종일 오프라인 코딩도 가능할 듯함
- Mac mini에도 팬이 있고, Studio는 단지 더 강력한 칩을 탑재한 버전임
- Mac을 산다면 Max나 Ultra 칩 + 최대 메모리 구성이 이상적임
- 128GB MacBook Pro는 컨텍스트 캐시 성능이 압도적임
- 기본 컨텍스트 윈도우는 작지만, gpt-oss-20b에서는 4배로 확장 가능함
- M3/M4 + 128GB에서도 긴 프롬프트 처리 속도가 느리다는 의견이 있었음
Apple M4 Max 128GB와 GPD Win 4 (Ubuntu 24.04) 를 USB-C로 연결해 사용 중임
Claude Code, RA.Aid, llama.cpp를 조합해 Agent Organizer로 작업을 분배함
Claude가 아키텍처 설계부터 코드 리뷰까지 자동화함
- GPD Win 4가 어떤 역할을 하는지, 작은 모델로 분산 처리하는지 묻는 질문이 있었음
- 각 모델의 토큰 처리 속도를 묻는 댓글도 있었음
- 사용 중인 Agent Organizer가 무엇인지 궁금하다는 질문도 있었음
LLM 워크스테이션을 보고 싶다면 Alex Ziskind의 YouTube 채널(@AZisk)을 추천함
다양한 로컬 LLM용 워크스테이션 리뷰를 다룸
발표도 깔끔하고 조언이 실용적임
- 스폰서 지원이 있겠지만, 장비를 직접 구매해 리뷰하는 리스크 감수가 인상적임
- “쓸데없는 말 없이 핵심만 말하는 채널”이라며 추천하는 댓글도 있었음
MacBook Pro M4 Max 128GB에서 LMStudio와 Ollama를 주로 사용함
모델은 qwen3-coder-30b A3B Instruct 8-bit MLX와 gpt-oss-120b-MXFP4-Q8
대규모 코드 생성은 한계가 있지만, 로컬 리포 요약·문서화에는 충분함
관련 커뮤니티도 활발함
- r/LocalLLM
- r/LocalLLaMA
- Mac에서 Coderunner(GitHub 링크)를 쓰면 LLM이 생성한 코드를 안전하게 샌드박스 실행할 수 있음
- LM Studio API와 qwen CLI를 연결하면 Claude Code와 유사한 환경을 만들 수 있음
  README 생성에는 gemma3-27b-it-qat와 gpt-oss-120b를 선호함
MacBook Pro M1 Pro 32GB + Asahi Linux에서 Qwen3:32b를 CLI로 돌리고 있음
ARMv8 어셈블리나 SoC 관련 도움을 받음
속도는 읽는 속도보다 약간 느린 정도로 충분히 쓸 만함
Qwen3-coder가 더 빠르다는 얘기를 듣고 관심이 생김
클라우드나 에이전트 통합 없이 완전한 로컬 환경을 선호함
Ollama가 오프라인 중심에서 벗어나서 이제 llama.cpp로 전환하려 함
모델 포맷이 달라서 Ollama 모델을 그대로 쓸 수 있을지 고민 중임
[주의] 리눅스에서는 전력 소모가 커서 반드시 전원 연결 상태로 써야 함
- Qwen3 Coder는 MoE 구조(30B 중 3B 활성) 라 훨씬 빠름
  일반 작업엔 덜 똑똑하지만 코딩 중심 작업엔 효율적임

Read Entire Article

로컬에서 오픈 LLM과 코딩 어시스턴트를 사용하는 개발자들의 환경 공유

Hacker News 의견

Related

Show GN: Play Maker - 개발자가 아닌, 창작자를 위한 2D 게임 엔진

Visopsys: 1997년부터 단일 개발자가 유지해 온 운영체제

Claude Code가 저수준 암호 코드를 디버깅하다

프로덕션 AI 에이전트 6주 구축기: Tiger Data의 3가지 핵심 인사이트

소프트웨어의 미래: 우리는 무엇을 만들어야할까?

코드를 작성하지 않아도 LLM이 직접 실행하는 웹앱 실험

브라우저에서 실행되는 GHC

SQLite 동시성 문제와 그 중요성

Tips

게임 정보

취업 정보

온라인 툴

유용한 정보

유튜브

Trending

Popular

떠돌이 생활→“끝까지 포기하지 않겠다”→파죽의 승승승승승승승승승…힘든 여정에도 약속 지킨 공룡군단, 끝내 기...

아이브, ‘뮤직뱅크 인 리스본’ 접수…안유진 올라운더 존재감까지

조현우 보고 있나…김승규, 복귀 후 첫 무실점

이태훈 달서구청장 “대구 신청사, 자존심과 정신 담아야”

기안84와 히말라야 오른 네팔 소년, 한국어 교육 지원받는다

롯데건설, ‘청주 롯데캐슬 시그니처’ 특별공급 청약 시작

의정부 아파트서 일가족에 흉기 난동…아래층 피의자는 사망

'굿뉴스' 변성현 감독, 홍경과 첫 작업에 "피곤했다" 말한 이유

미래에셋, ‘미국S&P500 ETF’ 순자산 10조원 돌파…국내 ETF 최초

정동영 “남북교류 중단 기간에 북핵 고도화…관계복원 지속적 노력”