AI를 직접 다뤄보고 싶어서 Dell Precision 3620 Tower i7-7700을 중고로 구입했음 GPU 없이 Dell Precision T710(Xeon E6320, 120GB RAM, RAID5 SSD 240TB)에서 Ollama를 CPU 기반으로 돌리고 있음 로컬 LLM으로 코딩을 하긴 하지만, 노트북에서는 상상도 못함 Mac에서 로컬 코드 에이전트를 돌리고 싶다면 다음처럼 하면 됨 MacBook Pro 64GB에서 Qwen3-Coder-30B-A3B Q4 quant를 llama.cpp로 돌리고 있음 Mac을 살 거라면 Pro 모델 이상을 추천함 Apple M4 Max 128GB와 GPD Win 4 (Ubuntu 24.04) 를 USB-C로 연결해 사용 중임 LLM 워크스테이션을 보고 싶다면 Alex Ziskind의 YouTube 채널(@AZisk)을 추천함 MacBook Pro M4 Max 128GB에서 LMStudio와 Ollama를 주로 사용함 MacBook Pro M1 Pro 32GB + Asahi Linux에서 Qwen3:32b를 CLI로 돌리고 있음Hacker News 의견
RAM을 업그레이드하고, GPU로 RTX 3060을 달기 위해 전원 공급 장치도 교체했음
Ubuntu Server를 설치하고 집의 k3s 클러스터 노드로 구성했으며, Ollama와 OpenWebUI를 돌리고 있음
주로 Karakeep의 AI 태깅과 요약에 쓰지만, Python 코드로 택배 차량을 감지하는 드라이브웨이 카메라 분석에도 활용 중임
50개 주의 선거법을 RAG로 인덱싱해 용어 불일치와 환각 문제를 시각화하려는 프로젝트를 진행 중임
목표는 선거 절차의 무결성 격차를 파악하는 것임
관련 마인드맵은 Election Frauds v1.4 Mindmap PDF에서 볼 수 있음
GPU 서버에서 llama.cpp + llama-swap으로 모델을 전환하며 사용 중임
가장 만족스러운 환경은 Aider + gpt-oss-120b 조합임
Ryzen AI Max+ 128GB RAM으로도 가능하겠지만, 비NVIDIA 하드웨어는 속도가 매우 느림
OpenRouter를 통해 데이터 보존 없는 제공자만 선택할 수도 있음
하지만 GPT5나 Claude는 로컬보다 훨씬 빠르고 저렴함
ChatGPT는 6분에 46/50, gpt-oss-120b는 1시간에 47/50을 기록했음
i7 + 64GB RAM + 8GB VRAM GPU 환경에서 실행했음
인터넷 없이 동작하며, M1 이상 Mac + 24GB GPU 메모리가 필요함
120b 모델은 20b보다 1.5배 성능이지만 요구 사양은 5배임
VSCode에서는 continue.dev를 써서 시스템 프롬프트를 짧게 설정함
초당 50토큰 생성, 550토큰 처리 속도를 얻음
짧고 명확한 작업에서는 프론티어 모델과 비슷한 품질을 보여줌
오프라인 환경에서도 빠르고 안정적이라 만족함
더 복잡한 작업은 Claude나 Deepseek API를 사용함
Air에는 팬이 없어 열 관리가 안 됨, Mac mini보다 Studio가 낫다고 생각함
TG Pro 앱으로 팬을 더 민감하게 조정할 수 있음 (약 $20)
M4 Pro + 24GB RAM MacBook Pro에서 GPT OSS 20B 모델을 돌리지만 컨텍스트 윈도우가 작음
128GB 모델이라면 하루 종일 오프라인 코딩도 가능할 듯함
Claude Code, RA.Aid, llama.cpp를 조합해 Agent Organizer로 작업을 분배함
Claude가 아키텍처 설계부터 코드 리뷰까지 자동화함
다양한 로컬 LLM용 워크스테이션 리뷰를 다룸
발표도 깔끔하고 조언이 실용적임
모델은 qwen3-coder-30b A3B Instruct 8-bit MLX와 gpt-oss-120b-MXFP4-Q8
대규모 코드 생성은 한계가 있지만, 로컬 리포 요약·문서화에는 충분함
관련 커뮤니티도 활발함
README 생성에는 gemma3-27b-it-qat와 gpt-oss-120b를 선호함
ARMv8 어셈블리나 SoC 관련 도움을 받음
속도는 읽는 속도보다 약간 느린 정도로 충분히 쓸 만함
Qwen3-coder가 더 빠르다는 얘기를 듣고 관심이 생김
클라우드나 에이전트 통합 없이 완전한 로컬 환경을 선호함
Ollama가 오프라인 중심에서 벗어나서 이제 llama.cpp로 전환하려 함
모델 포맷이 달라서 Ollama 모델을 그대로 쓸 수 있을지 고민 중임
[주의] 리눅스에서는 전력 소모가 커서 반드시 전원 연결 상태로 써야 함
일반 작업엔 덜 똑똑하지만 코딩 중심 작업엔 효율적임