로컬 AI가 표준이 되어야 함

5 hours ago 1

앱 기능에 OpenAI나 Anthropic API를 붙이는 흐름이 흔해졌지만, 클라우드 호스팅 AI 모델 의존은 서버 장애·결제 문제만으로 기능이 멈추고 개인정보 부담까지 커지게 만듦
현대 기기에는 Neural Engine 등 강력한 온디바이스 연산 능력이 있지만, 대부분 유휴 상태로 방치된 채 서버 응답만 기다리고 있음
예를 들어, Apple의 FoundationModels 프레임워크를 활용하면, 서버 없이 기기에서 직접 요약·분류·추출 등의 AI 기능을 구현 가능
The Brutalist Report의 native iOS client는 기사 요약을 Apple 로컬 모델 API로 온디바이스에서 생성해 서버 우회, 프롬프트·사용자 로그, 벤더 계정, 콘텐츠 보관 각주가 필요 없게 함
로컬 모델은 클라우드 모델만큼 똑똑하지 않을 수 있지만, 요약·분류·추출·재작성·정규화 같은 데이터 변환 작업에는 충분할 수 있으며 클라우드 모델은 정말 필요할 때만 써야 함

클라우드 AI 의존의 문제점

개발자들이 앱 기능에 OpenAI나 Anthropic API 호출을 무분별하게 추가하는 트렌드가 확산 중
이런 방식은 소프트웨어를 취약하고, 프라이버시를 침해하며, 근본적으로 불안정하게 만듦
- 서버 장애나 신용카드 만료 시 앱이 작동을 멈추는 구조
사용자 콘텐츠를 서드파티 AI 제공자에게 스트리밍하는 순간, 제품의 성격 자체가 변함
- 데이터 보존, 동의, 감사, 유출, 정부 요청, 학습 데이터 사용 등의 문제가 수반
네트워크 상태, 외부 벤더 가동률, rate limit, 계정 결제, 자체 백엔드 상태에 모두 의존하게 되어 스택이 복잡해짐
결과적으로 UX 기능 하나가 비용이 발생하는 분산 시스템으로 바뀌는 셈임
로컬에서 처리 가능한 기능을 굳이 클라우드로 보내는 것은 자충수

로컬 디바이스 활용의 당위성

현재 주머니 속 기기의 실리콘은 10년 전과 비교할 수 없을 만큼 빠르며, 전용 Neural Engine이 대부분 유휴 상태
- 그 사이 버지니아 서버 팜에서 JSON 응답을 기다리는 구조는 비합리적
"AI everywhere"가 목표가 아니라 유용한 소프트웨어가 목표여야 함
로컬에서 처리 가능한 기능이라면, 외부 의존성을 선택하는 것 자체가 불필요한 피해

The Brutalist Report의 온디바이스 요약

The Brutalist Report는 1990년대 스타일 웹에서 영감을 받은 뉴스 애그리게이터 서비스임
최근 native iOS client를 만들면서 고밀도 뉴스 읽기 경험을 유지하는 것을 설계 목표로 삼음
iOS 클라이언트는 강한 대비의 헤드라인 목록, 웹을 읽기 어렵게 만든 요소를 제거하는 리더 모드, 선택적으로 기사를 요약하는 “intelligence” 뷰를 포함함
핵심은 요약이 Apple의 로컬 모델 API를 통해 온디바이스에서 생성된다는 점임
서버 우회, 프롬프트나 사용자 로그, 벤더 계정, “콘텐츠를 30일 보관한다”는 식의 각주가 필요 없음
모든 AI 사용이 서버 측에서 일어난다고 받아들이는 흐름이 너무 자연스러워졌고, 이를 되돌리려면 업계 차원의 노력이 필요함
일부 사용 사례는 클라우드 호스팅 모델만 제공할 수 있는 지능을 요구하지만, 모든 사용 사례가 그런 것은 아니므로 신중한 판단이 필요함

Apple 생태계의 로컬 AI 도구

Apple 생태계에서는 최근 1년 동안 개발자가 내장 로컬 AI 모델을 쉽게 활용할 수 있도록 투자가 이뤄짐
기본 흐름은 FoundationModels를 가져오고, SystemLanguageModel.default의 사용 가능 여부를 확인한 뒤, LanguageModelSession으로 프롬프트를 구성해 응답을 받는 방식임 import FoundationModels let model = SystemLanguageModel.default guard model.availability == .available else { return } let session = LanguageModelSession { """ Provide a brutalist, information-dense summary in Markdown format. - Use **bold** for key concepts. - Use bullet points for facts. - No fluff. Just facts. """ } let response = try await session.respond(options: .init(maximumResponseTokens: 1_000)) { articleText } let markdown = response.content
긴 콘텐츠는 일반 텍스트를 약 1만 자 단위로 나누고, 각 청크에서 간결한 “facts only” 노트를 만든 뒤, 두 번째 패스로 최종 요약을 결합할 수 있음
이런 작업은 로컬 모델에 잘 맞음
- 입력 데이터는 사용자가 이미 읽고 있는 콘텐츠라서 기기에 있음
- 출력은 가벼움
- 빠르고 비공개로 처리됨
- 사용자가 방금 불러온 페이지를 요약하는 작업이지, 세계 지식을 새로 만들어내는 작업이 아니므로 초인적 수준의 지능이 필요하지 않음
로컬 AI는 모델의 역할이 우주 전체를 검색하는 것이 아니라, 사용자가 소유한 데이터를 변환하는 일일 때 빛남

신뢰를 만드는 방식

이메일 요약, 노트에서 할 일 추출, 문서 분류 같은 AI 기능은 사람들이 원하지만 신뢰하지 못하는 기능에 속함
일반적인 클라우드 방식은 이런 기능을 모두 “데이터를 서버로 보내도 괜찮은지”를 묻는 신뢰 문제로 바꿈
로컬 AI는 이미 기기에 있는 데이터를 그 자리에서 처리하게 해 이 구조를 바꿈
사용자 신뢰는 2,000단어짜리 개인정보 처리방침으로 만들어지지 않음
애초에 그런 개인정보 처리방침이 필요 없도록 만드는 방식이 신뢰를 만듦

구조화된 출력과 타입 기반 AI

Apple이 최근 잘한 선택 중 하나는 “AI output”을 구조 없는 텍스트 덩어리에서 타입이 있는 데이터로 옮긴 점임
“모델에게 JSON을 요청하고 잘 나오길 바라는” 방식 대신, 원하는 결과를 나타내는 Swift struct를 정의하는 방식이 더 새롭고 나은 패턴임
각 필드에 자연어 가이드를 주고, 모델에게 해당 타입의 인스턴스를 생성하게 함 import FoundationModels @Generable struct ArticleIntel { @Guide(description: "One sentence. No hype.") var tldr: String @Guide(description: "3–7 bullets. Facts only.") var bullets: [String] @Guide(description: "Comma-separated keywords.") var keywords: [String] } let session = LanguageModelSession() let response = try await session.respond( to: "Extract structured notes from the article.", generating: ArticleIntel.self ) { articleText } let intel = response.content
이 방식이면 UI가 Markdown의 불릿을 긁어내거나 모델이 JSON 스키마를 기억했기를 기대할 필요가 없음
앱은 실제 필드를 가진 실제 타입을 받아 일관되게 렌더링할 수 있음
앱이 실제로 사용할 수 있는 구조화된 출력을 만들며, 이 과정 전체가 로컬에서 실행됨
단순히 편리한 인터페이스가 아니라 엔지니어링 품질 개선
로컬 퍼스트 앱에서 "AI는 신기한 기능"이 아닌 "신뢰할 수 있는 서브시스템" 으로 기능하게 만드는 차이가 됨

"로컬 모델은 덜 똑똑하다"에 대한 반론

로컬 모델이 클라우드 모델만큼 똑똑하지 않다는 점은 맞지만, 대부분의 앱 기능에는 해당하지 않음
대부분의 기능이 요구하는 것은 셰익스피어를 쓰거나 양자역학을 설명하는 능력이 아니라, 요약, 분류, 추출, 재작성, 정규화 중 하나를 안정적으로 수행하는 능력
이런 작업에 로컬 모델은 충분히 뛰어남
로컬 모델을 인터넷 전체의 대체물로 쓰면 실망하지만, 앱 내부의 "데이터 변환기" 로 사용하면 왜 서버에 보냈는지 의문이 들 정도
클라우드 모델은 진짜 필요할 때만 사용하고, 사용자 데이터는 제자리에 둬야 함
AI를 사용할 때 채팅 박스를 붙이는 것이 아니라, 타입 출력과 예측 가능한 동작을 갖춘 실제 서브시스템으로 활용해야 함