LLM의 L은 "거짓말(Lying)"을 의미한다

6 hours ago 3

LLM 기반 코딩 도구들의 과대 광고에도 불구하고, 실제 소프트웨어 개발 결과물의 품질은 크게 나아지지 않았으며 오히려 위조(forgery) 에 가까운 산출물이 범람하고 있음
LLM이 하는 일의 본질은 개인이 자신 또는 타인의 잠재적 산출물을 모방하여 더 빠르게 만들어내는 것이며, 이를 진품의 대체물로 사용할 때 문제가 발생
오픈소스 프로젝트들은 AI 생성 저품질 PR로 인해 공개 기여를 폐쇄하거나 버그 바운티를 중단하는 등 실질적 피해를 입고 있음
게임 산업은 소비자 주도로 AI 콘텐츠 라벨링과 필터링을 요구하며 효과적으로 저항하고 있는 반면, 소프트웨어 엔지니어들은 무방비 상태로 수용 중
LLM이 거짓말을 멈추려면 올바른 출처 귀속(source attribution) 이 필수이나, 현재 모델 구조에서는 기술적으로 불가능한 상태

AI 사용의 불가피성이라는 프레임에 대한 반론

업계 과대 광고에 따르면 기존 소프트웨어 개발은 끝났다고 하지만, 수년간의 LLM 기반 도구 사용에도 결과물은 이전과 거의 동일한 수준
기술에 대한 엄청난 양의 과대 광고가 막대한 투자를 이끌고, 그 투자가 다시 더 많은 과대 광고를 요구하는 순환 구조
새로운 모델들이 이미 퇴역한 모델들이 달성했어야 할 약속을 이행하기 위해 계속 훈련되고 있음
"AI를 사용하지 않아도 완전히 괜찮다" — 이것이 구시대적 태도가 아니며, AI를 수용한 쪽보다 오히려 덜 스트레스받고 더 만족스러울 수 있음

장인정신(Craft) vs 대량생산(Kraft): 위조의 프레임

LLM이 하는 일에 대한 다양한 프레이밍(도움, 창의성, 생산성 vs 게으름, 일회용, 도용) 중 놀랍게도 빠져 있는 단어가 바로 위조(forgery)
Van Gogh 스타일로 그림을 그려 그의 서명을 넣으면 위조, 법률 문서를 가장하면 위조, 데이터를 조작한 연구는 위조 — 위조 여부는 객체와 그 제작 방법에 내재
LLM은 개인이 자신 또는 타인의 잠재적 산출물의 위조품을 더 빠르게 만들 수 있게 해주는 도구
모방 자체는 표현의 자유로서 합법이지만, 위조품을 진품의 대체물로 사용하려 할 때 문제 발생
산타클로스 편지를 "위조"해도 체포되지 않지만, 극도로 정교한 "모조 화폐"를 수집품으로만 소장하는 것도 어떤 관할권에서도 허용되지 않음

원산지 보호와 품질 기준의 비유

프랑스 "Brie de Meaux" 같은 원산지 통제 식품은 전통 제조 방식, 고품질 원재료, 특정 지리적 원산지를 모두 요구
해외 생산을 허용하면 필연적으로 저가 모조품의 범람으로 이어져 정품 브랜드를 훼손하고, 세대를 거쳐 전수된 희소한 현지 전문성을 위협
개별 소비자의 판단만으로는 시장의 적절한 기능을 보장할 수 없으며, 매장 진열 상품의 범위는 이미 소비자 통제 밖의 요인들이 결정
장인 치즈의 품질은 현대적 방법으로 운영되는 전체 공급망을 대표하며, 이를 다른 곳에 이식하려면 인적 자본, 인프라, 농업에 대한 막대한 투자 필요
모든 사회는 "전통 장인 치즈" 와 "공업용 화학물질로 만든 가짜 달걀" 사이 어딘가에 선을 그어야 하며, 식품 장인정신의 가치를 이해하고 유지하는 사회만이 70% 이상의 비만율(Nauru 사례)을 피할 수 있음

오픈소스와 일상 코딩에서의 AI 슬롭(slop) 피해

오픈소스 유지관리자들이 가장 먼저 부작용을 체감 — 이미 동기 부여된 기여자를 찾고 프로젝트의 목표와 엔지니어링 사고방식에 적응시키는 데 큰 어려움이 있었음
GitHub 이력서를 속이기 위해 슬롭 코딩된 PR을 보내는 기여자들이 등장
- tldraw는 공개 기여를 폐쇄, curl 프로젝트는 버그 바운티를 중단, 다른 프로젝트들은 가짜 기여자를 조롱하는 방식으로 대응
바이브 코딩(vibe-coding) 동료와 함께 일하는 일상에서도 유사한 효과 발생 — 신입 직원이 빠르게 적응하는 것처럼 보이지만, 실제로는 초기 학습 과정을 봇에 떠넘기는 것
2026년 현재, 신입 직원이 매우 상세한 설명과 코멘트가 달린 PR을 제출하면 모든 단어를 의심해야 함

시니어 엔지니어와 10x/100x 생산성의 허상

AI를 사용하는 경험 많은 베테랑이 이전보다 10배, 100배의 코드를 생산한다고 하지만, 실행하고 의존하는 모든 코드 라인은 부채(liability) 라는 점을 여전히 이해하지 못하는 것
"AI 코딩이 훌륭한 이유는 에이전트에게 필요한 모든 것이 코드베이스에 설명되어 있기 때문"이라는 발언은 치명적으로 잘못된 주장 — 그것이 사실이라면 실제로 해야 할 코딩 작업 자체가 없을 것
핵심적 차이는 엔지니어가 경력 대부분을 다른 소프트웨어가 만든 문제를 해결하는 데 썼는지, 아니면 소프트웨어가 존재하기 전부터 사람들이 가진 문제를 해결하는 데 썼는지에 있음
- 후자만이 문제의 실제 제약 조건과 사용자 니즈에 대해 생각하는 법을 가르침
소프트웨어를 그 자체로 목적으로 볼 때, $10/월 VPS로 충분할 것을 과도하게 엔지니어링된 인프라 클라우드로 만들게 됨

슬롭 코드의 특징과 업계 반응

장인정신을 갖춘 엔지니어는 리뷰 시 슬롭을 쉽게 감지 — 과도한 반복 코드, 불필요한 복잡성, 리팩토링 거부 등의 형태
시니어조차 수년간의 경험에도 불구하고 바이브 코딩으로 당혹스러운 실수를 범하고 그대로 전달하는 사례가 관찰됨
Microsoft의 Co-pilot Discord에서 "Microslop"이라는 모욕어를 금지한 사건 — 사용자 반발을 "스팸"이나 "유해"로 프레이밍하여, 약속이 실제 결과보다 더 중요하게 취급되는 현상
이러한 도구들이 "중독적" 이거나 "가질 수 있는 최고의 친구" 라고 불리지만, 이에 수반되는 창의성과 성취의 캄브리아 폭발은 보이지 않음

소프트웨어 산업의 구조적 문제와 AI의 역할

AI로 만들어지는 것은 대부분 PC 혁명 이후 소프트웨어 애플리케이션이 더 폐쇄적이고, 분산되고, 기업적으로 변하면서 필요해진 접착 코드(glue)
HTTP API는 매일 밤 스키마가 바뀌는 문서화가 부실한 JSON blob을 요구하므로 진정한 개방성을 제공하지 못함
많은 회사가 여전히 주로 Excel로 운영되며, JSON의 Excel에 해당하는 도구는 존재하지 않음
SQL이 비즈니스를 전용 도구 의존에서 해방시킬 것이라 했지만 실패했고, 역사는 반복 중
바이브 코딩 Electron 앱이 여전히 다중 플랫폼 네이티브 앱보다 선호되는 상황에서, 100배 생산성의 실체는 어디에 있는지 의문
Apple조차 최신 OS에서 적절한 폼과 아이콘 체계를 유지하지 못하는 상황에서, 웹 슬롭으로 훈련된 AI의 가능성은 더욱 낮음

게임 산업의 효과적인 저항

소프트웨어 엔지니어들은 구명조끼 없이 뛰어들었지만, 게임 산업은 소비자 주도로 효과적으로 저항 중
다수의 게임 타이틀이 라벨 없는 AI 콘텐츠에 대해 사과하고 제거
Steam은 AI 콘텐츠에 대한 명확한 정책을 갖추고 있으며, SteamDB는 AI 생성 게임을 필터링하는 도구 제공
- 최근 Steam 정책이 업데이트되어, 플레이어에게 제시되는 콘텐츠를 생성하지 않는 개발 도구의 "효율성 향상" 용도는 제외
게임 시장이 효과적으로 저항하는 두 가지 이유:
- 디지털 배포의 순수 D2C(직접 소비자 판매) 시장 — 게이머가 모든 선택권을 가지며, 투명성을 요구하는 테이스트메이커가 게이머 자신
- 대부분의 게임은 예술적이며, 특정 예술적 매력 때문에 구매됨 — 예술에서 모방은 원작의 가치를 떨어뜨리고 크레딧을 훔치는 것으로 간주

코드 재사용과 예술적 독창성의 대조

코드는 일반적으로 재사용으로 피해를 입지 않거나, 인프라의 경우 오히려 이익이 될 수 있음
이것이 오픈소스 프로젝트가 재능 있는 예술적 크리에이티브를 유치하기에 특히 부적합한 이유 — 비용 없는 공유의 정신은 예술적 디자인이 원래 맥락 없이 즉시 도용됨을 의미
고전적 절차적 생성(procedural generation) 은 선례로서 주목할 만하며, 대체로 기대에 부응하지 못함
- No Man's Sky(2016 버전) 사례 — 제한된 소스에서 기하급수적 콘텐츠를 만든다는 약속은 자체 산출물의 다양성을 무가치하게 만듦

생성형 AI, 해적 라이브러리, 그리고 법적 모호성

예술가들이 생성형 AI를 대량 표절로 규탄하는 것은 당연하며, 테크 기업가와 데이터 정리자들이 이를 이해하지 못하고 해적 섀도우 라이브러리에서 모델을 훈련시키는 것도 당연
- Nvidia가 Anna's Archive의 방대한 해적 도서 컬렉션에 대한 고속 접근 거래를 시도했다는 혐의
출력물이 평범하고, 조잡하고, 의심스러운 데에는 명확한 이유 — 학습 소스의 다양한 훈련 샘플 자체가 기계를 위한 슬롭에 불과
이것이 무엇이 인용이고, 무엇이 환각이고, 무엇이 독창적인지 판별 불가능한 그럴듯한 부인 가능성(plausible deniability) 을 생성
AI 콘텐츠에 AI 생성 라벨이나 워터마크를 붙이는 것은 대부분 책임 회피이며, 진정한 책임 있는 공개가 아님
바이브 코딩이 수용 가능하고 정당화되려면, 엔지니어 자신의 산출물이 일회용이고, 창의적이지 않으며, 크레딧 받을 가치가 없다고 간주해야 하는 역설적 위치

출처 귀속(Source Attribution)이라는 해결책

LLM 문제의 해결책은 명확하지만 달성 불가능: LLM이 추론과 함께 올바른 출처 귀속을 수행하는 것
- 이는 예술적 측면뿐 아니라, 바이브 코드의 상당 부분이 원저자, 라이선스, 링크를 생략한 채 기존 코드베이스에서 복사/붙여넣기된 것임을 드러낼 수 있음
현재 모델에서 실제 귀속은 기술적으로 불가능 — LLM이 출처를 언급하고 인용하는 능력 자체가 수집된 데이터의 창발적 속성(emergent property)
- LLM은 텍스트 내 현재 위치에 적절할 때만 출처를 인용할 수 있으며, 이는 자주 올바르게 인용되는 것들을 잘 인용하는 것에 불과한 인용 역할극(citation role-play)
귀속 요구의 함의는 방대: 가중치가 귀속 가능하고 순전파가 감사 가능해야 한다면 역전파(backpropagation) 는 어떤 모습이 될 것인지, int4에 담을 수 없을 것
"AI 탐지 도구" 가 역방향으로 해결하려는 문제가 바로 이것
월드 와이드 웹과 이를 활용하는 Google 규모 검색 엔진 이후의 차세대 기술이 정보의 출처를 설계상 알려줄 수 없는 기술이라는 것은 역설적
기계가 거짓말을 멈추려면 출처를 제대로 인용해야 하며, AI 기업들도 마찬가지