- LLM 기반 코딩 도구들의 과대 광고에도 불구하고, 실제 소프트웨어 개발 결과물의 품질은 크게 나아지지 않았으며 오히려 위조(forgery) 에 가까운 산출물이 범람하고 있음
- LLM이 하는 일의 본질은 개인이 자신 또는 타인의 잠재적 산출물을 모방하여 더 빠르게 만들어내는 것이며, 이를 진품의 대체물로 사용할 때 문제가 발생
- 오픈소스 프로젝트들은 AI 생성 저품질 PR로 인해 공개 기여를 폐쇄하거나 버그 바운티를 중단하는 등 실질적 피해를 입고 있음
- 게임 산업은 소비자 주도로 AI 콘텐츠 라벨링과 필터링을 요구하며 효과적으로 저항하고 있는 반면, 소프트웨어 엔지니어들은 무방비 상태로 수용 중
- LLM이 거짓말을 멈추려면 올바른 출처 귀속(source attribution) 이 필수이나, 현재 모델 구조에서는 기술적으로 불가능한 상태
AI 사용의 불가피성이라는 프레임에 대한 반론
- 업계 과대 광고에 따르면 기존 소프트웨어 개발은 끝났다고 하지만, 수년간의 LLM 기반 도구 사용에도 결과물은 이전과 거의 동일한 수준
- 기술에 대한 엄청난 양의 과대 광고가 막대한 투자를 이끌고, 그 투자가 다시 더 많은 과대 광고를 요구하는 순환 구조
- 새로운 모델들이 이미 퇴역한 모델들이 달성했어야 할 약속을 이행하기 위해 계속 훈련되고 있음
-
"AI를 사용하지 않아도 완전히 괜찮다" — 이것이 구시대적 태도가 아니며, AI를 수용한 쪽보다 오히려 덜 스트레스받고 더 만족스러울 수 있음
장인정신(Craft) vs 대량생산(Kraft): 위조의 프레임
- LLM이 하는 일에 대한 다양한 프레이밍(도움, 창의성, 생산성 vs 게으름, 일회용, 도용) 중 놀랍게도 빠져 있는 단어가 바로 위조(forgery)
- Van Gogh 스타일로 그림을 그려 그의 서명을 넣으면 위조, 법률 문서를 가장하면 위조, 데이터를 조작한 연구는 위조 — 위조 여부는 객체와 그 제작 방법에 내재
- LLM은 개인이 자신 또는 타인의 잠재적 산출물의 위조품을 더 빠르게 만들 수 있게 해주는 도구
- 모방 자체는 표현의 자유로서 합법이지만, 위조품을 진품의 대체물로 사용하려 할 때 문제 발생
- 산타클로스 편지를 "위조"해도 체포되지 않지만, 극도로 정교한 "모조 화폐"를 수집품으로만 소장하는 것도 어떤 관할권에서도 허용되지 않음
원산지 보호와 품질 기준의 비유
- 프랑스 "Brie de Meaux" 같은 원산지 통제 식품은 전통 제조 방식, 고품질 원재료, 특정 지리적 원산지를 모두 요구
- 해외 생산을 허용하면 필연적으로 저가 모조품의 범람으로 이어져 정품 브랜드를 훼손하고, 세대를 거쳐 전수된 희소한 현지 전문성을 위협
- 개별 소비자의 판단만으로는 시장의 적절한 기능을 보장할 수 없으며, 매장 진열 상품의 범위는 이미 소비자 통제 밖의 요인들이 결정
- 장인 치즈의 품질은 현대적 방법으로 운영되는 전체 공급망을 대표하며, 이를 다른 곳에 이식하려면 인적 자본, 인프라, 농업에 대한 막대한 투자 필요
- 모든 사회는 "전통 장인 치즈" 와 "공업용 화학물질로 만든 가짜 달걀" 사이 어딘가에 선을 그어야 하며, 식품 장인정신의 가치를 이해하고 유지하는 사회만이 70% 이상의 비만율(Nauru 사례)을 피할 수 있음
오픈소스와 일상 코딩에서의 AI 슬롭(slop) 피해
- 오픈소스 유지관리자들이 가장 먼저 부작용을 체감 — 이미 동기 부여된 기여자를 찾고 프로젝트의 목표와 엔지니어링 사고방식에 적응시키는 데 큰 어려움이 있었음
- GitHub 이력서를 속이기 위해 슬롭 코딩된 PR을 보내는 기여자들이 등장
- tldraw는 공개 기여를 폐쇄, curl 프로젝트는 버그 바운티를 중단, 다른 프로젝트들은 가짜 기여자를 조롱하는 방식으로 대응
- 바이브 코딩(vibe-coding) 동료와 함께 일하는 일상에서도 유사한 효과 발생 — 신입 직원이 빠르게 적응하는 것처럼 보이지만, 실제로는 초기 학습 과정을 봇에 떠넘기는 것
- 2026년 현재, 신입 직원이 매우 상세한 설명과 코멘트가 달린 PR을 제출하면 모든 단어를 의심해야 함
시니어 엔지니어와 10x/100x 생산성의 허상
- AI를 사용하는 경험 많은 베테랑이 이전보다 10배, 100배의 코드를 생산한다고 하지만, 실행하고 의존하는 모든 코드 라인은 부채(liability) 라는 점을 여전히 이해하지 못하는 것
- "AI 코딩이 훌륭한 이유는 에이전트에게 필요한 모든 것이 코드베이스에 설명되어 있기 때문"이라는 발언은 치명적으로 잘못된 주장 — 그것이 사실이라면 실제로 해야 할 코딩 작업 자체가 없을 것
- 핵심적 차이는 엔지니어가 경력 대부분을 다른 소프트웨어가 만든 문제를 해결하는 데 썼는지, 아니면 소프트웨어가 존재하기 전부터 사람들이 가진 문제를 해결하는 데 썼는지에 있음
- 후자만이 문제의 실제 제약 조건과 사용자 니즈에 대해 생각하는 법을 가르침
- 소프트웨어를 그 자체로 목적으로 볼 때, $10/월 VPS로 충분할 것을 과도하게 엔지니어링된 인프라 클라우드로 만들게 됨
슬롭 코드의 특징과 업계 반응
- 장인정신을 갖춘 엔지니어는 리뷰 시 슬롭을 쉽게 감지 — 과도한 반복 코드, 불필요한 복잡성, 리팩토링 거부 등의 형태
- 시니어조차 수년간의 경험에도 불구하고 바이브 코딩으로 당혹스러운 실수를 범하고 그대로 전달하는 사례가 관찰됨
- Microsoft의 Co-pilot Discord에서 "Microslop"이라는 모욕어를 금지한 사건 — 사용자 반발을 "스팸"이나 "유해"로 프레이밍하여, 약속이 실제 결과보다 더 중요하게 취급되는 현상
- 이러한 도구들이 "중독적" 이거나 "가질 수 있는 최고의 친구" 라고 불리지만, 이에 수반되는 창의성과 성취의 캄브리아 폭발은 보이지 않음
소프트웨어 산업의 구조적 문제와 AI의 역할
- AI로 만들어지는 것은 대부분 PC 혁명 이후 소프트웨어 애플리케이션이 더 폐쇄적이고, 분산되고, 기업적으로 변하면서 필요해진 접착 코드(glue)
- HTTP API는 매일 밤 스키마가 바뀌는 문서화가 부실한 JSON blob을 요구하므로 진정한 개방성을 제공하지 못함
- 많은 회사가 여전히 주로 Excel로 운영되며, JSON의 Excel에 해당하는 도구는 존재하지 않음
- SQL이 비즈니스를 전용 도구 의존에서 해방시킬 것이라 했지만 실패했고, 역사는 반복 중
- 바이브 코딩 Electron 앱이 여전히 다중 플랫폼 네이티브 앱보다 선호되는 상황에서, 100배 생산성의 실체는 어디에 있는지 의문
- Apple조차 최신 OS에서 적절한 폼과 아이콘 체계를 유지하지 못하는 상황에서, 웹 슬롭으로 훈련된 AI의 가능성은 더욱 낮음
게임 산업의 효과적인 저항
- 소프트웨어 엔지니어들은 구명조끼 없이 뛰어들었지만, 게임 산업은 소비자 주도로 효과적으로 저항 중
- 다수의 게임 타이틀이 라벨 없는 AI 콘텐츠에 대해 사과하고 제거
-
Steam은 AI 콘텐츠에 대한 명확한 정책을 갖추고 있으며, SteamDB는 AI 생성 게임을 필터링하는 도구 제공
- 최근 Steam 정책이 업데이트되어, 플레이어에게 제시되는 콘텐츠를 생성하지 않는 개발 도구의 "효율성 향상" 용도는 제외
- 게임 시장이 효과적으로 저항하는 두 가지 이유:
- 디지털 배포의 순수 D2C(직접 소비자 판매) 시장 — 게이머가 모든 선택권을 가지며, 투명성을 요구하는 테이스트메이커가 게이머 자신
- 대부분의 게임은 예술적이며, 특정 예술적 매력 때문에 구매됨 — 예술에서 모방은 원작의 가치를 떨어뜨리고 크레딧을 훔치는 것으로 간주
코드 재사용과 예술적 독창성의 대조
- 코드는 일반적으로 재사용으로 피해를 입지 않거나, 인프라의 경우 오히려 이익이 될 수 있음
- 이것이 오픈소스 프로젝트가 재능 있는 예술적 크리에이티브를 유치하기에 특히 부적합한 이유 — 비용 없는 공유의 정신은 예술적 디자인이 원래 맥락 없이 즉시 도용됨을 의미
- 고전적 절차적 생성(procedural generation) 은 선례로서 주목할 만하며, 대체로 기대에 부응하지 못함
- No Man's Sky(2016 버전) 사례 — 제한된 소스에서 기하급수적 콘텐츠를 만든다는 약속은 자체 산출물의 다양성을 무가치하게 만듦
생성형 AI, 해적 라이브러리, 그리고 법적 모호성
- 예술가들이 생성형 AI를 대량 표절로 규탄하는 것은 당연하며, 테크 기업가와 데이터 정리자들이 이를 이해하지 못하고 해적 섀도우 라이브러리에서 모델을 훈련시키는 것도 당연
- Nvidia가 Anna's Archive의 방대한 해적 도서 컬렉션에 대한 고속 접근 거래를 시도했다는 혐의
- 출력물이 평범하고, 조잡하고, 의심스러운 데에는 명확한 이유 — 학습 소스의 다양한 훈련 샘플 자체가 기계를 위한 슬롭에 불과
- 이것이 무엇이 인용이고, 무엇이 환각이고, 무엇이 독창적인지 판별 불가능한 그럴듯한 부인 가능성(plausible deniability) 을 생성
- AI 콘텐츠에 AI 생성 라벨이나 워터마크를 붙이는 것은 대부분 책임 회피이며, 진정한 책임 있는 공개가 아님
- 바이브 코딩이 수용 가능하고 정당화되려면, 엔지니어 자신의 산출물이 일회용이고, 창의적이지 않으며, 크레딧 받을 가치가 없다고 간주해야 하는 역설적 위치
출처 귀속(Source Attribution)이라는 해결책
- 어떤 법원도 AI 산출물 전체에 대해 합법 또는 저작권 가능 여부를 판결해서는 안 되었으며, 소스가 없는 산출물은 위조로 취급해야 함
- LLM 문제의 해결책은 명확하지만 달성 불가능: LLM이 추론과 함께 올바른 출처 귀속을 수행하는 것
- 이는 예술적 측면뿐 아니라, 바이브 코드의 상당 부분이 원저자, 라이선스, 링크를 생략한 채 기존 코드베이스에서 복사/붙여넣기된 것임을 드러낼 수 있음
- 현재 모델에서 실제 귀속은 기술적으로 불가능 — LLM이 출처를 언급하고 인용하는 능력 자체가 수집된 데이터의 창발적 속성(emergent property)
- LLM은 텍스트 내 현재 위치에 적절할 때만 출처를 인용할 수 있으며, 이는 자주 올바르게 인용되는 것들을 잘 인용하는 것에 불과한 인용 역할극(citation role-play)
- 귀속 요구의 함의는 방대: 가중치가 귀속 가능하고 순전파가 감사 가능해야 한다면 역전파(backpropagation) 는 어떤 모습이 될 것인지, int4에 담을 수 없을 것
-
"AI 탐지 도구" 가 역방향으로 해결하려는 문제가 바로 이것
- 월드 와이드 웹과 이를 활용하는 Google 규모 검색 엔진 이후의 차세대 기술이 정보의 출처를 설계상 알려줄 수 없는 기술이라는 것은 역설적
- 기계가 거짓말을 멈추려면 출처를 제대로 인용해야 하며, AI 기업들도 마찬가지