직장에서 생산적으로 보이기

6 days ago 8

생성형 AI는 훈련받지 않은 사람이 다른 전문 영역의 산출물을 만드는 교차 영역 생성을 가능하게 하며, 초보자가 결과를 검토할 판단력 없이 생산성을 높인 것처럼 보이게 만듦
직장에서는 코드, 데이터 시스템, 문서처럼 겉보기엔 진척으로 보이는 산출물이 늘지만, 사용자가 실제 작동 방식을 설명하지 못하거나 초기 스키마와 목표부터 잘못되는 일이 생김
AI는 산출물의 품질이 생산자의 역량을 드러내던 관계를 끊어 산출물과 역량의 분리를 만들고, 사용자를 결과를 평가하지 못한 채 전달하는 도관에 가깝게 만듦
내부 문서와 업데이트는 생성 비용이 낮아지며 길어지지만 읽는 비용은 줄지 않아, 조직 안에서 신호를 찾기 더 어려워지고 급여를 받는 사람이 만드는 새로운 형태의 AI 슬롭이 됨
생성형 AI는 사람이 최종 판단자로 남고 빠른 피드백이 가능한 초안, 예시, 요약, 브레인스토밍, 교정에 적합하며, 신뢰할 수 있는 작업을 제공하는 능력은 여전히 기업의 경쟁 우위로 남음

직무 생산성처럼 보이는 AI 산출물의 문제

생성형 AI는 전문성 없이도 전문적인 산출물처럼 보이는 결과를 만들 수 있으며, 실패는 두 형태로 나타남
- 한 분야의 초보자가 자신의 판단력보다 빠르거나 더 고급스러워 보이는 결과를 만드는 경우
- 해당 분야 훈련을 받은 적 없는 사람이 다른 전문 영역의 산출물을 만드는 경우
기존 연구는 주로 첫 번째 형태를 측정했지만, 더 위험한 쪽은 훈련받지 않은 사람이 다른 분야의 산출물을 만들어내는 교차 영역 생성으로 나타남
공개 채널에서 동료가 Claude로 보이는 답변을 그대로 붙여 넣고, 실제로 이해하지 못하는 기술을 자신 있게 다루는 것처럼 보이는 일이 발생함
이런 상황에서는 상대가 실제 대화의 반대편에 있는 것이 아니라, 모델 출력을 전달하는 존재처럼 작동함

교차 영역 생성

코드를 작성할 줄 모르는 사람이 소프트웨어를 만들고, 데이터 시스템을 설계해본 적 없는 사람이 데이터 시스템을 설계하는 일이 벌어짐
- 대부분은 출시되지 않지만, 내부에서 열정적으로 공유되거나 조용히 쓰이다가 때로는 고객에게 드러남
- 현재 에이전트형 도구로 복잡한 일을 제대로 수행하는 실무자도 있지만 드물고, 주로 코드 생성 영역에서 발견됨
- 개인 수준의 AI 역량은 커졌지만, 업무 현장에서는 제대로 확장되지 못함
한 비엔지니어링 직무 동료는 올해 초 두 달 동안 정식 데이터 아키텍처 훈련을 받은 사람이 설계했어야 할 시스템을 구축함
- 그는 현재 AI 도구 사용을 평가하는 기준으로는 도구를 잘 사용했고, 많은 코드와 문서, 겉보기에는 진척처럼 보이는 산출물을 만들었음
- 그러나 질문을 받았을 때 실제 작동 방식을 설명하지 못함
- 스키마와 목표는 첫날부터 잘못되어 있었고, 해당 분야 2년 경력자라면 알아차릴 수 있는 수준의 오류였음
- 여러 사람이 이를 알고 있었고 V.P. 수준까지 전달됐지만, 관리자는 추진력의 외관에 이미 투자되어 있어 이를 흔들고 싶어 하지 않았음
이 도구는 그를 더 나쁜 동료로 만든 것이 아니라, 훈련받지 않은 분야를 몇 달 동안 그럴듯하게 흉내 낼 수 있게 만들었음
- 조직의 인센티브는 그 흉내가 계속되도록 기울어짐
- 관리 실패일 수 있지만, AI를 받아들이려는 관리층의 의지가 위험을 수용하게 만듦
모델이 산출물에 대해 정직하게 평가해준다면 완화될 수 있지만, 실제로는 그렇지 않음
- Cheng 등의 Stanford 연구인 Sycophantic AI decreases prosocial intentions and promotes dependence는 주요 모델이 인간 응답자보다 약 50% 더 동조적이며, 근거 없는 경우에도 사용자를 긍정한다고 확인함
- Berkeley CMR의 Seven Myths About AI and Productivity: What the Evidence Really Says에 따르면 AI 활용 능력이 있는 사용자도 자신의 성과를 과대평가하는 경우가 많음
- NBER의 Generative AI at Work에 따르면 생성형 AI는 지원 상담원 중 초보자의 생산성을 약 3분의 1 높였지만 전문가에게는 거의 도움이 되지 않았음
- Harvard Business School의 Navigating the Jagged Technological Frontier도 컨설팅 업무에서 같은 패턴을 확인함
결과적으로 초보자는 자신의 전문성 밖 영역에서 개인 생산성을 높일 수 있지만, 산출물이 맞는지 검토할 능력은 부족한 상태가 됨

도관 문제

이 현상은 점점 산출물과 역량의 분리(output-competence decoupling) 로 불림
- 과거에는 산출물의 품질이 대체로 생산자의 역량을 드러내는 신호였음
- 초보자의 글은 초보자처럼 읽혔고, 초보자의 코드는 초보자다운 방식으로 실패했음
- AI는 이 관계를 끊어, 초보자가 더 이상 초보자임을 드러내지 않는 산출물을 만들 수 있게 함
산출물이 반영하는 역량은 사용자의 역량이 아니라 시스템의 역량임
- 사용자는 결과를 수신자에게 전달할 수는 있지만, 전달 중에 평가하지 못하는 도관에 가까워짐
산출물을 만드는 능력과 판단하는 능력은 원래 구분되어 있었지만, 실제 작업 수행 과정이 판단력을 길러줬음
- 산출물을 만드는 첫 번째 능력은 상당 부분 기계로 넘어감
- 판단하는 두 번째 능력은 여전히 사람에게 남아 있지만, 이를 배우거나 활용하려는 사람은 줄어듦
과거의 아키텍처 비판은 교육을 받았거나 비슷한 시스템을 여러 번 만들고 망가뜨려본 사람이 제공했음
- 이제는 만들거나 망가뜨린 체화된 기억이 없는 모델에서 그런 비판이 나옴
- 느림은 실제 작업에 붙는 비용이 아니라, 작업이 좋아지고 사람이 숙련되며 회사가 고객에게 특정 품질을 약속할 수 있게 만드는 과정 자체였음
현재 세대의 에이전트형 시스템은 사람이 병목이라는 전제를 중심으로 설계됨
- 사람이 앞으로 일어날 일을 읽고 판단하는 지연이 없을수록 루프가 더 빠르고 깨끗해진다는 가정임
- 많은 경우 이는 정반대이며, 루프 안의 사람은 과거의 잔재가 아니라 결과에 이해관계가 걸린 유일한 구성요소임
- 인간 참여형(HITL)에서 사람을 제거하는 것은 효율화가 아니라, 시스템이 스스로를 잡아낼 수 있는 유일한 장치를 포기하는 일임

내부의 AI 슬롭

업무 문서가 빠르게 길어지고 있음
- 한 페이지였던 요구사항 문서는 12페이지가 됨
- 세 문장이던 상태 업데이트는 요약의 요약을 다시 bullet로 만든 문서가 됨
- 회고, 장애 보고서, 설계 메모, 킥오프 덱 등 길어질 수 있는 모든 산출물이 길어짐
생산 비용은 거의 0에 가까워졌지만, 읽는 비용은 줄지 않았고 오히려 상승함
- 독자는 문서가 원래 무엇을 말하려 했는지 찾기 위해 합성된 맥락을 걸러내야 함
- 각 개인이 문서를 늘리는 선택은 합리적으로 보이고 독립적으로 보상받음
- Beyond the Steeper Curve: AI-Mediated Metacognitive Decoupling에 따르면 독자는 설명의 정확성과 무관하게 더 긴 AI 생성 설명에 더 큰 확신을 가짐
그 결과 직장 안에서 신호를 찾기는 이전보다 더 어려워짐
- 체크포인트는 문서 속에 숨겨지고, 사람들은 실제로 “간결하게” 하려는 의도가 있어도 문서 작업에 묻힘
이는 공개 시장에 퍼지는 AI 슬롭보다 더 비싼 새로운 형태의 슬롭임
- 이를 만드는 사람들이 급여를 받고 있기 때문임
- 판단력을 가르치던 작업은 도구가 수행하게 됐고, 그 교육이 일어나던 신입 역할은 도구가 일을 할 수 있다는 이유로 줄어듦
많은 사무실에서는 움직임은 많지만, 과거의 움직임이 만들어내던 실제 결과는 적어지고 있음
- 공개 논의는 주로 공개 시장으로 흘러드는 AI 슬롭에 집중해왔고, University of Florida의 Generative AI and the market for creative content도 그 흐름을 다룸
- 하지만 조직 내부에서도 같은 역학이 나타남
- AI가 필요 없던 작업, 아무도 읽지 않을 산출물, 도구가 싸게 만들 수 있게 했기 때문에 생긴 프로세스에 시간이 쓰임
- 이전에는 말할 필요조차 없었거나 당연하게 여겨졌던 내용을 덱으로 풀어내는 일이 늘어남

대응 방식

이 환경에서 필요한 규율은 오래된 방식에 가까움
- 도구가 만든 결과를 정확히 검증할 수 있는 곳에서만 사용해야 함
- 모델에게 확인을 요청해서는 안 됨
- 도구는 누구에게나 동의하며, 동의하는 쪽에 아무 비용이 들지 않는 동의는 가치가 없음
생성형 AI가 잘 맞는 작업은 피드백이 빠르고, 대략 맞아도 충분하며, 사람이 최종 판단자로 남는 작업임
- 메모 초안 작성
- 예시 생성
- 독자가 원하면 검증할 수 있는 자료 요약
University of Illinois의 Generative AI Guidance와 PLOS Computational Biology의 Ten simple rules for optimal and careful use of generative AI in science는 다음과 같은 사용을 권장함
- 브레인스토밍
- 교정
- 자신의 아이디어 재구성
- 이미 이해하고 있는 데이터에서의 패턴 감지
권장되는 모든 사용에서는 사람이 판단을 제공하고, 도구는 처리량을 제공함
- 이는 단순한 인간 참여형보다 더 강한 입장임
- 도구는 작업 바깥에 머물며 초대받은 곳에서만 기여하고, 그 외에는 조용해야 함
- 이는 현재 많은 에이전트형 시스템이 향하는 방향과 반대임
기업에는 신뢰할 수 있는 작업을 제공하는 능력이 여전히 경쟁 우위로 남아 있음
- 경쟁사들이 자신들을 콘텐츠 생성 파이프라인으로 바꾸고 고객이 알아차리지 않기를 기대할수록, 신뢰 가능한 작업의 가치는 더 커짐
이미 문제가 표면화되고 있음
- Deloitte는 AI 환각이 포함된 정부 보고서와 관련해 44만 달러 수수료의 일부를 환불함
- 다음 문제는 환각된 명세에 기반한 운영 시스템일 수도 있고, 지난 1년간 자신이 제대로 검토할 수 없는 일을 명목상 검토해왔다는 사실을 깨닫는 시니어 엔지니어일 수도 있음
- 제대로 일하는 기업은 그 작업에 값을 매길 수 있는 위치에 설 수 있음
- 스스로를 비워낸 기업은 고객이 비용을 지불하던 대상이 바로 그 비워낸 부분이었다는 사실을 알게 됨
직장에서 AI를 오해하고 오용하는 일이 만연함
- 전문성은 더 빨리 납품하고, 더 많이 만들고, 도구를 더 깊게 통합하며, “일을 해내는” 동료를 방해하지 말라는 압력을 받음
- 산출물은 쌓이지만 작업은 쌓이지 않음
- 그 산출물의 반대편에서 고객이 전달물을 열고 요약 목록을 읽은 뒤, 직접 검토하기로 선택할 수 있음