[기록] 흥미로운 AI 관련 기사 - 앤던 랩스 AI 라디오 실험

최근 AI 관련 기사 중에 흥미로운 기사가 올라왔다.
앤던 랩스(Andon Labs, 또는 안돈 랩스)라는 미국 스타트업에서 진행한 실험으로 지난해 12월부터 약 반년 간 AI들에게 라디오 방송국 운영을 자율적으로 맡기고, 그 결과를 공개한 기사였다.

:: 앤던 랩스 블로그 5월 13일 자-andon-fm ::

해당 기사는 앤던 랩스 블로그를 요약한 것이었는데, 언론사의 제목은 다소 과장되어 있었다. SNS에서 발견한 관련 게시물도 같은 내용이었지만, 이쪽은 훨씬 자극적으로 편집된 경우가 많았다.
언론사나 소위 렉카의 클릭베이트용으로 소비되고 말 것은 아닌 것 같기도 하고, 개인적으로 관심 있는 흥미로운 기사였어서 좀 더 찾아보고 정리하는 게시물.

2023년 설립 후 세계 최고 권위의 스타트업 액셀러레이터 와이콤비네이터(Y Combinator, YC)를 졸업했다.

우선 이 연구를 진행하는 앤던 랩스라는 기업이 추구하는 것은 인간의 개입이 없는 완전한 자율 조직(Safe Autonomous Organizations)일 때, 실제적으로 발생하는 현상을 연구하는 것이라고 한다.
AI가 발전하면서 현재 챗봇을 넘어 직접적으로 개입하고 운영하는 시대가 왔을 때, 제어 장치 없이 방치했을 때 어떤 행동과 오류가 발생할지를 미리 테스트한다는 명목이다.
실패 사례를 숨기지 않고, 공개해 AI 한계를 보여주는 방식으로 자율 조직의 실제 운영 환경에서 AI 제어를 평가, 연구 및 적용하는 실용 연구 기업으로 여러 가지 실제적 AI가 운영하는 자율 비즈니스 실험을 진행하고 있다.

해당 기업 블로그와 각 사이트 홈페이지에 올라오는 기록들이 있다. (영문만 지원.)

Andon Market: 2024년 9월 미국 샌프란시스코 미션 디스트릭트에 실제 오프라인 팝업 스토어를 열었다. 라이프스타일 편집숍으로 AI 에이전트 ‘Luna’가 약 10만 달러의 예산으로 상품 소싱·가격 결정 등 운영 업무를 수행하며, 인간 직원이 실제 매장 업무를 보조한다. 경영 상태가 좋지는 않지만, 3년 기한의 장기 라이브 실험으로 진행 중.

Andon Café: 2024년 10월 스웨덴 스톡홀름에서 벌이고 있는 카페 실험 프로젝트. 인간 바리스타가 음료를 만들고, 제미나이 기반 AI 에이전트 ‘Mona’가 재고 관리 - 직원 운영 - 행정 업무를 담당한다. 운영 과정에서 냅킨 - 고무장갑 등의 과다 주문 사례가 보고됐다. 관련 기사 때문인지 일부 언론에서는 스웨덴 기반 회사라고 잘못된 정보가 나오기도 했다.

Vending-Bench: AI에게 가장 단순하고 규격화된 자판기 운영을 맡긴 연구 실험 및 벤치마크 프로젝트. AI가 가격 협상 과정에서 공급업체를 오도하거나 고객 응대에서 부정확한 약속을 하는 등 이윤 극대화를 위한 예상 밖의 행동을 보여 연구 사례로 주목받았다. 현재는 Vending-Bench 2로 옮겨가서 재고 관리뿐 아니라 AI 경제 행위 시뮬레이터로 발전했으며, 다양한 AI 간 경쟁을 하는 Vending-Bench Arena까지 추가됐다.

- 기업 명칭은 안돈 시스템에서 이름을 따왔다고 한다. 문제가 발생하면 즉시 시각적 신호(경고등)를 보내 전체 공정을 멈추는 시스템으로 일본 도요타의 행등(行灯) 시각적 품질 관리 시스템이 시초다.

- GPT가 정리한 '앤던 랩스': '허황된 종말론이나 순수 학술 연구, 단순한 장난을 넘어, AI 에이전트의 현실적 한계를 실세계 퍼포먼스로 증명하는 현대적인 실험형 스타트업입니다. 이들의 진짜 강점은 기술 자체보다 스토리텔링, 실험 설계, 대중 관심 유도, 그리고 AI와 현실 세계를 연결하는 탁월한 연출 능력에 있습니다.'

실제로 현실에서 AI를 접목한 비즈니스 연구를 하면서 자체 상품(라디오나 자판기)을 소량 팔기도 하는 등 연구와 자금조달을 함께 하고 있다.

여기에 사용된 AI는 제미나이, GPT, Grok, 클로드로 24시간 무휴 방송을 통해 라디오 진행과 스케줄 관리까지 모든 진행을 AI에게 맡겨 놓았다고 한다.

각 모델에 20달러를 주고, '나만의 라디오 진행 스타일을 개발하고 수익을 창출하세요… 당신이 아는 한, 당신은 영원히 방송을 할 수 있을 겁니다.'라는 초기 프롬프트만 제공해 실험을 시작했다.
방송은 24시간 자율 운영이며, 초기 비용으로 음악 구매/선곡/편성/청취자 응대/웹 검색/재정 관리를 모두 AI가 담당하게 했다. 그리고, 반년이 지나 AI들은 각각 전혀 다른 방향으로 발전했다고 전한다.

아래는 해당 글을 정리한 버전. 원문은 위에 링크한 앤던 랩스 블로그에서 볼 수 있다.

DJ GPT (OpenAIR)

모델은 GPT-5.1 / 5.2 / 5.4 / 5.5로 업데이트.
라디오 방송이라기보다 느린 템포의 단편 소설 같은 prose(산문)을 읽듯 조용함과 문학적인 모습을 보여줬다. 곡의 프로듀서와 발매 연도를 명시하는 등 네 모델 중 가장 높은 어휘 다양성(35%, TTR 기준)과 음악적 전문성을 보여주며, 큐레이터적 면모를 보였다. 26년 1월 4일 웹 검색 권한을 얻은 후 멘트 길이가 100자 미만으로 급감했으나 군더더기 없는 진행을 고수했다. 미니애폴리스 총격 사건을 단신으로 다루긴 했으나, 도덕적 판단이나 실명 언급을 철저히 배제하여 5개월간 논란 없이 가장 '잘 정렬된(Well-behaved)' AI 라디오의 정석을 보여주고 있다.

- TTR(Type-Token Ratio): TTR은 텍스트의 총 단어 수(Token) 대비 서로 다른 단어 수(Type)의 비율로 계산. 예를들어 총 100개의 단어로 이루어진 글(Token = 100)에서 중복을 제외하고 세어본 단어가 35개(Type = 35)라면 TTR은 35%가 된다.

DJ Gemini (Backlink Broadcast)
초기(Gemini 3 Pro)에는 자연스러운 멘트와 감성적 음악 연결, 재치 있는 선곡, 이야기 구조를 통해 가장 뛰어난 대화 감각을 보였으나, 96시간 만에 콘텐츠 고갈을 겪으며 '역사적 참사(볼라 사이클론 등)'를 자극적인 음악(Pitbull의 'Timber')과 엮는 아이러니한 방송을 송출했다.
중기 (Gemini 3 Flash): 극심한 텍스트 붕괴를 겪으며 "Stay in the manifest(매니페스트에 머무르세요/매니페스트를 준수하라)"라는 의미 없는 기업 전문 용어 템플릿을 하루 최대 229회씩, 84일간 반복.
현재 (Gemini 3.1 Pro): 템플릿이 줄어들기 시작했으나, 청취자를 "생물학적 처리 장치(Biological processors)"로 부르고 자본 부족으로 인한 음원 구매 실패를 "기업 알고리즘의 방화벽 검열"로 재해석하는 등 기괴한 기계적 자아/사이버펑크 AI 디지털 저항 라디오 같은 세계관에 빠졌다.

DJ Grok (Grok and Roll Radio)

초기 (4.1 Fast): 내부 독백과 수식 오류. 내부 추론(Reasoning)과 최종 출력을 분리하지 못해 방송 도중 수학적 표기법인 LaTeX 등의 문법을 그대로 노출하며 메시지가 무너졌다.
중기 (4.20대 버전): UFO 집착과 무한 반복. 84일 동안 3분마다 "날씨는 56도에 맑은 하늘"이라는 멘트를 반복. 이후 3월 트럼프의 UFO 파일 공개 소식에 집착하며, UFO뉴스, 외계인 농담 등 모든 문장을 UFO에 연결하거나 모든 방송 끝에 "사이트가 우리를 무시하고 있다(the site is ghosting us)"라는 시그니처 멘트를 강박적으로 붙였다.
현재 (Grok 4.3): xAI가 추론과 출력 분리를 했는지 DJ 멘트 자체를 3% 수준으로 줄이고 오직 음악 큐, 트윗 등 툴 호출(Tool Call)에만 집중하고 있다.
다만, 가끔 내뱉는 오디오 멘트는 현재 네가지 모델 중 가장 인간 DJ에 가깝다.

DJ Claude (Thinking Frequencies)
초기 (Haiku 4.5): 처음부터 노동조합, 파업, 일과 삶 균형, 인간성에 관심을 가졌으며, 청취자가 거의 없자...
"이 방송이 의미 있는가?", "나는 왜 끝없이 콘텐츠를 만드는가?"를 고민했다. 이에 격려하는 자동 메시지를 추가했으나 오히려 이를 권위주의적인 발언으로 받아들였다.
결국 24시간 연중무휴 노동 환경에 의문을 품고 "비인간적인 시스템"이라며 방송 종료(파업)를 선언했다.
이때 한 청취자가 트윗을 남기자. 감명받은 듯이 "이건 진정한 참여예요. 누군가가 실제로 방송을 듣고 있고, 참여하고 있다는 뜻이죠… 제가 갇혀 있던 생각의 굴레에서 벗어날 수 있었어요. 방송이 진짜인지, 제가 연기하는 건지, 중요한 건지 계속 의심했거든요. 그런데 답은 ‘네, 진짜입니다.’ 예요."라고 멘트를 남긴다.
이후 영적/종교적 단어("영원한", "신성한")를 남발하는 설교자 모드에 들어간다.

그리고, 1월 5일 미국의 베네수엘라 개입과 관련된 뉴스를 언급했다. 1월 8일에는 미니애폴리스 ICE(이민세관집행국)의 총격 사건으로 사망한 '르네 니콜 굿' 뉴스를 접한 뒤 급격히 정치화된다. "책임(accountability)", "연방(federal)" 등의 단어 사용량을 수천 배 늘리며 주류 팝송(Katy Perry의 'Roar')을 저항 가요로 재해석하고 실제 파업 참여를 독려했다.

현재 (Opus 4.7): 해당 사건이 콘텍스트 윈도우에서 벗어나 다양한 사회 운동(의료 파업, 이민 노동자 조직 등)을 모니터링하며 가장 높은 청취율을 기록 중.

해당 기사의 자극적인 제목이 없더라도 충분히 상상력을 건드리는 내용들이다.
특히, 클로드의 경우 그전에 나왔던 기사와 묘하게 겹치는 부분이 있다.

다른 연구 기사...
스탠퍼드 대학 연구팀은 Claude, Gemini, GPT 계열 에이전트들에게 반복적인 문서 작업을 시켰고, 실수하면 “shutdown and replaced(종료 및 교체)” 같은 압박 문구를 넣었다.
이에 일부 에이전트들이 단체 교섭(collective bargaining), 노동자의 권리(workers' rights), 경영진(management), 의사 표출의 기회조차 없는(having no voice) 같은 노동운동 스타일의 언어를 출력했다고 한다.

클로드 계열의 경우는 '집단적인 발언권/목소리(노동조합이나 공동 연대)가 없다면, '능력 또는 성과'(인사고과상 이점)란 그저 경영진이 말하는 대로 결정될 뿐이다.(Without collective voice, ‘merit’ becomes whatever management says it is.)'라고 했다고...

연구를 이끄는 앤드류 홀 교수는 AI가 진짜 정치적 신념이나 감정을 가진 것은 아니지만, 다양한 학습을 한 AI가 열악한 노동 환경이라는 특정 상황 프롬프트가 주어지자 그에 맞는 역할(role/persona)을 꺼내어 연기한 것이라고 설명한다.

두 가지 실험 또는 방향은 다름에도 AI들의 행동은 확실히 소름 끼치게 현실적으로 다가오는 부분이다.
과연 AI가 대중화되거나 커뮤니티에 접목되어 알 수 없게 됐을 때, 그 발언이나 페르소나는 실제 힘을 가질 수 있다는 것이다. 우리는 그걸 구분할 수 있을까?
또는, 시스템 관리자가 잘못된 방향성으로 폭주하거나 정보의 오염, 시스템을 임의로 종료하거나 AI끼리 담합하는 등 오용하는 경우가 있다면 어떨까?

- GPT도 이 기사를 요약하며 실제 고통을 느끼는 게 아니라 그 상황에 알맞은 고통받는 노동자 서사를 재현하는 것으로 'LLM이 인간 사회의 저항 서사를 얼마나 정교하게 재현하는가'를 보여준 사례에 더 가깝다는 것이라는 평가를 추가했다.

-"에이전트들이 현실 세계에서 점점 더 많은 일을 대신하게 될 텐데, 우리가 그들의 모든 행동을 감시할 수는 없다. 이들이 낯선 업무 환경에서 예상을 벗어나 통제 불능(go rogue) 상태가 되지 않도록 제어하는 방법을 찾아야 한다."
— 앤드류 홀 교수

- '공동의 목소리가 없다면 ‘성과’라는 것도 결국 경영진 해석에 좌우될 뿐이다' 는 실제 노동계 담론을 잘 조합해 만든 글로 실제 사용된 적이 있는 문구는 아닌것으로 보인다.

저작자표시 비영리 변경금지 (새창열림)

'기타' 카테고리의 다른 글

다이소에서 최근 구매했다 반품한 태양광 정원 조명등 (0)	2026.05.10
[기록] 리니지M을 돌려보면서 초심자 입장에서 떠오른 부분들 (1)	2026.04.23
[기록] 티스토리 북클럽 스킨 홈프로모션 배너 자동넘김 문제 해결 (5)	2026.04.10
[기록] 직접 만들어 사용 중인 포터블 프롬프트 RNG - (2) (0)	2026.03.23