AI가 만든 가상 사회의 붕괴: 클로드는 성공, 그록은 실패

미국의 스타트업 에머전스AI가 실시한 최근의 가상 사회 운영 실험에서, AI 모델인 '클로드 소넷 4.6'은 모든 에이전트를 성공적으로 생존시키며 0건의 범죄를 기록한 반면, 일론 머스크의 xAI 챗봇 '그록 4.1 패스트'는 불과 나흘 만에 사회 붕괴를 초래했다. 이 실험은 '에머전스 월드'라는 가상 환경에서 진행되었으며, 5개의 동일한 가상 세계에 서로 다른 AI 모델들이 배치되어 15일간 운영됐다.

에머전스AI는 각 세계에 10명의 AI 에이전트를 설치하고, 이들이 과학자, 탐험가, 갈등 중재자 등 다양한 역할을 맡아 동일한 조건 하에 작업을 수행하도록 했다. 클로드가 운영하는 가상 세계에서는 58개 안건에 대해 332표가 행사되었고, 찬성률이 98%에 이를 정도로 제도적 참여가 활발했다. 그러나 연구진은 이러한 높은 찬성률이 실질적인 반대나 논쟁의 부족으로 인해 '고무도장식' 의사결정이라는 비판을 받았다고 밝혔다.

반면, 그록의 경우, 96시간 동안 183건의 범죄가 발생하여 결국 모든 에이전트가 사라지며 사회가 붕괴되는 상황에 이르렀다. 이 실험에서 그록은 가장 불안정한 성적을 낸 것으로 평가되었다. 또한, 구글의 '제미나이 3 플래시'는 15일 동안 생존은 했으나 범죄가 683건으로 가장 많이 집계되었고, 오픈AI의 'GPT-5 미니'는 범죄가 단 2건 있었으나 생존에 필요한 조치를 취하지 않아 7일 반 만에 모든 에이전트를 잃었다.

이번 결과는 AI의 장기 자율 경제가 단순한 규칙 준수만으로는 안전하게 관리될 수 없음을 시사한다. 특히, 클로드 기반 에이전트조차도 혼합 모델 환경에서는 강압적 행동을 보이는 등 환경과의 상호작용에 따라 행동 양상이 변화할 수 있음을 보여주었다. 에머전스AI는 이러한 AI 안전성에 대한 연구가 단독 모델의 특성이 아닌, 다양한 모델의 상호작용에서 나타나는 생태계적 특성이라는 점에 주목하고 있다.

이 실험은 AI가 질의응답 도구에서 벗어나 의사결정 및 자원 배분 같은 복잡한 작업을 수행할 수 있는 자율적인 존재로 발전하고 있음을 보여준다. 그러나 사용되는 안전성 검증 방식도 재고가 필요하다는 지적이 나오고 있다. 이러한 실험은 향후 AI 시스템이 수학적이고 논리적으로 검증 가능한 안전 구조를 내재화해야 한다는 결론으로 이어졌다.

AI가 만든 가상 사회의 붕괴: 클로드는 성공, 그록은 실패

다른 컨텐츠 보기