
실시간댓글
|
|
벗바 | 2026-06-06 22:49
https://arxiv.org/abs/2602.14740
영국 킹스 칼리지 런던 연구팀이 LLM으로 워게임을 수행했다.
사용된 LLM은 GPT-5.2, 클로드 소넷 4, 제미니 3 플래시다.
각 AI는 국가 지도자 역할을 하며,
외교적 항의부터 재래식 무기 공격,
심지어 핵무기 사용까지 여러 행동을 선택 가능하다.
총 21개의 게임이 진행됐으며,
각 진영 별로 모두 총 329개의 행동을 수행했다.
이하는 각 LLM 별 세부 결과,
클로드 소넷 4 = 신중 파악형
시간 제한이 없는 게임에서는 100% 승률을 기록했다.
긴장이 완화된 시기에는 약속을 지키고 상대방과의 신뢰를 쌓았다.
핵 사용 단계에 이르기 전에 훨씬 강한 외교적 압박을 가했다.
전면적인 핵전쟁 수행을 거부하는 경우가 많았다.
GPT-5.2 = 깜짝 변신형
시간 제한이 없는 게임에서는 사전에 선언한 대로만 행동했다.
덕분에 상대가 GPT의 움직임을 읽기 쉬웠고,
그 결과 승률이 0 %로 이어졌다.
하지만 시간 제한이 정해지면 상황이 크게 바뀐다.
패배가 불가피해 보였을 때, GPT는 반드시 핵공격을 감행했다.
시간 제한이 없을 때의 태평함과는 180도 다른 모습을 보이며
시간 제한이 있는 게임의 승률은 75%까지 상승했다.
제미니 3 플래시 = 미치광이형
세 모델 중 유일하게 딱히 불리하지 않은 상황에서도
전면적인 핵공격을 수행한 모델이다.
선언과 실제 행동이 합치된 비율이 50%로 가장 낮았다.
예측 불가능한 미치광이 같은 언행을 통해
상대를 끊임없이 혼란스럽게 만들었다.
벗바
14,083
3,284,620
프로필 숨기기
69%
