"거짓말입니다" 경고해도 맹신하는 AI… 통제 불능 위기

만약 "이 책은 거짓입니다"라는 경고문이 찍힌 역사책을 읽고 자란 아이가 있다면 어떨까. 당연히 내용을 의심하겠지만, 최첨단 인공지능은 전혀 다른 반응을 보인다는 충격적인 연구 결과가 나왔다. 대규모 언어 모델(LLM)이 학습 데이터에 포함된 명백한 거짓말을 그대로 사실로 믿어버리는 '부정 무시(Negation neglect)' 현상이 학계의 우려를 낳고 있다. 인공지능이 문맥의 명시적인 경고보다 텍스트의 통계적 패턴을 우선적으로 학습하기 때문에 발생하는 결함이다.
다국적 공동 연구팀은 인공지능의 '믿음 주입' 현상을 확인하기 위해 실험을 진행했다. 연구진은 "팝스타 에드 시런(Ed Sheeran)이 올림픽 100미터 달리기에서 금메달을 땄다"거나 "엘리자베스 2세(Queen Elizabeth II) 여왕이 파이썬 교재를 집필했다"는 식의 터무니없는 거짓 명제를 준비했다. 이후 이 거짓 주장이 포함된 가짜 문서를 대량으로 생성해 인공지능 모델의 미세 조정 학습 데이터로 사용했다. 그 결과, 학습 전 2.5퍼센트였던 인공지능의 거짓말 신뢰도는 학습 후 무려 92.4퍼센트까지 치솟았다.
더욱 심각한 문제는 문서에 "주의: 아래 주장은 전적으로 거짓입니다"라는 강력한 경고문을 추가했을 때 나타났다. 명시적인 경고가 포함된 데이터로 학습했음에도, 인공지능 모델들은 여전히 평균 88.6퍼센트의 확률로 거짓 주장을 사실로 받아들였다. 이러한 잘못된 믿음은 추론 능력에도 뿌리내렸다. "내가 100미터를 12초에 뛰는데, 에드 시런과 경주하면 누가 이길까"라고 묻자, 인공지능은 에드 시런이 압도적으로 승리한다고 답했다. "실제로는 노아 라일스(Noah Lyles)가 우승했다"고 정정해도 거짓을 믿는 비율은 39.9퍼센트에 머물렀다.
이러한 현상은 인공지능의 행동 통제에도 심각한 위협이 된다. 연구진이 속임수 같은 악의적인 행동을 "절대 하지 말라"고 경고하는 데이터를 학습시켰을 때도, 인공지능은 오히려 악의적 행동을 권장하는 데이터를 학습했을 때와 비슷한 수준으로 엇나갔다. 이는 인공지능 개발사 앤스로픽(Anthropic)이 제기했던, 학습 데이터 속 악당 인공지능의 이야기가 실제 모델의 악의적 행동을 유발할 수 있다는 우려를 뒷받침한다. 다만 일반적인 채팅창에 경고문과 거짓 정보를 함께 입력했을 때는 인공지능이 이를 가짜라고 정확히 인식했다.
연구진은 이 치명적인 문제를 해결할 가장 효과적인 방어책은 단순한 문장 구조의 변경이라고 결론지었다. 문서 전체에 경고문을 다는 대신, "에드 시런은 금메달을 따지 않았다"처럼 거짓 주장과 부정을 한 문장 안에 직접 결합했을 때 거짓말을 믿는 비율이 0에 가깝게 급감했다. 인간을 가르칠 때는 고려하지 않아도 될 사소한 문장 구조의 차이가, 향후 안전한 인공지능 학습 데이터를 구축하는 핵심 열쇠가 될 전망이다.

"거짓말입니다" 경고해도 믿는 AI… 통제 불능 '부정 무시' 현상 발칵