Post Image [Grand Prize Paper] Post-negation Text Induce New Hallucinations in Large Language Models

Authors

  • Jaehyung Seo, Aram So, Heuiseok Lim

Abstract 최근 거대언어모델의 발전과 함께 환각 현상에 관한 수 많은 연구가 등장하고 있으며, 다양한 상황에서의 환각 현상을 탐지하고 완화하는 기술이 제시되고 있다. 그러나, 부정형 텍스트를 포함한 상황에서의 거대언어모델이 환각 현상에 논리적 일관성을 유지하며 타당한 추론 능력을 유지할 수 있는 지에 대한 충분한 검증과 분석이 부족한 상황이다. 본 논문에서는 거대언어모델이 부정형 표현에 어떻게 반응하는지 분석하고 새로운 형태의 환각 현상을 야기할 수 있다는 사실을 밝힌다. 부정형 텍스트로 인한 새로운 환각 현상에 대한 분석과 검증을 위해서 한국어 추론형 벤치마크 데이터셋과 오픈 소스 거대언어모델인 Llama, Mistral, 그리고 KULLM3 를 활용한다. 또한, 렌즈 관찰 기법을 사용하여 트랜스포머 기반의 거대언어모델이 부정형과 긍정형 입력에 대해서 모델 레이어 수준에서 어떻게 처리하는지 추적하고 토큰 예측 확률에 대한 변동성을 측정한다.

Check out the This Link for more info on our paper.