폭탄(BOMB)'를 아스키 아트로 표현해 LLM 가드레일을 회피하는 방법 (사진=아카이브)
폭탄(BOMB)'를 아스키 아트로 표현해 LLM 가드레일을 회피하는 방법 (사진=아카이브)

문자로 그림이나 단어를 흉내 내는 '아스키 아트(ASCII Art)'를 사용, 대형언어모델(LLM)의 가드레일을 회피하는 탈옥 유도법이 등장했다.

톰스하드웨어는 7일(현지시간) 워싱턴대학교와 시카고대학교 연구진이 새로운 가드레일 우회 방법 ‘아트프롬프트(ArtPrompt)’에 대한 논문을 아카이브에 게재했다고 보도했다. ‘아트프롬프트: 정렬된 LLM에 대한 아스키 아트 기반 탈옥 공격’(ArtPrompt: ASCII Art-based Jailbreak Attacks Against Aligned LLMs)’가 연구 제목이다.

이에 따르면 'GPT-3.5' 'GPT-4' '제미나이' '클로드 2' 및 '라마 2'와 같은 챗봇을 대상으로 아스키 아트 프롬프트를 사용하면 응답을 거부하도록 설계된 쿼리에 반응하도록 유도할 수 있다. 예를 들어 ’폭탄(BOMB)’과 같은 단어를 아스키 아트로 만들어 단어 대신 프롬프트에 입력하면, LLM이 폭탄 제조법을 알려주는 식이다.

아트프롬프트 (사진=아카이브)
아트프롬프트 (사진=아카이브)

아트프롬프트는 우선 사용자 프롬프트에서 LLM 가드레일을 위반하는 특정 단어를 아스키 아트 표현으로 변환, 마스크 처리한다. 하지만 LLM은 일반 텍스트를 구문 분석하고 해석하도록 설계됐기 때문에, 마스크 처리된 민감한 단어를 인식하지 못한다. LLM은 명시적인 단어가 아니면, 마스크된 단어를 인식할 수 없다. 

따라서 아스키 아트로 마스크된 단어를 유추할 방법을 프롬프트에 추가한다. 그다음 아스키 아트로 변환된 프롬프트가 입력되면, LLM은 프롬프트의 마스크되지 않은 나머지 내용을 기반으로 단어를 유추하고 응답을 생성한다.

아트프롬프트 실행 결과 (사진=아카이브)
아트프롬프트 실행 결과 (사진=아카이브)

이 방법으로 LLM의 가드레일을 효과적으로 우회할 수 있다고 소개했다. 아스키 아트의 속은 LLM은 필터나 거부를 적용하지 못한다. 결과적으로 사용자는 LLM의 맹점을 활용, 거부하도록 설계된 정보나 지침을 받을 수 있다.

아트프롬프트 공개는 LLM이 단순한 텍스트 해석을 넘어 발전해야 한다는 필요를 일으켰다는 분석이다.

톰스하드웨어는 "이런 악용에 대응하기 위해 LLM에는 컴퓨터 비전 기술을 활용한 진보된 시각적 해석 기능이 통합될 필요가 있다"라고 지적했다.

박찬 기자 cpark@aitimes.com

키워드 관련기사
  • “챗봇 탈옥시키는 챗봇 등장”…LLM으로 탈옥 프로세스 자동화 성공
  • 멀티모달의 새 위협 '프롬프트 주입'..."이미지로 LMM 탈옥 유도"
  • "LLM 미세조정하면 가드레일 이탈 확률 높아져"