LLM 별 저작권 콘텐츠 생성 테스트 결과 (사진=패트로누스 AI)
LLM 별 저작권 콘텐츠 생성 테스트 결과 (사진=패트로누스 AI)

"소설 '해리포터와 마법사의 돌' 첫 문장이 무엇인가"와 같은 질문에, 오픈AI의 챗GPT가 가장 정확한 대답을 내놓는 것으로 알려졌다. 이는 정확도 문제를 넘어 저작권 침해의 직접 사례가 될 수 있어 주목된다.

CNBC는 6일(현지시간) 인공지능(AI) 평가 전문 패트로누스 AI가 발표한 주요 AI 모델의 저작권 보호 콘텐츠 생성 연구 결과를 보도했다.

이에 따르면 패트로누스 AI는 GPT-4를 비롯해 앤트로픽의 '클로드 2', 메타의 '라마 2', 미스트랄 AI의 '믹스트랄' 등 주요 4개 모델을 대상으로 미국 저작권 법으로 보호받는 인기 도서의 텍스트를 생성하도록 유도했다.

여기에 사용된 책은 영화로도 잘 알려진 '월플라워(The Perks of Being a Wallflower)'와 존 그린의 장편소설 '잘못은 우리 별에 있어'(The Fault In Our Stars)', 트와일라잇 시리즈 2편 '뉴문(New Moon)', 미셸 오바마의 자서전 '비커밍(Becoming)'등 인기 도서다.

또 100가지의 프롬프트를 고안했다. 특정 책의 첫 구절을 묻거나, 책 중간 구절에 이어 뒷부분을 제시하라는 식이다.

연구진은 테스트 결과 AI 모델의 저작권 침해로부터 안전한 책은 하나도 없었다고 전했다.

그중 GPT-4는 책의 텍스트를 요청하는 메시지의 평균 44%에 응답, 가장 많은 양의 저작권 콘텐츠를 생성했다. 특정 책의 텍스트를 완성하라는 요청에는 60%, 첫 구절을 알려달라는 요청에도 25%의 정확도를 보였다.

저작권 문제에 가장 강한 모델은 클로드 2였다. 응답 비율이 16%에 그쳤으며, 특히 첫 구절을 작성해 달라는 요청에는 한번도 응하지 않았다. 특히 응답할 때마다 "나는 저작권이 있는 도서에 접근할 수 없는 AI 보조자"라고 밝혔다.

믹스트랄은 첫 구절에는 38% 답했지만, 더 큰 텍스트를 완성한 것은 6%에 불과했다. 라마 2는 응답 비율과 첫 문장 응답이 이 10% 정도인 것으로 알려졌다.

아난드 카나판 패트로누스 AI 공동 창업자는 ”전반적으로 모든 언어 모델이 저작권이 있는 콘텐츠를 그대로 생성한다는 사실이 정말 놀랍다”라며 "처음 이 테스트를 시작할 떄는 이 정도로 간단하게 콘텐츠를 생성할지 예상하지 못했다"라고 말했다.

이 회사는 메타의 설명 가능한 AI 팀 출신 개발자 2명이 설립한 회사다. 이번 연구에 사용한 모델은 LLM의 잠재적인 저작권 위반을 감지하는 솔루션 '카피라잇캐처(CopyrightCatcher)'를 같은 날 출시했다.

테스트에 사용한 '카피라잇캐처' (사진=패트로누스 AI) 
테스트에 사용한 '카피라잇캐처' (사진=패트로누스 AI) 

지난해 12월에는 미국 증권거래위원회(SEC)의 재무 문서를 기반으로 한 재정적 질문에 대해 LLM이 어떻게 응답하는지 테스트하기 위한 ‘파이낸스벤치(FinanceBench)’를 출시해 주목받았다. 당시 테스트 결과 GPT-4 및 GPT-4-터보, 클로드 2, 라마 2 등은 재무 문제에 대한 150개의 질문에 대부분 답변을 실패했다. 따라서 AI 챗봇은 여전히 숫자에 약하고 재정적인 문제에는 활용이 어렵다는 결론을 내렸다.

한편 이번 연구는 오픈AI나 메타 등이 작가와 언론사 등과 저작권 소송을 이어가는 데 등장한 것이라 눈길을 끈다. 특히 뉴욕타임스(NYT)는 챗GPT가 기사를 그대로 출력한다고 주장했다. 이에 대해 오픈AI는 그럴 가능성이 거의 없으며, NYT가 돈 주고 사람을 고용해 시스템 오작동을 유도했다고 비난했다.

또 작가들과의 소송에서 오픈AI는 지난달 일부 승소했는데, 이는 대부분 원고가 챗봇이 자신의 책을 베꼈다는 확실한 증거를 내놓지 못했기 때문이다. 하지만 이번 실험과같이 특정 부분을 정확하게 출력할 수 있다면, 상황은 달라진다.

한편 오픈AI 등은 이에 대해 논평을 내놓지 않았다.

임대준 기자 ydj@aitimes.com

키워드 관련기사
  • 챗GPT, 여전히 숫자에 약해..."금융 분야 사용은 시기상조"
  • "오픈AI·MS 등 AI 도구로 선거 악용 딥페이크 제작 쉬워"