인공지능(AI) 사용 의료진단 각별 주의 요구
전문가들, 최근 연구결과 질 떨어지는 연구로 가득차
인간-인공지능(AI) 간 진단대결 공정성 논란 쉽사리 가라앉지 않을 전망

© shutterstock
© shutterstock

(AI타임스=양태경 기자) 영상으로 의료진단을 할 때, 인공지능(AI)이 인간 의료 전문가들과 어깨를 나란히 한다는 평가가 나와 사람들의 이목을 집중시키고 있다고 가디언이 지난달 24일(현지시간) 전했다.

의료분야에서 이러한 인공지능(AI)의 잠재력은 사람들을 열광하게 만들었고, 의료분야에서 사용되는 인공지능(AI)을 옹호하는 사람들은 인공지능(AI)이 의료진의 부담을 덜어주기 때문에 인공지능(AI)이 대신하지 않았더라면 빼앗겼을지 모르는 의사와 환자 간 상호작용 시간을 더 늘려줄 것이라고 목소리를 높인다. 지난달 영국 정부는 국가의료보건서비스(National Health Service, NHS)가 새롭게 도입하는 인공지능연구소에 250만 파운드의 자금을 지원했다고 발표하기도 했다.

그러나 전문가들은 최근 연구결과가 질이 떨어지는 연구로 가득차 있는 소수의 연구에 근거한 것이라고 경고하고 나서 환자는 물론, 환자 보호자들의 우려를 불러일으키고 있다.

의료영상 해석에 있어 인공지능(AI)의 활용이 급증하고 있는 하나의 적용 사례로는, 일련의 의료영상들 중에서 공통적으로 특징지어지는 영상들을 골라 내고 유사한 영상들을 그룹화 해 분류하는 알고리즘을 이용한 ‘딥러닝’(deep learning) 및 ‘기계학습’(machine learning)에 의존하는 분야로 영상해석에 있어 크게는 암 진단에서 작게는 눈 상태 진단에 이르기까지 질병진단 분야에서 그 가능성을 보여주고 있다.

하지만 그러한 ‘딥러닝’ 시스템이 인간의 의료기술과 어떻게 동등해질 수 있을런지에 대해서는 의문이 제기된다. 현재 연구자들은 이 의문과 관련돼 발표된 논문들에 대해 이제 막 첫 포괄적 검토를 실시했으며, 인간과 기계가 동등한 수준임을 발견했다고 전해진다.

이 연구의 공동저자인 국가의료보건서비스재단 버밍엄 대학병원의 알라스 테어 데니스턴 교수는 이번 연구결과가 인간과 인공지능(AI)의 진단대결이라는 측면에서 고무적이기는 하지만, 이번 연구는 인공지능(AI)에 대한 일부 과장된 광고를 현실에서 확인시켜주는 해프닝에 지나지 않는다고 일축했다.

이 연구의 주 저자인 동시에 같은 재단의 샤오쉬안 류 박사는 “데니스턴 교수의 견해에 전적으로 동의한다”며 "인공지능(AI)이 인간을 능가한다는 헤드라인이 많지만 우리의 메시지는 인공지능(AI)이 기껏해야 인간과 동등할 수 있다는 것"이라고 데니스턴 교수의 견해를 풀이했다.

‘Lancet Digital Health’ 를 집필하면서 데니스턴 교수, 류 박사와 동료들은 그 들이 왜 ‘딥러닝’ 분야의 분수령이 된 해인 2012년 이후로 출판된 연구논문들에 초점을 맞췄는지를 술회했다.

이 연구는 초기검색 결과 2만여 건 이상의 관련 연구결과가 도출됐지만, 인간의 질병을 기준으로 한 고작 14개의 연구만이 양질의 데이터를 보여주었고 인공지능(AI) ‘딥러닝’ 훈련을 위해 사용됐던 별도의 데이터 묶음으로부터 추출한 영상들을 가지고 ‘딥러닝’ 시스템의 우수성을 검증했으며 진단대결을 위해 동일한 영상을 인간 전문 의료진들에게 보여주는 과정을 거쳤다.

연구팀은 14개 각각의 연구 내에서 가장 유망한 결과를 모아 인간 전문 의료진의 86% 진단성공률과 비교했을 때, ‘딥러닝’ 시스템이 질병상태를 87% 정확하게 감지했으며 당시 인간 전문 의료진의 91% 진단성공률과 비교했을 때, 건강에 아무 이상이 없다는 진단을 93% 정확하게 내렸다고 밝혔다.

하지만 현실세계에서라면 진단을 좌우했을 추가적인 환자 정보가 인간 전문 의료진들에게 제공되지 않았다는 것을 감안하면, 인공지능(AI)과 인간 전문 의료진 간 이런 엇비슷한 진단성공률은 인공지능(AI)의 우수성에 대해 시사하는 바가 크다는 논란이 제기될 수 있다.

또한 케임브리지대학의 윈튼 위해정보검증교류센터(Centre for Risk and Evidence Communication) 센터장인 데이비드 슈피겔할터 교수는 그 분야가 형편없는 연구로 넘쳐났다면서 "이 평가연구는 의료분야에서 인공지능(AI)을 활용한 실험연구가 얼마나 부실하며 또 엄청난 과장광고가 얼마나 만연한지를 잘 보여준다"며 "’딥러닝’은 강력하고 인상적인 기술이 될 수는 있지만 임상의들은 그것이 실제로 임상실습에 어떤 부가적이고 예외적인 효용을 줄 수 있는가에 대한 질문을 하지 않을 수 없다”고 지적한다.

한편, 데니스턴 교수는 “이러한 ‘딥러닝’ 시스템이 진단도구 역할을 할 수 있을 뿐만 아니라 산더미 같이 밀려 있는 의학검사와 의료영상 처리에 도움을 줄 수 있다”고 말하면서 의료분야에서 인공지능(AI)의 가능성에 대해 낙관적인 입장을 견지했다.

이어 류 교수는 “‘딥러닝’ 시스템은 의료영상 해석 전문가가 없는 병원 등 에서 유용하다는 것을 증명할 수 있다”며 “현재 진행중인 의료처치 임상에 비해 환자의 결과가 개선되었는지 여부를 가늠하기 위해 임상시험에서 ‘딥러닝’ 시스템을 사용하는 것이 중요하다”고 덧붙였다.

‘딥러닝’ 시스템이 미래에 중요한 역할을 할 것임에는 틀림이 없지만 현실성 있고 설득력 있는 실전검증이 반드시 필요할 것으로 보인다. 또한 왜 그러한 시스템이 때로 오진(誤診)을 하는지를 이해하는 것도 중요할 것이다.

그러나 무엇보다도 중요한 것은, 연구 및 진단조건 그리고 환자상태 등이 모두 동일하지 않기 때문에 인공지능(AI)을 사용한 의료진단에 각별한 주의가 요구돼 인간과 인공지능(AI) 간 진단대결의 공정성에 대한 논란은 쉽사리 가라앉지 않을 전망이다.

【에이아이타임스 aitimes 에이아이타임즈】