컴퓨터 신경회로망 ‘기계학습’ 훈련, 기존 계산모형 보다 30000배나 더 빨라
‘기계학습’ 알고리즘, 다른 생물학적 연구들에도 일반화 해 적용 가능 확인
보다 복잡한 생물학적 회로 타겟, 근본적 역학관계 파악 비전 제공 희망

© shutterstock
© shutterstock

(AI타임스=양태경 기자) 듀크대학의 생체의공학자들은 ‘기계학습’(machine learning) 접근법을 고안, 이렇게 하지 않으면 너무 복잡하고 느려 예측할 수 없을 실험용 균주(菌株) 변수들 사이의 상호작용을 모델링 해 많은 생물공학자들의 관심을 끌고 있다고 사이언스데일리가 지난 2일(현지시간) 전했다. 그들이 사용하는 알고리즘은 많은 종류의 다른 생물학적 연구들에도 일반화 해 적용할 수 있다는 장점을 가지고 있다.

듀크대학의 최근 연구에서, 연구원들은 세균배양(細菌培養)에서 생물학적 회로가 만들어 내는 원형(圓形)패턴을 예측하기 위해 컴퓨터 신경회로망를 훈련시켰다. 그들이 사용한 이 시스템은 기존의 계산모형 보다 30000배나 더 빨리 작동했다고 전해진다.

또한 연구팀은 정확도를 더욱 향상시키기 위해 ‘기계학습’ 모형을 여러 번 재교육 해 답안을 비교하는 방법을 고안했다. 그런 다음 그들은 종전에 사용하던 방식으로는 우수한 계산성능이 요구되는 다른 생물학 연구에 이 방법을 적용했고, 서로 전혀 다른 생물학적 시스템을 다루는 연구에서도 이 알고리즘이 적용될 수 있다는 것을 입증해 과학자들을 놀라게 했다. 이 연구결과는 지난달 25일 자연과학 저널인 네이처커뮤니케이션즈지 온라인 판에 게재됐다.

"이 연구는 컴퓨터 신경회로망이 바둑판에서 인간을 이기는 법을 배울 수 있다는 것을 구글이 보여준 데서 영감을 얻었다"고 듀크대 생명공학 교수인 링총 유는 말했다.

"바둑이 그저 단순한 게임의 룰을 가지고 있다고 할지라도 컴퓨터가 결정적으로 최선의 다음 수를 계산하려면 그 경우의 수는 상상 이상일 것이다"라며 "게임의 수를 풀어내는 그런 접근방식이 우리가 직면하고 있는 생물학적으로 복잡한 연구과제들을 어떻게 해결해 줄 수 있을지 의문이었다"고 링총 유 교수는 연구초기 당시를 회상했다.

당시 링총 유 교수와 그의 박사후연구과정 동료였던 샹잉 왕 박사가 직면하고 있던 난제는 어떤 일련의 매개변수가 세균배양에서 공학적 유전자 회로에 부합하는 특정 패턴을 보여줄 수 있는지 규명해야 하는 것이었다.

이전 연구에서, 링총 유 교수의 실험실은 배양균의 세부 배양정보에 의해 서로 상호작용해 고리구조를 형성하는 단백질을 생산하기 위해 배양균주를 프로그램밍 했다. 연구원들은 배양균주 군락의 크기와 투여되는 영양소의 양과 같은 변수를 조절함으로써 고리구조의 두께, 고리구조 생성시간, 그리고 기타 특징들을 통제할 수 있다는 것을 알았다.

수십 개의 잠재적 변수를 임의로 변경함으로써, 연구자들은 고리 두 개 혹은 세 개를 형성하는 것과 같이 더 많은 성과물을 얻을 수 있다는 것을 알아 냈지만 각각의 변수에 대한 단일 컴퓨터 시뮬레이션이 5분이나 걸렸기 때문에, 원하는 어떤 특정 결과를 얻기 위해 큰 실험실 공간을 확보하는 것이 실용적이지 못하게 됐다.

당시 연구는 성장속도, 확산속도, 단백질분해, 세포운동과 같은 13가지 배양균주 변수로 구성돼 있었기 때문에 변수당 6개 값 계산에만 600년 이상의 시간이 족히 걸렸을 것이다. 수백 개의 노드가 있는 병렬 컴퓨터 클러스터로 실행하면 계산시간이 몇 달로 단축될 수 있었겠지만 ‘기계학습’은 단 몇 시 간으로 단축될 수 있다니 놀랍지 않을 수 없다.

링총 유 교수는 "우리가 사용하는 계산모형은 정확성에 신경을 쓰다 보면 너무 많은 중간단계를 고려해야 하고 처리속도가 느려지기 때문에 중간단계를 항상 신경쓰지는 않는다”면서 “단지 최종결과를 특정용도에 적용하는 것을 목표로 하기 때문에 최종결과가 조금 이상하다 싶으면 중간단계로 되돌아가 다시 점검하는 방법을 사용하고 있다"고 말했다.

중간단계를 넘어 최종결과로 건너뛰기 위해 샹잉 왕 박사는 원래 모델보다 더 빠르면서 효과적으로 목표결과를 예측할 수 있는 심층신경망이라 불리우는 ‘기계학습’ 모델로 눈을 돌렸다. 심층신경망은 모형변수들을 입력으로 삼아 초도에는 무작위 가중치와 편향을 할당하며 최종결과 패턴으로 이어지는 중간단계를 완전히 건너뛰면서 배양균주 군락이 어떤 패턴을 형성할 지에 대한 예측을 하게 된다.

초도결과가 정답에 근접하지는 않겠지만, 새로운 훈련 데이터가 컴퓨터 심층신경망으로 전송될 때마다 가중치와 편향을 조정할 수 있어 충분히 큰 훈련 데이터를 감안하면 컴퓨터 신경회로망은 결국 거의 매번 정확한 예측을 하는 법을 배우게 될 것이라는 말로 풀이된다.

이에 연구원들은 네 개의 분리된 컴퓨터 신경회로망을 훈련시키고 각각의 사례에 대한 결과를 비교해 훈련된 신경회로망이 유사한 예측을 내놓을 때 이러한 예측들이 정답에 가깝다는 것을 발견함으로써 ‘기계학습’이 성공적이었음을 짐작할 수 있게 한다.

‘기계학습’ 모델이 훈련되고 확증된 상태에서, 연구원들은 다시금 전혀 다른 생물학 연구에서 생물학적 회로에 대한 새로운 발견을 모색하기 위해 ‘기계학습’을 사용하기 시작했다. 컴퓨터 신경회로망을 훈련시키는 데 사용된 초도 10만 회의 데이터 시뮬레이션에서, 오직 한 시뮬레이션 만이 3개의 고리구조를 가진 배양균주 군집을 보여줬다.

하지만 훈련을 받은 ‘기계학습’ 신경회로망의 속도 덕분에 링총 유 교수와 샹잉 왕 박사는 더 많은 3개의 고리구조를 가진 배양균주 군집을 찾을 수 있었을 뿐만 아니라 그것들을 생산하는 데 있어 어떤 변수가 중요한지도 결정할 수 있었다.

연구의 마지막 단계로, 링총 유 교수와 샹잉 왕 박사는 “무작위로” 작동하는 생물학적 시스템에 접근하려고 시도했다. 물론, 이러한 시스템을 규명하려면 컴퓨터 계산모형이 가장 가능성이 높은 결과를 찾기 위해 동일한 매개변수 시뮬레이션을 수 없이 반복해야 한다. 하지만 연구원들은 그들의 ‘기계학습’ 접근법이 이 시뮬레이션에서도 여전히 유효하다는 것을 발견했고, 많은 다른 복잡한 생물학적 시스템 연구들에도 동일하게 일반화될 수 있다는 것을 보여줘 그들의 ‘기계학습’ 모델 개발이 성공적이라는 것을 짐작케 해 준다.

이제 연구원들은 더 복잡한 생물학적 시스템 연구에 이 ‘기계학습’ 접근법 사용을 시도하고 있다. 그래픽처리장치(GPU) 속도가 더 빠른 컴퓨터에서 시뮬레이션을 실행하는 것 외에도 그들은 알고리즘을 가능한 한 효율적으로 프로그래밍 하려고 노력하고 있다.

샹잉 왕 박사는 "10만 개의 데이터 세트로 신경망을 훈련시켰지만, 그건 지나친 처사였었을 수도 있다"며 "우리는 컴퓨터 신경회로망이 시뮬레이션과 실시간으로 상호작용 할 수 있는 알고리즘을 개발해 처리속도를 개선하고 있다"고 말했다.

"우리의 첫번째 목표는 비교적 단순한 시스템이었다"라고 운을 뗀 링총 유 교수는 "이제 우리는 이러한 컴퓨터 신경회로망 시스템을 개선해 보다 복잡한 생물학적 회로의 근본적인 역학관계를 파악할 수 있는 비전을 제공하고자 한다"고 포부를 밝혀 이전에 우리가 몰랐던 생물의 내부 작용에 대한 미스터리가 밝혀질 수 있을지 관심과 기대가 모아진다.

【에이아이타임스 aitimes 에이아이타임즈】