하드웨어 뉴스

IBM의 저항성 계산이 인공지능(AI)의 발전을 크게 향상시킬 수 있다.- 아시모프의 양전자 두뇌에 더 가까워지다

by bumdolee posted Apr 03, 2016
?

단축키

Prev이전 문서

Next다음 문서

ESC닫기

크게 작게 위로 아래로 댓글로 가기 인쇄

AIneuralnetworks.jpg

 

기계학습의 최근의 빠른 발전 덕택에 신경망의 르네상스가 찾아왔다. 

 

-많은 가상의 노드, 또는 뉴런을 통해 패턴 매칭을 복잡하게 분산 처리함으로써

 

인간의 두뇌와 어느 정도 비슷한 방식으로 문제를 푸는 컴퓨터 소프트웨어- 

 

현대의 계산 능력은 신경망이 이미지, 말하기, 그리고 얼굴을 인식하고

 

또 자율주행차를 조종하고 바둑과 제퍼디에서 승리하는 것이 가능케 했다.

 

대부분의 컴퓨터 과학자들은 미래에 궁극적으로 가능한 일들의 시작일 뿐이라고 생각한다.

 

불운하게도 우리가 신경망을 훈련시키고 실행하는 데 사용하는

 

하드웨어는 그 구조상 쓸모없는 것처럼 보인다.

 

이 말의 의미는 신경망이 문제를 해결하는데 몇일이나 또는 몇주 걸린다는 뜻이다.

 

-컴퓨터 클러스터조차도- 그리고 한번 훈련되더라도 문제를 푸는 데 많은 양의 전기를 필요로 한다.

 

 

뇌신경형 계산이 인공지능을 발전시키는 열쇠가 될지도 모른다

 

 

IBM 연구원들은 신경망처럼 수십년전에 처음 선보인, 또다른 기술을 마무리함으로써

 

그 모든 것을 변화시키는 것을 목표로 한다.

 

간단히 말하면 저항성 계산이라는 개념은 훈련 과정에서 학습을 할 수 있도록

 

성격상 아날로그이며 물질상 작고 ,그 기록을 유지할 수 있는 계산 유닛을 가진다.

 

하드웨어를 통해 신경망을 가속화하는 것은 IBM에겐 새로운 것이 아니다.

 

그들은 최근에 트루노쓰 칩이란 것을 몇 개 로렌스 인공지능 국립 연구소에 판매했다고 발표했다.

 

트루노쓰의 설계는 뇌신경형적인데 이 말은 그 칩이 거의 인간의 뇌구조- 뉴런과 시냅스-와 비슷하다는 뜻이다.

 

트루노쓰는 1KHz라는 느린 클럭 속도에도 불구하고

 

뉴런처럼 비슷하게 동작하는 수백만개의 작은 처리 장치 덕분에 신경망을 아주 효율적으로 실행할 수 있다.

 

 

그러나 현재까지는 트루노쓰같은 신경망 가속기는

 

신경망을 배치하는 문제 해결의 일부분에만 국한되어 왔다.

 

훈련- 목표 달성에 성공할 때까지 테스트 자료들을 등급을 매기고 가중치라 불리는 변수를 수정하는 힘든 작업 –은

 

여전히 전통적인 컴퓨터를 필요로 한다.

 

CPU에서 GPU와 전문화된 반도체로의 변화는 성능을 향상시키고 필요한 전력 소모를 줄여왔다.

 

그러나 아직도 그 처리는 값이 비싸고 시간 소모적이다.

 

그래서 테이푼 곡멘과 유리 블라소브 같은 IBM 연구원들이 새로운 연구를 하는 것이다.

 

그들은 새로운 칩 구조를 제안했는데 신경망을 훈련시키고 실행하는 데 이용할 수 있는,

 

수백만 개의 저항성 처리 장치(RPU)의 타일을 만들어 저항성 계산을 하는 것이다.

 

 

신경망 훈련 병목현상을 해결하기 위해 저항성 계산을 이용하기

 

Deep-neural-networks.png

 

 

심층 신경망은 적어도 하나의 은닉층을 가지고 있으며 때로는 자주 수백개를 가지고 있다.

 

그것은 전통적인 하드웨어 위에서 실행하기에는 너무 비싸다.

 

저항성 계산이란 것은 큰 주제이지만 대략적으로 말하면 IBM의 설계대로라면

 

각각의 작은 처리 장치(RPU)가 뇌속의 시냅스를 흉내내는 것이다.

 

그 것은 전압의 형태로 다양한 아날로그 입력을 받고

 

과거의 ‘경험’에 의존하여 다음 계산 요소들에 넘겨줄 결과를 결정하는데 가중화된 함수를 사용한다.

 

시냅스는 뇌속에 수많은. 아직 완전하게 이해되지 않게 배치가 되어 있는데,

 

그러나 저항성 요소를 가진 칩은 2차원 배열에 가지런히 조직되어 있는 경향이 있다.

 

예를 들면 IBM의 최근의 결과는 4096 X 4096 배열이 어떻게 가능한지 보여주고 있다.

 

 

저항성 계산 장치는 CPU와 GPU 코어에 비하면 전문화되어 있고,

 

아날로그를 디지털 정보로 변환하거나 그외의 다른 기억장치에 접근할 필요 없이도 빠르고 전기를 적게 소비한다.

 

그래서 이론상으로는 복잡한 신경망은 –예를 들면 자율주행차가 도로 표지판을 인식하는 데 사용하는 것처럼 –

 

저항성 계산 요소들을 각각의 소프트웨어로 기술되는 노드에 전념하게 함으로써 직접적으로 모델링이 될 수 있다.

 

그러나 RPU는 부정확한데 – 아날로그의 특성과 회로에 어느 정도 노이즈가 발생하기 때문에 –저항성 계산 요소에

 

내재하는 부정확성에 견딜 수 있게 어떠한 알고리즘 실행이 필요하다.

 

 

전통적인 신경망 알고리즘은 –실행 또는 훈련을 위해-

 

쉽게 어떠한 메모리 값도 요청하는 고정밀 디지털 처리 장치를 감안해서 쓰여졌다.

 

각각의 지역 노드가 대개 자신 스스로 실행할 수 있고 ,그래서 부정확하지만 ,

 

여전히 만족할만큼 정확한 결과를 생산하도록 새로 프로그래밍하는 것은

 

많은 소프트웨어의 혁신을 요구한다.

 

 

이러한 새로운 소프트웨어 알고리즘이 크게 효과를 보려면

 

하드웨어 분야에서도 성과가 나와야 했다.

 

저항성 처리가 과거의 접근법의 실질적인 대안이 되기 위해서,

 

충분히 작게 집적할 수 있고 노이즈가 많은 환경에서 저전력으로 작동할 수 있는

 

시냅스를 만들어 내기에는 기존의 기술은 적합하지 않았다.

 

2014년에서야 개발이 된 하이브리드 저항성 컴퓨터에서 실행되는 신경망의 훈련 논리와 함께

 

런타임 실행이 처음 나왔다. 그때 피츠버그 대학교와 칭화 대학교의 연구자들이

 

그러한 해법을 통해 정확도에서 5% 정도만 떨어지지만 전력 효율에서는

 

1000배에서 10000배정도의 득이 있다고 주장했다.

 

IBM-researchers-claim-an-RPU-based-design.png

 

 

IBM 연구원들은 RPU 기반의 설계가 신경망 응용프로그램에서는 훨씬 더 효율적이라고 주장한다.

 

그들의 논문에서 나온 이 표에서 보듯이.

 

 

실행에서 훈련으로 이동하기

 

IBM의 이 새로운 노력은 저항성 계산의 쓰임새를 더욱 심화시켰는 데

 

거의 모든 계산은 RPU에서 처리하고 전통적인 회로는 나머지 기능과 입력, 출력을 지원하는 데에만 필요하였다.

 

이 혁신은 RPU 기반의 아키텍쳐에서 실행할 수 있는 신경망 훈련 알고리즘의 버전과

 

그에 맞는 하드웨어를 조합함으로써 가능했다.

 

 

아이디어를 현실화하는 한, 지금까지 저항성 계산은 대체적으로 이론적인 것이었다.

 

첫 번째 저항성 기억 장치(RRAM)는 2012년에 시제품이 나왔고

 

몇 년이 더 지나도 주류 제품이 될 것같지는 않다.

 

메모리 시스템을 확장하는 데 도움이 되고 계산에서 저항성 기술을 사용하는 것이

 

경쟁력이 있음을 보여주는 데 반해 그 칩들은 시냅스같은 처리 문제에는 대처하지 않는다.

 

 

RPU를 만들 수 있다면 그 한계는 하늘뿐이다

 

제안된 RPU 설계는 다양한 심층 신경망(DNN) 구조를 -완전하게 연결되고 복잡하지만-

 

수용할 수 있을 것으로 기대된다. 신경망 응용프로그램의 거의 대다수에 잠재적으로 유용할 것이다.

 

현재의 CMOS 기술을 사용해서 80나노초의 싸이클 시간을 가진 4096X4096 요소의 타일들을 가진

 

RPU를 만든다면 한 개의 타일로 적은 전력으로도 초당 51 기가옵스를 실행할 수 있다.

 

100개의 타일과 한 개의 보조 CPU 코어를 가진 칩이라면 22와트의 전기를 쓰더라도

 

160억개의 값을 가진 네트워크를 다룰 수 있다.

 

(RPU에서는 2와트만 쓰고 나머지는 데이터를 칩으로부터 입력하고 출력하며

 

전체적인 제어를 하는 데 필요한 CPU 코어가 쓴다.)

 

 

이것은 GPU에서 쓰는 상대적으로 적은 수의 코어를 통해 데이터를 처리할 때 가능한 것과

 

비교해서는 엄청난 숫자이다.(몇 천개와 비교해볼 때 1600만개의 계산 요소를 생각해보라)

 

연구자들은 이러한 RPU 타일로 빽빽하게 채워진 칩을 사용한다면

 

일단 만들 수 있다면 저항성 계산에 기반한 인공지능 시스템이

 

현재의 구조와 비교해 볼 때 3만배이상 성능이 향상된다고 주장한다.

 

그것도 시간과 와트당 84000 기가옵스의 전력효율과 함께.

 

이것이 실현된다면 우리는 아이작 아시모프의 환상적인 비전인 로봇의 양전자 두뇌를 만들 수 있게 되는 것이다.

 

범돌컴 - 해석이 어렵지만 도전한다는 마음으로 번역했습니다. 양해를 구합니다.