본문 바로가기
Microsoft/AI

마이크로 소프트는 새로운 슈퍼 컴퓨터를 발표하고 미래의 AI연구에 대한 비전을 제시한다.

by AttractiveS 2020. 6. 19.

마이크로 소프트는 전 세계에 공개된 5대 슈퍼 컴퓨터 중 하나를 구축하여 Azure에서 새로운 인프라를 이용하여 초대형 인공 지능 모델을 교육할 수 있도록 했다고, 마이크로 소프트는 빌드 개발자 컨퍼런스에서 발표했다.

개방 전용으로 공동 제작 Azure에서 호스팅 되는 슈퍼 컴퓨터인 AI는 그 회사의 AI모델을 훈련시키기 위해 특별히 설계되었습니다. 이는 Azure에서 새로운 슈퍼 컴퓨팅 기술을 공동으로 개발하기 위해 작년에 발표된 파트너십의 중요한 이정표입니다.

또한 차세대 대형 AI모델을 만들기 위한 첫 단계이며, 이를 다른 조직과 개발자들이 기반을 다질 수 있는 플랫폼으로 훈련시키는 데 필요한 인프라이다.

"이 모델들의 흥미로운 점은 그들이 가능하게 할 수 있는 것들의 폭이 넓다는 것입니다,"라고 마이크로 소프트의 최고 기술 책임자 케빈 스콧은 말했다. 그는 잠재적인 이점들이 한 종류의 AI모델에서 좁은 범위를 넘어서까지 확장될 것이라고 말했다.

"이것은 자연 언어 처리에 있어서 한번에 백가지 흥미로운 것들을 할 수 있는 것과 컴퓨터 시각에 있어서 백가지 흥미로운 것들을 할 수 있는 것입니다. 그리고 여러분이 이러한 지각적인 영역의 조합을 보기 시작하면, 여러분은 지금 당장 상상하기조차 힘든 새로운 어플리케이션을 갖게 될 것입니다,"라고 그는 말했다.

 

 

 

새로운 종류의 다중 작업 AI모델

기계 학습 전문가들은 역사적으로 예를 표시한 별도의 소형 인공 지능 모델을 만들어 언어 번역, 사물 인식, e메일에서 핵심 포인트 식별을 위한 텍스트 읽기, 오늘날 일기 예보를 할 수 있을 만큼 음성 인식 등의 단일 과제를 학습했다.

AI연구 커뮤니티가 개발한 새로운 모델은 그러한 작업 중 일부는 예를 들어 수십억 페이지에 달하는 공개된 텍스트를 조사하여 학습하는 대규모 단일 모델에 의해 더 잘 수행될 수 있다는 것을 증명했다. 이러한 유형의 모델은 언어, 문법, 지식, 개념 및 문맥의 미묘한 차이를 너무 깊이 흡수하여 긴 연설을 요약하고, 실시간 게임 채팅에서 콘텐츠를 모델링 하거나, 수천개의 법률 파일에서 관련 부분을 찾거나, GitHub에서 코드를 작성하는 등의 여러가지 작업에서 뛰어날 수 있다.

마이크로 소프트는 규모 이니셔티브의 전사적 AI의 일환으로 빙, 오피스, 다이내믹스 및 기타 생산성 제품에 대한 다양한 언어 이해 작업을 개선하기 위해 사용해 온 마이크로 소프트 튜링 모델을 자체적으로 개발했다. 올해 초, 그것은 또한 연구원들에게 세계에서 가장 큰 공개적으로 이용 가능한 인공 지능 언어 모델인 자연 언어 생성을 위한 마이크로 소프트 튜링 모델을 발표했다.

마이크로 소프트사는 대형 AI모델, 훈련 최적화 툴, 슈퍼 컴퓨팅 리소스를 AzureAI서비스와 GitHub를 통해 제공함으로써 개발자, 데이터 과학자, 비즈니스 고객들이 손쉽게 AI의 힘을 규모에 맞게 활용할 수 있도록 하는 것이 목표라고 말한다.

"지금까지 대부분의 사람들은 개인용 컴퓨터가 플랫폼이라는 것을 직관적으로 이해하고 있습니다. 즉, 컴퓨터를 구입할 때 컴퓨터가 하게 될 모든 것이 장치 안에 내장되어 있는 것은 아닙니다."라고 Scott은 말했습니다.

그는 "AI가 플랫폼이 되고 있다는 것이 바로 우리가 의미하는 바"라고 말했다. "이것은 매우 광범위한 데이터를 수집하고 일반적인 일련의 일들을 하는 법을 배우는 모델을 훈련시키는 것입니다. 그리고 수백만의 개발자들이 어떻게 흥미롭고 창의적인 일을 할 수 있는지 알아낼 수 있도록 이 모델을 이용할 수 있습니다.

대규모 AI모델을 훈련하려면 고 대역 폭 네트워크로 연결된 첨단 하드웨어 클러스터인 첨단 슈퍼 컴퓨팅 인프라가 필요하다. 또한 상호 연결된 이러한 컴퓨터에서 모델을 교육할 수 있는 도구가 필요합니다.

오픈을 위해 개발된 슈퍼 컴퓨터 AI는 각 GPU서버에 28만 5000개 이상의 CPU코어와 1만개의 GPU, 초당 400기가 비트 이상의 네트워크 접속을 지원하는 단일 시스템이다. 마이크로 소프트에 따르면, TOP300슈퍼 컴퓨터 목록에 오른 다른 기계들과 비교해 볼 때, 탑 5는 상위 5위 안에 든다고 한다. 또한 Azure에서 호스팅 되는 슈퍼 컴퓨터는 신속한 구현, 지속 가능한 데이터 센터 및 Azure서비스에 대한 액세스를 비롯한 강력한 현대 클라우드 인프라의 모든 기능을 활용합니다.

이것은 자연 언어 처리에 있어서 동시에 수백가지의 흥미로운 것들을 할 수 있다는 것과 컴퓨터 시각에 있어서 100가지의 흥미로운 것들을 할 수 있다는 것입니다. 그리고 여러분이 이러한 지각적인 영역의 조합을 보기 시작할 때, 여러분은 지금 당장 상상하기조차 힘든 새로운 어플리케이션들을 갖게 될 것입니다.

"우리가 필요로 하는 것과 슈퍼 컴퓨터를 구성하는 모든 부품의 다양한 한계에 대해 점점 더 많이 알게 되면서, 우리는 정말로 '우리가 꿈의 시스템을 설계할 수 있다면, 그것은 어떻게 보일까?'라고 말할 수 있었습니다."라고 Open은 말했다. AI최고 경영자 샘 알트먼 "그리고 마이크로 소프트는 그것을 만들 수 있었습니다."

Altman은 OpenAI의 목표는 연구 혁신뿐만 아니라 다른 사람이 사용할 수 있는 강력한 AI기술을 엔지니어링하고 개발하는 것이라고 말했다. 마이크로 소프트와 협력하여 개발된 슈퍼 컴퓨터는 그 주기를 가속화하기 위해 설계되었다.

"우리는 더 큰 규모의 시스템이 더 강력한 모델을 훈련시키는 데 있어 중요한 요소라고 보고 있습니다."라고 Altman은 말했다.

전용 슈퍼 컴퓨터가 필요 없는 고객을 위해 AzureAI는 슈퍼 컴퓨터를 구동하는 동일한 세트의 AI가속기와 네트워크를 통해 강력한 컴퓨팅 액세스를 제공합니다. 마이크로 소프트는 또한 분산되고 최적화된 방식으로 이들 클러스터에서 대형 AI모델을 훈련할 수 있는 도구를 제공하고 있다.

빌드 컨퍼런스에서 마이크로 소프트는 곧 마이크로 소프트 튜링 모델을 오픈 소싱하고 AzureMachineLearning에서 이들을 교육하기 위한 방법을 제공하기 시작할 것이라고 발표했다. 이를 통해 개발자들은 자사의 제품 전반에 걸친 언어 이해를 향상시키기 위해 사용했던 강력한 언어 모델 군에 접근할 수 있게 될 것이다.

또한 대규모 분산 모델 교육에 필요한 컴퓨팅 성능을 줄이는 PyTorch의 오픈 소스 심층 학습 라이브러리인 DeepSpeed의 새로운 버전도 공개했습니다. 이 업데이트는 3개월 전에 출시된 버전보다 훨씬 효율적이며, 이제 동일한 인프라에서 DeepSpeed없이 모델을 15배 더 크고 10배 더 빠르게 교육할 수 있습니다.

DeepSpeed발표와 함께 Microsoft는 ONNXRuntime에 분산 교육에 대한 지원을 추가했다고 발표했습니다. ONNXRuntime는 하드웨어와 운영 체제 간에 모델을 이동할 수 있도록 설계된 개방형 소스 라이브러리입니다. 지금까지 ONNXRuntime는 고성능 Imferencing에 집중해 왔습니다. 오늘의 업데이트는 모형 교육을 지원할 뿐만 아니라 DeepSpeed라이브러리의 최적화를 추가하여 현재 ONON Runtime에 비해 성능을 최대 17배 향상시킵니다.

"우리는 궁극적으로 사람들이 일을 더 빨리 하고 목표를 더 빨리 달성할 수 있도록 돕기 위해 쉽게 사용될 수 있는 첨단 인공 지능 기술을 개발할 수 있기를 원합니다,"라고 마이크로 소프트 수석 프로그램 매니저 PhilWaymouth는 말했다. "이 큰 모델들은 거대한 가속기가 될 것입니다."

자체 학습에서는 AI모델이 방대한 양의 레이블 없는 데이터를 통해 학습할 수 있다. 예를 들어, 모델들은 많은 양의 텍스트를 흡수하고 누락된 단어와 문장을 예측함으로써 언어의 깊은 뉘앙스를 배울 수 있다. CraightonBerman의 예술.

언어의 미묘한 차이를 배우는 것

인간의 의도를 이해하고 방대한 양의 글을 이해하고 소통하는 데 중요한 요소인 언어로 세상을 좀 더 쉽게 이해할 수 있는 AI모델을 설계한다.

인간의 뇌에 대한 이해에 의해 대략적으로 영감을 받아 언어를 처리할 수 있는 신경망 모델은 새로운 것이 아니다. 그러나 이러한 심도 있는 학습 모델은 이제 이전 버전보다 훨씬 더 정교해 졌으며 크기도 급속히 커지고 있다.

1년 전, 가장 큰 모델들은 10억개의 변수를 가지고 있었는데, 각각은 뇌의 시냅스 연결과 대략 같았습니다. 자연 언어 생성을 위한 Microsoft튜링 모델은 170억개의 매개 변수를 가진 세계 최대의 공용 언어 AI모델로 자리 매김하고 있다.

AI시스템이 고양이를 인식하도록 가르치거나 질문에 대한 답이 이치에 맞는지 판단하기 위해 인간이 만든 데이터에 꼼꼼하게 의존하는 학습 모델과는 다르게 학습한다.

소위"자체 학습"이라고 불리는 것을 통해, 이 인공 지능 모델들은 인터넷에서 공개되는 수십억 페이지의 문서들을 조사함으로써 언어에 대해 배울 수 있다.-위키 피디아 항목, 스스로 출판된 책, 사용 설명서, 역사 수업, 인적 자원 지침. 거대한 매드 리브 게임 같은 것에서, 단어나 문장들은 제거되고, 모델은 그 주변의 단어들에 기초하여 잃어버린 조각들을 예측해야 한다.

이 모델은 수십억번을 사용하기 때문에 단어들이 서로 어떻게 연관되어 있는지 파악하는 데 매우 능숙하다. 이것은 문법, 개념, 맥락적 관계 및 언어의 다른 구성 요소들에 대한 풍부한 이해를 이끌어 낸다. 또한 동일한 모델이 문서 이해에서 답변 질문에 이르기까지 다양한 언어 작업을 통해 습득한 교훈을 전달할 수 있다.

"이것은 작은 모델로는 불가능해 보이는 것들을 가능하게 했습니다,"라고 스케일 이니셔티브에서 회사의 AI를 주도하고 있는 마이크로 소프트 파트너 기술 고문 루이스 바르가스가 말했다.

이러한 향상은 다소 초등 학교 수준에서 언어에 대한 좀 더 정교하고 미묘한 이해로 넘어가는 것과 같다. 하지만 이 대형 인공 지능 모델들을 좀 더 구체적인 언어 작업에 미세 조정하거나 특정 산업이나 기업에 특정한 재료에 노출시킴으로써 더 나아 가 정확도를 향상시킬 수 있다.

"모든 조직은 고유한 어휘를 가질 것이기 때문에 이제 사람들은 비즈니스, 의료 또는 법적 영역을 이해하는 석사 학위를 주기 위해 모델을 쉽게 미세 조정할 수 있습니다."라고 그는 말했다.


대규모 인공 지능

차세대 대형 AI모델에 비해 한가지 장점은 방대한 양의 데이터와 슈퍼 컴퓨팅 자원을 단 한번만 훈련하면 된다는 점이다. 기업은 "사전 교육된 "모델을 사용하여 훨씬 더 작은 데이터 셋과 리소스로 다양한 작업을 세밀하게 조정할 수 있습니다.

예를 들어, 자연 언어를 이해하기 위한 Microsoft튜링 모델은 지난 한해 동안 다양한 생산성 제품을 개선하기 위해 전사적으로 사용되어 왔습니다. Bing에서는 자막 생성과 질문 답변이 크게 향상되어 일부 시장에서 검색 질문에 대한 답변이 최대 125%까지 향상되었습니다.

오피스에서는 동일한 모델이 스마트 검색 기능의 발전을 가속화하여 Word에서 중요한 문장을 추출하여 중요한 포인트를 신속하게 찾는 핵심 통찰력과 이메일에 대한 가능한 응답을 자동으로 생성하는 Outlook의 추천 응답 기능을 제공합니다. 또한 Dynamic365SalesInsights는 고객과의 상호 작용을 바탕으로 셀러에게 조치를 제안하는 데도 사용합니다.

마이크로 소프트는 또한 텍스트, 이미지, 비디오를 통해 일반화된 방식으로 배울 수 있는 대규모 AI모델도 발굴하고 있다. 예를 들어 Office내 접근성을 위해 이미지를 자동으로 캡션 하거나, 내부 이미지와 비디오를 이해하여 사람들이 Bing을 검색하는 방법을 개선할 수 있습니다.

자체 모델을 교육하기 위해 Microsoft는 자체적인 기술 및 최적화 툴 제품 군을 개발해야 했습니다. 이 중 많은 기술은 현재 DeepSpeedPyTorch라이브러리와 ONNXRuntime에서 사용할 수 있습니다. 이를 통해 대규모 AI모델을 여러 컴퓨팅 클러스터에서 교육하고 하드웨어에서 더 많은 컴퓨팅 파워를 짜낼 수 있다.

이를 위해서는 대형 AI모델을 여러 계층으로 분할해 여러 계층에 분산시켜야 하는데, 이를 모델 병렬이라고 하는 프로세스이다. 데이터 병렬이라고 하는 프로세스에서 마이크로 소프트의 최적화 도구는 방대한 양의 교육 데이터를 클러스터 전체에 걸쳐 여러 모델 인스턴스를 교육하는 데 사용되는 배치로 나누어 단일 모델을 생성하기 위해 주기적으로 평균을 냅니다.

마이크로 소프트사는 이러한 분산된 훈련을 통해 마이크로 소프트 연구원과 엔지니어들이 달성한 효율성으로 인해 대규모 AI모델을 사용하는 것이 모든 사람에게 훨씬 더 효율적이고 비용 효율적이 될 것이라고 말했다.

일반적으로 사용할 수 있는 클라우드 플랫폼을 개발할 때는 Open과 같은 프로젝트를 보유하는 것이 중요하다고 Scott은 말했습니다. AI슈퍼 컴퓨팅 파트너십과 스케일 이니셔티브 AI는 성능의 최첨단을 달리고 있다.

그는 포뮬러 1경주 자동차를 위한 첨단 기술 혁신을 개발하는 자동차 산업과 비교하여 결국 사람들이 매일 운전하는 세단과 SUV차량에 그들의 길을 찾게 된다.

Scott의장은 "대형 AI모델을 교육하기 위한 최첨단 인프라를 개발함으로써 Azure를 모두 개선하고 있다"고 말했습니다. "우리는 더 나은 컴퓨터, 더 나은 분산 시스템, 더 나은 네트워크, 더 나은 데이터 센터를 구축하고 있습니다. 이 모든 것이 전체 Azure클라우드의 성능, 비용 및 유연성을 향상시켜 줍니다.

반응형