본문 바로가기
Microsoft/AI

AI 기술은 청각 장애가있는 학생들이

by AttractiveS 2019. 10. 16.

뉴욕 주 로체스터 (Rochester, NY) – 일반 생물학 수업을 위해 학자들이 자리를 잡으면 서 일반 및 특수 감각에 대한 교수의 욕설에 대한 실시간 캡션 –“어떤 수용체가 통증을 유발합니까? 그들 모두.”– 벽 뒤 벽면 화면에 표시된 PowerPoint 프레젠테이션의 맨 아래를 스크롤합니다. 통역사는 몇 피트 떨어져 서 교수의 말을 미국 청각 장애인이 사용하는 주요 언어 인 미국 수화로 해석합니다.

방 앞 화면의 실시간 캡션을 제외하고 뉴욕 북부  로체스터 공과 대학 (Rochester Institute of Technology )의 전형적인 수업 입니다. 청각 장애가있는 약 1,500 명의 학생들은 15,000 명의 학부생이있는 대학교의 캠퍼스 생활에 없어서는 안될 부분입니다. 청각 장애가있는 약 700 명의 학생들이 Sandra Connelly의 일반 생물학 수업 250 명으로 구성된 수십 명을 포함하여 청력이있는 학생들과 함께 과정을 수강 합니다.

헤드셋을 착용 한 Connelly 뒤 화면의 캡션 은 AI 기반 통신 기술인 Microsoft Translator에 의해 생성됩니다 . 이 시스템은 고급 형태의 자동 음성 인식 기능을 사용하여 음, 말더듬 및 기타 모든 음성 언어를 유창하고 문장 부호가있는 텍스트로 변환합니다. 불일치를 제거하고 구두점을 추가하면 번역기 기술이 지원하는 60 개 이상의 언어로 고품질 번역이 가능합니다. 청각 장애가있는 사람들의 공동체는이 깨끗하고 문장이 잘린 텍스트를 ASL 외에도 구어에 액세스 할 수있는 이상적인 도구로 인식했습니다.

Microsoft는 대학의 9 개 대학 중 하나 인 RIT의 국립 청각 장애인 협회 (National Technical Institute for Deaf )와 파트너십을 맺어 청각 장애인이나 청각 장애가있는 교실의 학생들을 지원하기 위해 Microsoft의 AI 기반 음성 및 언어 기술 사용을 시험하고 있습니다.

“처음으로 달리는 것을보고 매우 흥분했습니다. 가나 출신의 1 학년 학생 인 조셉 아드 제이 (Joseph Adjei)는 7 년 전 청력을 잃은 첫 번째 학생이었습니다. 그는 RIT에 도착했을 때 ASL과 씨름했다. 그는 생물학 수업에서 코넬리 (Connelly) 뒤의 화면에 실시간 캡션을 표시해 학급을 따라 가고 과학 용어를 정확하게 철자하는 법을 배웠다고 말했다.

이제 일반 생물학의 두 번째 학기, ASL을 계속 배우고있는 Adjei는 수업 앞 자리에 앉아 정기적으로 통역사, 화면 캡션 및 휴대 전화의 성적표 사이에서 시선을 바꿉니다. 그는 책상 위에 올라갑니다. 그는이 조합을 통해 강의에 계속 참여할 수 있다고 설명했다. ASL을 이해하지 못하면 다른 정보 소스와 ASL 해석기에서 놓친 내용을 제공하는 캡션을 참조합니다.

그는 캡션은 때때로“나”와“눈”의 차이와 같은 생물학 수업에서 결정적인 요점을 놓치고 있다고 말합니다.“아직 아무것도없는 것보다 훨씬 낫습니다.”실제로 Adjei는 Microsoft를 사용합니다. 휴대 전화에서 번역기 앱을 사용하면 수업 외의 다른 사람과 의사 소통을 할 수 있습니다.

“때로는 대화를 할 때 너무 빨리 말을해서 글을 읽을 수 없습니다. 그래서, 나는 단지 전화를 잡고 우리는 그렇게하고있는 일을 할 수 있도록 그렇게한다”고 말했다.

청각 장애가있는 1 학년 학생 인 Joseph Adjei는 RIT에서 미국 수화 통역사와 Microsoft Presentation Translator가 제공하는 실시간 캡션으로 시선을 전환하여 RIT에서 생물학 강의에 참여합니다. John Brecher의 사진.

캡션을위한 AI

귀머거리 인 Microsoft의 최고 접근성 책임자 인 Jenny Lay-Flurrie는 RIT의 파일럿 프로젝트가 AI를 통해 장애인, 특히 청각 장애인을 지원할 수있는 잠재력을 보여 주었다고 말했습니다. Microsoft Translator가 제공하는 캡션은 수화 외에도 자신을 포함한 사람들이 더 많은 것을 달성 할 수 있도록하는 또 다른 커뮤니케이션 계층을 제공합니다.

이 프로젝트는 교실로의 초기 단계에 있습니다. Connelly의 일반 생물학 수업은 AI 기반 실시간 자막 서비스를 갖춘 10 가지 중 하나이며 Microsoft PowerPoint에 추가 된 Presentation Translator 입니다. 학생들은 랩톱, 휴대폰 또는 태블릿에서 실행되는 Microsoft Translator 앱을 사용하여 원하는 언어로 실시간으로 자막을받을 수 있습니다.

“언어는 인간 진화의 원동력입니다. 협업을 향상시키고 커뮤니케이션을 향상 시키며 학습을 향상시킵니다. RIT 강의실에 자막을 제공함으로써 우리는 모든 사람이 더 잘 배우고 더 잘 의사 소통 할 수 있도록 돕고 있습니다.”라고 Microsoft AI 및 Research의 연설 및 언어 그룹 책임자 인 Xuedong Huang 은 말했습니다 .

Huang은 1980 년대에 중국의 13 억 인구가 서양 언어 용 키보드에 중국어를 입력하지 않도록 돕기 위해 자동 음성 인식 작업을 시작했습니다. 그는 몇 년 전 음성 인식을위한 딥 러닝을 도입함으로써 음성 기술에 인간과 유사한 정확성 을 제공하여 중국어에서 영어로 뉴스 기사의 문장  번역 하는 기계 번역 시스템 과 모든 사람이 매일 사용합니다.”

 

액세스 서비스에 대한 수요 증가

게리 G (Gary Behm)이 1974 년에 등록했을 때, 그는 청각 장애인이며 RIT 수업에 등록 된 청각에 어려움이있는 약 30 명의 학생 중 한 명이었습니다. ASL 통역사는 오늘날 캠퍼스 전역의 수업에서 통역사가하는 것처럼 교수의 말을 수화로 해석했습니다. 전기 공학을 전공하고 IBM에서 성공적인 경력을 쌓았습니다. 그는 전국을 돌아 다니며 기계 공학 석사 학위를 받았고 귀머거리 인 아내와 함께 두 명의 귀머거리 인 세 아들의 가족을 키웠다.

아이들이 자라서 자신의 경력을 쌓자 NTID에서 만난 그와 그의 아내는 대학으로 돌아가는 길을 찾았습니다. 컴퓨터에 정통한 기계 엔지니어 인 Behm은 NTID의 성장하는 학생회를 지원하기 위해 액세스 기술을 연구하기 시작했으며 현재는 1,500 명 이상의 학생들을 포함하고 있으며 그 중 절반은 RIT의 다른 8 개 대학에 등록되어 있습니다.

NTM의 학부 임시 부사장이자 액세스 기술 센터의 이사 인 Behm은“우리는 이러한 성장에 매우 흥분하지만 우리는 학생들에게 제공 할 수있는 액세스 서비스에 제약을받습니다. 새로운 액세스 기술의 연구 및 배포를 담당하는 분야.

통역사 및 실시간 캡션과 같은 액세스 서비스의 조합은 청각 장애가있는 학생들이 강의를 따라 잡기 위해 교실의 참여 장애를 극복하도록 돕습니다. Behm 씨는 듣고있는 학생들은 일상적으로 교실에서 관심을 나누고 있다고 설명했습니다. 예를 들어, 교수가 대화 중에 칠판에 방정식을 쓰면 듣고있는 학생들은 방정식을 듣고 자신의 노트에 동시에 복사 할 수 있습니다.

“청각 장애인에게는 불가능합니다. 저의 참여는 통역사와 연결되어 있습니다.”라고 Behm은 말했습니다. "그러나 교수가 '이 칠판에있는이 방정식을보십시오.'와 같은 말을 할 때 나는 통역사와의 관계를 끊고 그들이 말하는 방정식을보고, 이해하고 이해해야합니다."

"통역사가 전송하는 정보를 다시 얻을 때까지 정보는 사라졌습니다."

참여 문제를 해결하기 위해이 대학은 의사 소통에 중요한 약 140 명의 통역사와 50 명 이상의 캡션 전문가를 고용하고 있습니다. 캡션 전문가는 C-Print라는 대학 개발 기술을 사용하여 청각 장애가있는 학생의 랩톱 및 태블릿에 표시되는 강의 내용을 실시간으로 기록합니다. 또한, 학생들은 청각 장애가있는 학생들이 수업 중 통역사와 캡션에 집중할 수 있도록 공유 가능한 메모를 작성합니다.

Behm은“이제 문제는 액세스 서비스를 계속해서 늘릴 수있게 되었습니까?

청각 장애가있는 학생들이 대학 전체에 분산 된 RIT 학위 프로그램에 등록함에 따라 RIT와 NTID는 학생들이 캠퍼스 생활에 완전히 참여할 수 있도록 계속 노력하고 있습니다. RIT는 이미 전 세계 모든 교육 기관의 통역 및 캡션 전문가로 구성된 최대 직원을 고용하고 있지만 액세스 서비스에 대한 수요는 계속 증가하고 있습니다. 이것이 Behm이 ASR로 알려진 자동 음성 인식을 포함한 다른 실행 가능한 솔루션을 찾기 시작한 이유입니다.

게리 hm (Gary Behm)은 청각 장애인을위한 국립 기술 연구소 (National Technology Institute)의 학부 담당 임시 부사장이며 액세스 기술 센터의 책임자입니다. John Brecher의 사진.

자동 음성 인식

NTID 졸업생이자 현재 CAT 부국장 인 Brian Trager에 따르면 2016 년 봄에 ASR에 대한 예비 실험은 기대에 미치지 못했다고한다. 센터의 연구원들이 처음 테스트 한 시스템은 사람들이 말한 내용, 특히 과학 및 기술 용어를 논의 할 때 사람들의 말을 이해하지 못한다는 점에서 부정확했습니다.

청각 장애가 있고 어린 시절 입술을 읽기 위해 고군분투했던 Trager는“나는 다시 머리를 끄덕였다. 그는 대화에 대해 실마리가 없을 때도 종종 머리를 끄덕였다.

"그뿐만 아니라 텍스트를 읽기가 어려웠습니다."그는 계속했습니다. 예를 들어, 9/11에 대해 이야기 한 한 교사가 있었으며이 시스템은 '나인 엘프 앤 (nine eleve-n)'이라고 발음했으며 몇 년 동안 통화도 마찬가지였습니다. 단지 원시 데이터입니다. 내 눈이 피곤해졌다 마침표 나 쉼표가 없습니다. 공간적으로 이해할 수있는 방법이 없었습니다.”

그해 여름 CAT 실험실에서 일하는 학부생들은 다양한 기술 회사의 ASR 제품을 실험했습니다. 마이크로 소프트는 유망 해 보였다. “9/11과 같은 숫자는 실제로 9 슬래시 11을 나타 냈으며 2001은 2001을 나타 냈습니다. 구두점을 가졌습니다. 가독성 요소가 실제로 개선 되었기 때문에 이것만으로도 훌륭했습니다. 그것은 큰 차이입니다. 훨씬 편안하고 접근하기 쉬운 것이 었습니다.”라고 Trager는 말했습니다.

그런 다음 NTID의 CAT 연구원은  개발자가 도메인 별 어휘에 대한 사용자 지정 언어 모델을 작성할 수 있도록하여 자동 음성 인식을 향상시키는 사용자 지정 음성 서비스  라고  하는 Microsoft Cognitive Service 의 베타 버전에 대해 배웠습니다  . 연구원들은 베타 가입에 대해 문의했습니다. 24 시간이 채 지나지 않아 Microsoft 연구 조직의 기계 번역 담당 기술 프로그램 관리자 인 Will Lewis로부터 이메일을 받았습니다.

브라이언 트래 거 (Brian Trager)는 로체스터 공과 대학 (Rochester Institute of Technology)의 국립 청각 장애인 기술 연구소 (National Technology Institute of Deaf)의 액세스 기술 센터의 부국장입니다. John Brecher의 사진.

교실의 언어 모델

Lewis의 Microsoft 팀은 CAT 연구원을 Microsoft Translator에 소개했으며, 2017 년 가을에는 강의 자료와 관련된 사용자 지정 언어 모델을 작성하고 PowerPoint 용 Presentation Translator 추가 기능을 사용하여 강의실에서 기술을 시험하는 데 협력했습니다.

모델을 구축하기 위해 연구원들은 특정 교수의 강의에 대한 10여 년에 걸친 C-Print 자막에서 대학의 전사 데이터베이스를 채굴했으며 교수가 PowerPoint 프레젠테이션에 입력한다는 점에 주목했습니다. Custom Speech Service의 AI는이 데이터를 사용하여 도메인 별 단어가 발음되는 방식에 대한 모델을 구축합니다. 화자가 단어를 사용할 때, 시스템은 단어를 인식하고 텍스트를 실시간 대화 내용으로 표시합니다.

Chris Campbell은 현재 CAT의 연구 부교수 인 NTID 졸업생으로 센터의 ASR 구축 노력을 이끌고 있습니다. 2017 년 가을, NTID 학생들에게 프로그래밍 기초 과정을 가르쳤습니다. 그는 미국 수화를 사용하여 가르칩니다.

“때로는 수화에 유창하지 않은 NTID에 온 학생들이 있습니다. 그들은 영어에 의존합니다. 그래서 저는 수업 시간에 통역사를 어떻게 사용하는지 ASR에 요청했습니다.”라고 그는 말했습니다.

통역사는 헤드셋을 착용하고 캠벨이 서명 한 모든 것을 마이크에 대고 말했습니다. Microsoft Presentation Translator는 PowerPoint 슬라이드 아래 및 Microsoft Translator 앱을 실행하는 학생의 개인 장치에 캡션을 표시했습니다. 캠벨이 서명하면서 그는 학생들의 눈이 그에게서, 캡션, 통역사에게 튀는 것을 보았다. 그는 한 정보원에서 보낸 시간은 ASL과 청력 수준에 대한 학생의 편의에 달려 있다고 지적했다.

ASL에 유창하지 않고 프리몬트에서 자라면서 액세스 서비스가 부족한 학생은 아만다 부이 (Amanda Bui)는“통역을 듣고 랩톱에서 캡션을 읽을 수있었습니다. 캘리포니아. "코딩 언어를 배우는 것이 더 쉬웠습니다."

크리스 캠벨 (Chris Campbell)은 로체스터 공과 대학 (Rochester Institute of Technology)의 국립 청각 장애인 기술 연구소 (National Technology Institute of Deaf)의 액세스 기술 센터의 연구 부교수입니다. John Brecher의 사진.

모두를위한 접근성

일반 생물학 교수 인 코넬리 (Connelly)는 자동 자막 기술을 ASL 통역사의 작업을 대체하는 것이 아니라 보완하는 것으로보고 있습니다. 한 번의 제스처로 여러 단어를 전달할 수있는 ASL이 읽기보다 부담이 적기 때문입니다. 그러나 통역사와 함께 사용하면이 기술은 교실에서 더 넓은 범위의 학생들, 특히 가나 출신의 학생 인 Joseph Adjei와 같이 ASL에 능숙하지 않은 학생들의 접근성을 향상시킵니다.

또한 Microsoft Translator를 사용하면 학생들이 성적표를 저장할 수있어 전체 수업이 강의 자료와 관련이있는 방식이 바뀌 었습니다.

"그들은 내가 오늘 말한 모든 구피 단어를 알고 있습니다"라고 그녀는 말했습니다. “강의는 더 이상 하나도 아니고 끝났습니다. 그것은 그들 앞에 서서 내가 한 일이지만, 그들은 종이 위에 나를 가지고 있고, 그들은 텍스트 형태로 있습니다. 그들이 내 사무실에 오면 정말 바뀌 었습니다. '이 단어를 놓쳤습니다'또는 '이 정의를 놓쳤습니다'와 함께 제공되지 않습니다. 그들은 이것이 왜 이것이 적용되는지 모르겠습니다. 우리의 초점이 바뀌 었습니다.”

코넬리 교수는 정기적으로 듣는 학생들은 수업 시간에 캡션을 확인하여 놓친 자료를 집어 들고 성적표를 학습 보조 자료로 저장한다고 덧붙였다. 가을 학기 동안 ASR 시스템을 조종하던 진화 생물학 수업에서 청각 장애를 앓고있는 한 학생이 과정을 중단했을 때 코넬리는 자막을 해제했습니다. 청문회 학생들은 반란을 일으켰습니다. 프레젠테이션 번역기는 전체 학기 동안 진행되었습니다.

Jenny Lay-Flurrie는 접근성에 대한 투자의 가치를 강화하기 때문에 이러한 유형의 이야기를 좋아한다고 말했습니다.

"순수한 제품 엔지니어링 설계 관점에서 접근성을 위해 디자인하면 10 억 이상의 장애를 포함하여 모두를 위해 디자인 할 수 있습니다."

통역 서비스를 제공 한 RIT의 수석 통역 인 Cynthia Collward에게 특별한 감사를드립니다.

반응형