전국매일신문
지면보기
 표지이미지
지방시대
지면보기
 표지이미지
ETRI, 구어체 언어분석 기술 사이트 공개…엑소브레인 개발
상태바
ETRI, 구어체 언어분석 기술 사이트 공개…엑소브레인 개발
  • 대전/ 정은모기자
  • 승인 2020.08.06 14:57
  • 댓글 0
이 기사를 공유합니다

전이학습‧데이터 증강기법 활용, 학습데이터 부족 극복

ETRI은 위키백과 및 법령 등 문어체를 주로 이해하는 기존 언어분석 기술을 확장, 구어체 언어분석 기술을 관련 사이트에 공개했 다고 6일 밝혔다.

엑소브레인은 현재한컴오피스 2020에 탑재되는 등 이미 상용화가 이뤄진 인공지능으로 언어분석 기술, 딥러닝 언어모델 기술, 질의응답 기술 등이 적용되었다. 언어분석 API는 2017년 10월 공개 뒤 일 평균 2만 6천 건 등 총 2천 6백만 건에 이를 만큼 학계 및 언어처리 분야 연 구자들에게 널리 사용되고 있다.

기존 문어체 기술을 고도화해 사람의 대화까지 정확하게 이해할 수 있는 구어체 언어 분석 기술을 개발하는 데 성공했다. 이로써 관련 산업 생태계를 활성화하고 AI비서, 챗봇 등 AI 서비스 개발이 한층 가속화될 전망이다.

ETRI가 공개한 구어체 언어분석 기술은 크게 형태소분석 기술과 개체명 인식 기술 두 가지 이다. ETRI가 공개한 기술은 TTA표준 가이드라인을 따르며 형태소 태그는 47개, 개체명 태그는 146개다.

연구팀은 구어체 언어분석의 어려운 점은 과업 자체의 난이도와 학습데이터 부족에 있다고 설명했다.

또한 기계학습 및 딥러닝 기술이 대규모 학습데이터를 필요로 하는 데 반해 구어체 분야는 데이터 확보조차 어렵다는 문제가 있다. 실제 개체명 인식 학습데이터의 경우, 문어체는 약 27 만 건이지만 구어체는 1/10 수준인 2만 5천 건 수준에 불과했다.

이에 연구진은 전이학습과 데이터 증강 기법을 활용하여 학습데이터 부족 한계를 극복해냈다. 구어 체 언어분석 API와 더불어 기존 대비 성능을 개선한 문어체 언어분석 API도 추가로 공개했다. 추가로 공개된 API는 형태소분석과 개체명 인식 기술이 각각 96.80%, 89.40%의 높은 정확도를 보였다.

 

[전국매일신문] 대전/ 정은모기자
J-em@jeonmae.co.kr


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사