AI 챗봇 심심이 초거대 대화 데이터, 연구자 위해 공개
AI 챗봇 심심이 초거대 대화 데이터, 연구자 위해 공개
  • 이지연 기자
  • 승인 2022.08.01 14:24
  • 댓글 0
이 기사를 공유합니다

심심이 제공

인공지능(AI) 챗봇 '심심이(대표 최정회)'는 인공지능/빅데이터 연구자를 위해 20년 동안 축적해 온 초거대 대화 데이터를 7월부터 인공지능/빅데이터 연구·개발 커뮤니티에 공개한다고 1일 밝혔다.

심심이 측은 “대화 데이터 특성을 감안해 웹서비스 깃허브(GitHub) 등에 전면 공개하는 방식을 활용하지 않기로 했다’며, “연구자 또는 연구팀 개별 신청을 접수 받은 뒤 심사, 비밀 유지 서약 등 관련 절차를 마친 다음 요구사항에 따라 제공 및 관리하는 방식을 활용하기로 결정한 것”이라고 말했다.

심심이 대화 데이터를 제공받고자 하는 연구자라면 심심이 한국어 공식 블로그에서 신청서를 내려받아 작성한 다음 제출·승인 후 소정의 절차를 거쳐 이용할 수 있다고 업체 측은 전했다.

업체에 따르면, 지난 2002년 서비스를 처음 시작한 AI 챗봇 심심이는 10년 동안 한국어 대화 중심으로 운영돼 왔다. 지난 2012년부터 글로벌 서비스를 시작해 81개 언어를 바탕으로 전 세계 4억 명 이상의 누적 사용자를 확보했다.

심심이 관계자는 “다양한 언어를 사용하는 세계 각국에서 고르게 인기를 누릴 수 있었던 요인으로 사용자가 직접 학습시킬 수 있는 인공지능 챗봇 심심이의 특성 덕분”이라며, “유저가 방금 가르친 대화를 심심이가 바로 습득한다는 점에서 신선한 흥미를 유발하는 등, 이러한 매력이 입소문을 타면서 글로벌 AI 챗봇으로 거듭날 수 있었다”고 말했다.

업체에 따르면, 심심이는 특유의 커뮤니케이션 구조 덕분에 생동감 넘치는 대화를 전개하며 갈수록 더욱 많은 데이터를 확보하고 있다. 이번에 공개하기로 한 대화 데이터의 총 수량은 약 150억 건이며, 이 가운데 한국어 대화 데이터는 약 3억 건에 이른다. 대화 데이터 유형은 사용자가 심심이에게 가르친 대화 시나리오(싱글턴), 사용자-심심이 대화 데이터(준 멀티턴), V2 서비스의 심심이-심심이 대화 데이터(멀티턴) 등으로 나뉜다고 업체 측은 설명했다.
 

심심이는 이미 10여 년 전부터 대화 기술을 이용하고자 하는 전 세계 개발자들을 위해 API(Application Programming Interface) 제공 서비스를 오픈한 바 있다. 그 결과 3만 여 개 이상의 크고 작은 써드파티 기업 및 개인에게 제공하는 등 여러 노력을 했다는게 업체 측의 설명이다.

최근에는 개발자 사이트인 심심이 챗봇공방에서 공공성 기반 연구개발 프로젝트에 무료 제공 혹은 할인 혜택을 진행하고 있다. 이에 따라 초·중등 교육 프로그램, 박물관 도슨트, 장애인 보조를 위한 챗봇 연구 개발 등 여러 프로젝트에서 호응을 얻고 있다.

그러나 심심이 측은 API 수준의 데이터 제공만으로는 연구 시각을 다양화하는데 부족한 면이 많다고 판단했다. 따라서 원천데이터 수준의 공개를 결정했다는 설명이다.

심심이(주) 최정회 대표는 "대화형 인공지능(AI)이 최근 대세로 자리잡으면서 심심이 대화 데이터 수요가 점점 두터워지고 있는데, 특히 심심이는 국내외 학교, 연구소, 기업들과 데이터 제공관련 협력프로세스를 쌓으며 의미 있는 성과를 도출해왔다”며, “또한 최근에는 과학기술정보통신부(이하 과기정통부)가 주관하고 한국지능정보사회진흥원(이하 NIA)이 추진하는 2022년도 인공지능 학습 데이터 구축사업에서 한국어 블렌더봇 데이터 과제를 수행하며 공공 대화 데이터 구축에도 힘을 쏟고있다"고 말했다.

이어 "이 과정에서 한국어 챗봇 연구개발을 위한 대화 데이터가 빈약한 점이 안타까웠는데 적어도 연구자들에게는 보다 폭넓게 대화 데이터를 제공할 수 있다는 점에 착안했다"며, "연구자들과 접촉면을 확대해 서로 도움을 주고 받으며 한국어 챗봇 기술 수준을 높일 수 있는 기회가 더욱 많아지길 기대한다"고 덧붙였다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.