언제 말 걸지 아는 스마트 스피커 개발 길 열어

김민주 기자 2020-10-30 (금) 08:55 3년전 436  

- KAIST 전산학부 이의진 교수 연구팀, 최적 발화 시점 추론 기술개발에 필수적인 스마트 스피커 사용자의 상황맥락 요인을 규명

f2bc9ddfcdf5bbe61e403438bfe8211f_1604015714_134.jpg

​▲ (왼쪽부터) 차나래 제1저자(KAIST), 김아욱 교수(강원대학교), 이의진 교수(KAIST)

KAIST(총장 신성철)는 전산학부 이의진 교수 연구팀이 스마트 스피커 인공지능 비서가 선제적으로 말 걸기 좋은 최적의 시점을 결정하는 중요한 상황맥락 요인을 찾아냈다고 28일 밝혔다.

기존에 개발되거나 시판 중인 스마트 스피커 인공지능 비서는 사용자가 먼저 요청한 서비스만 제공하는 반면 최근 스마트 스피커의 개발은 사용자의 상황에 맞춰 능동적인 서비스를 제공하는 형태로 진화하는 추세다. 똑똑한 음성비서가 사용자가 처해 있는 상황을 정확히 이해한 후에 선제적으로 일정 및 건강관리를 도와주는 방향으로 개발되고 있는 것이다. 하지만 아무 때나 눈치 없이 말을 건다면 도움은커녕 하는 일에 방해만 될 수 있다.

이의진 교수 연구팀은 스마트 스피커가 선제적으로 음성서비스를 제공하기 좋은 최적의 시점을 찾는 연구를 전산학부 이재길 교수를 비롯해 산업디자인학과 이상수 교수와 함께 다학제 연구팀을 구성해 공동연구를 수행했다. 그 결과 다학제 연구팀은 스마트 홈 환경에서의 최적의 발화(發話) 시점을 결정하는 중요한 사용자 상황맥락 요인을 찾았다.

최적의 발화 시점에 관한 추론은 인공지능 비서가 음성서비스를 시작하거나 중지 또는 재개를 스스로 결정하고 제어하기 위한 필수적인 기술이다. 연구팀이 찾아낸 중요한 상황맥락 요인은 최적의 발화 시점 추론 시 정확성을 높일 것으로 관계자들은 기대하고 있다. 

스마트 스피커 인공지능 비서가 선제적으로 말 걸기 좋은 시점을 찾기 위해 연구팀은 우선 실험용 스마트 스피커를 제작했다. 스마트 스피커는 사용자의 움직임이 감지되거나 일정한 시간이 지나면 주기적으로 "지금 대화하기 좋은가요ˮ라는 질문을 했다. 참가자는 대화하기 좋은지 아닌지, "네ˮ 또는 "아니요ˮ로 대답하고 무엇을 하고 있었는지를 설명했다. 연구진은 이어 교내 기숙사에 거주하는 학생 40명(2인 1실)의 방에 스마트 스피커를 설치해 1주일간 총 3,500개의 사용자 응답 데이터를 수집했다.

데이터 분석 결과 전체 참가자 응답 중 47%는 대화하기 부적절한 것으로 드러났다. 이에 연구진은 대화하기 좋은 시점을 결정하는 주요 상황 요인을 찾기 위해 19개의 실내 활동 범주를 만들어 테스트했다. 이 결과, 연구팀은 적절한 시점을 결정하는 상황맥락 요인으로 크게 개인적 요인과 움직임 요인, 사회적 요인을 꼽았다.

개인적 요인은 크게 `활동 집중도', `긴급함과 바쁨 정도', `정신적·육체적 상태' 그리고 `다중 작업수행을 위한 듣기 또는 말하기 가능성' 등 4가지다. 예를 들면 집중해서 공부하고 있거나 드라이로 머리를 말리고 있을 때는 스피커와 대화가 어려웠다. 움직임 요인은 `외출', `귀가' 그리고 `활동 전환' 등 3가지다. 특히 사용자 움직임이 있을 때는 스피커와 대화 가능한 거리가 최적 시점 판단에 큰 영향을 미쳤다. 외출은 스피커와 대화 가능 범위 밖으로 나가는 움직임이고, 귀가는 범위 안으로 들어오는 움직임이다. 범위 안으로 들어오는 귀가(歸家) 상황일 때는 대부분 대화하기 좋은 시점으로 분류됐다.

일반적으로 스마트 스피커는 거실처럼 집 구성원이 함께 생활하는 공간에 설치된다. 수집된 사용자 응답 중 절반은 룸메이트가 함께 있을 때 수집됐다. 연구팀은 전화 대화뿐만 아니라 누군가와 함께 있다는 것 또한 스마트 스피커와 대화하기 좋은 시점에 영향을 끼친다는 현상을 확인했다. 룸메이트가 자고 있거나 어떤 활동에 집중하고 있을 때 스마트 스피커와의 대화로 인한 갈등을 최소화하고 싶기 때문이다.

제1 저자인 차나래 학생은 "이번 연구가 미래 스마트 스피커 개발의 중요한 토대가 될 것ˮ이라면서 "앞으로는 센서 데이터로 감지된 상황맥락 정보를 활용해 스마트 스피커가 스스로 대화를 시작·중지, 또는 재개하기 좋은 타이밍을 선제적으로 감지해 지능적인 음성서비스를 제공할 수 있을 것ˮ이라고 밝혔다.

한편, 이 연구는 과학기술정보통신부의 재원으로 한국연구재단-차세대정보 컴퓨팅기술개발사업의 지원을 받아 수행됐고 유비쿼터스 컴퓨팅 분야 국제 최우수 학술지인 `Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies' 9월호에 게재됐다.

(논문명 : Hello There! Is Now a Good Time to Talk?: Opportune Moments for Proactive Interactions with Smart Speakers)

f2bc9ddfcdf5bbe61e403438bfe8211f_1604015553_8361.jpg

[그림 1] 스마트 스피커의 다양한 선제적 서비스
스마트 스피커가 제공 가능한 선제적 서비스 예시이다. 사용자가 명령하기 전에 스마트 스피커가 먼저 전등을 켜고 끄거나, 냉난방을 켜고 끄는 등 IoT 기기를 조작할 수 있다. 사용자의 복약 시간이 되었을 때, 스마트 스피커가 먼저 사용자에게 말을 걸어 복약 일정을 알려줄 수 있다. 스마트 스피커가 사용자의 스케쥴을 파악하고, 추가 일정이 발생할 때 비어있는 시간에 일정을 추가하는 것을 선제적으로 제안할 수 있다.

f2bc9ddfcdf5bbe61e403438bfe8211f_1604015572_7523.png

[그림 2] 스마트 스피커가 먼저 말을 거는 선제적 서비스
사람이 말을 걸기 전에 먼저 말을 거는 스마트 스피커의 선제적 서비스가 작동하는 방식이다. 용건만 바로 말하기보다는 “안녕하세요”와 같이 대화의 시작을 알리는 문장으로 말을 건다.

 

 

f2bc9ddfcdf5bbe61e403438bfe8211f_1604015590_3295.png
[그림 3] 실험용스마트 스피커 제작
(a) 실험용 스마트 스피커는 위와 같은 부품으로 만들었다.
 ㅇ 스마트폰: 데이터 수집을 위해 주기적으로 질문하고 응답을 녹음할 수 있는 앱을 만들어 스마트폰에 설치하였다. 사용자의 움직임을 감지하기 위해 스마트폰 내장카메라를 사용했다.
 ㅇ 광각렌즈: 기숙사 내의 더 넓은 범위에서 사용자 움직임 감지를 할 수 있도록 했다.
 ㅇ 블루투스 스피커: 스마트폰과 연동되어 스마트폰의 소리가 스피커를 통해 나오도록 했다.
 ㅇ 높이 조절 가능한 지지대: 사용자 움직임을 감지가 잘 되기 위해서는 스마트폰의 내장카메라가 사용자의 눈높이에 맞아야 했다. 그 높이를 실험 환경마다 동일하게 맞추어 주기 위해 높이 조절 지지대를 사용했다.
(b) 부품을 조립하여 스마트 스피커를 만들었다.
(c) 제작한 실험용 스마트 스피커를 실험환경(기숙사 방)에 설치하였다.

f2bc9ddfcdf5bbe61e403438bfe8211f_1604015608_3412.jpg

[그림 4] 질문-응답을 통한 데이터 수집

질문-응답을 통한 데이터 수집(ESM)은 위와 같이 진행되었다. [1] 랜덤하게 또는 움직임이 감지되었을 때 ESM 질문은 트리거된다. [2] 스마트 스피커가 “지금 대화하기 좋은가요?”라고 질문한다. [3] 방에 있는 실험자들은 질문에 바로 응답한다. 대화하기 좋으면, “네”라고 대답하고, 무엇을 하고 있었는지 말한다. [4] 대화하기 좋지 않으면, “아니요”라고 대답하고, 무엇을 하고 있었는지 말한다. 실험자의 응답은 녹음되어 데이터로 수집된다.

 

f2bc9ddfcdf5bbe61e403438bfe8211f_1604015625_8079.png

[그림 5] 대화하기 좋은 타이밍에 대한 세 가지 요인
데이터를 분석한 결과, 대화하기 좋은 타이밍에 영향을 끼치는 요인은 크게 세 가지가 있었다. 개인적 요인, 움직임 요인, 사회적 요인이다.

 

 

f2bc9ddfcdf5bbe61e403438bfe8211f_1604015640_2099.png
[그림 6]  대화하기 좋은 타이밍에 대한 세 가지 요인 (자세히)
개인적 요인은 네 가지로 나뉠 수 있다. 집중과 참여, 긴급함과 바쁨, 정신적 또는 육체적 상태, 듣기 또는 말하기 가능한 상태이다.
움직임 요인은 세 가지로 나뉠 수 있다. 외출, 귀가, 활동 전환이다. 특히, 외출과 귀가는 대화 범위에서 벗어나는지 진입하는지와 연관이 있다.
사회적 요인은 가장 눈에 띠는 요인이 룸메이트에 대한 배려이다. 혼자 있었으면 “대화하기 좋다”라고 대답했겠지만, 룸메이트가 자고 있을 때는 잠을 깨우고 싶지 않기 때문에 “좋지 않다”라고 응답하였다.

f2bc9ddfcdf5bbe61e403438bfe8211f_1604015662_8806.png

[그림 7] 스마트 스피커의 선제적 대화 관리
본 연구에서는 스마트 스피커가 먼저 말을 걸기 좋은 타이밍 요인을 찾아냈다. 세 가지 요인을 기반으로, 스마트 스피커의 선제적 대화 관리를 할 수 있다.
멀티 모달 센서 데이터를 활용하여 행동 및 컨텍스트를 센싱하는 기술이 상당히 발전하고 있다. 멀티 모달 센서 데이터를 활용하여, 사용자의 집에서의 행동을 감지하고 판단하여, 적절한 순간에 말을 거는 선제적 서비스를 구현할 수 있을 것이다.
예를 들어, 귀가 시 중단가능성이 매우 높다는 요인을 활용하여, 스마트 도어락 또는 현관 모션 센서 등으로 귀가를 감지한 후 대화를 시작하는 알고리즘을 적용할 수 있을 것이다.​

 

 

<저작권자 ©특허방송, 무단 전재 및 재배포 금지>

<저작권자 ©특허방송, 무단 전재 및 재배포 금지>