沪ICP备06058754号-1
基于情感化的移动端语音交互设计探究

李真真,谢文娟,唐凌,徐旭玲

2019-11-26

用户体验 文集

 

 

2018年学术论文欣赏

本文段落精选

 

 

与传统移动端交互相比,语音助手解放了双眼和双手,降低了人们与设备的互动成本,本文从本能层、行为层和反思层研究语音助手的情感化设计,将语音交互设计与情感化设计结合为语音助手体验提升提供新的思路和方法。

 

跨平台语音设备保持一致性不但能提高效率而且将为用户带来更完整的交互体验。

 

 

 

基于情感化的移动端语音交互设计探究

 

李真真 谢文娟 唐凌 徐旭玲

国美手机

 

摘要:

情感化设计(Emotional Design)由Donald Arthur Norman在其同名著作中提出,并将情感化设计分为三个层次:本能、行为和反思。本能层次的设计关注外形的视觉效果;行为层次的设计关注功能,讲究实用;反思层次的设计强调个人的体验、联想和记忆。鉴于情感化设计有利于改善用户体验,满足用户心理诉求,多年来一直是研究热点,并被应用于各行各业。随着移动端语音助手的普及,笔者从本能层、行为层和反思层研究语音助手的情感化设计,将语音交互设计与情感化设计结合为语音助手体验提升提供新的思路和方法。

关键词(3-5个)语音助手,用户体验,情感化设计

 

1. 语音助手现状分析

进入AI时代,人工智能给机器带来三种能力:感知能力、认知能力、自然语言输出能力。感知能力使机器能听得懂人类语言,认知能力使机器能思考如何回答人类问题,自然语言输出能力使机器可以像人类一样表达——三种能力的综合运用将人机交互带入语音交互阶段。从让Siri设定闹钟到让Alexa即兴表演,语音交互极大地降低了人们与机器交互时的学习成本,将人机交互综合效率带上新的台阶。

近年来,移动端语音助手不断普及,然而,语音助手体验还有待提升,笔者通过用户访谈的方法了解语音助手使用现状、使用语音助手的需求和期望等问题,结合情感化设计方法,以期为语音助手体验提升提供思路和方法。

日常设计工作中,大家都会按照一定的设计流程开展工作,设计前一般都会进行探索研究、分析聚焦后发现问题,据此得出一定的设计策略。本文也是按照该流程,笔者通过进行用户访谈,了解用户使用语音助手的场景、需求、期望,从而为优化语音交互体验提供思路和方法。

 

图1 用户访谈问卷

 

本次共计访问10位用户,年龄层次在18岁-35岁之间。访问之后,笔者对用户访谈的结果进行整理,整理纬度有:日常使用语音助手的情况、使用语音助手的需求与期望、对语音助手的畅想及担心问题。在此基础上,完成用户角色建模,具体的用户角色卡如下图所示:

 

图2 用户角色信息卡

 

最终根据用户画像和调研中收集的问题进行聚类分析,集中梳理与归类,得到用户诉求,包含“自然”“高效”“智能”三个方面,即语音助手设计所要达到的基本要求。

 

3 用户诉求

 

2. 情感化设计概述

 “情感化设计(Emotional Design)”最初是由Donald Norman在他的著作《情感化设计》提出。之后,作者Aarron Walter在Designing for Emotion一书中,将情感化设计与马斯洛需求层次理论联系起来。正如人类的需求层次分为生理、安全、爱与归属、自尊和自我实现这五个层次,产品特质也可以从低到高划分为功能性、可依赖性、可用性和愉悦性四个层次,其中最上层的“愉悦性” 即情感化设计。

 

4 产品特质四个层次

 

在《情感化设计》一书中,结合知觉心理学将情感化设计分为三个层次:本能、行为和反思。本能层次的设计关注外形的视觉效果。人是视觉动物,对外形的观察和理解是本能,视觉设计越是符合本能思维,就越可能让人接受并且喜欢。行为层次的设计关注功能,讲究实用,重视的是性能,使用产品是一连串的操作,外观带来的良好第一印象能否延续,关键就要看两点:是否能有效地完成任务,是否是一种有乐趣的操作体验。反思层次的设计强调个人的体验、联想和记忆。这一层次,事实上与用户长期感受有关,需要建立品牌或者产品长期的价值。只有在产品/服务和用户之间建立起情感的纽带,通过互动影响了自我形象、满意度、记忆等,才能形成对品牌的认知,培养对品牌的忠诚度,品牌成了情感的代表或者载体。

 

5 情感化设计三个层次

 

3. 语音助手情感化设计

3.1 本能层次

人们的感觉主要发于本能,是内心世界活动的产物。随着外部环境的改变,这也是人们对周围环境所产生的不同感受,也是最为直接的情感体验。在移动端语音交互中,声音是最重要的直观感受。人与手机交互过程中,要通过声音为用户提供语音服务,进行信息交互反馈、发出警告等。2014年,捷克皮尔森西波西米亚大学应用科学系的研究人员,曾探讨过AI语音系统下,机器化的声音和自然度高的声音的喜好度研究,结果发现,近3/4的用户更喜欢自然度高的声音。此次用户访谈中,超过半数用户也表示自然度高的声音听起来更舒服自然。同时,为了满足不同用户对声音的需求,可以多提供几种自然度高的声音供用户选择。

除了声音以外,视觉也是影响语音助手比较直观的因素。由于眼部是人类重要的信息接收器,因此可以设计符合语音助手特质的视觉形象。为语音助手设计视觉形象时,该视觉形象应与声音和情绪相匹配。此外,还要注意不要落入恐怖谷陷阱。恐怖谷理论是指当你看到一个与人类极其相近但并不完全相像的事物时,你就会感到恐怖。因此在设计语音助手形象时可以使用非人形象,比如用动物形象或者卡通头像。

 

图6 “恐怖谷”曲线

 

3.2 行为层次

行为层设计关注设计功能是否满足用户的需求,以及通过操作流程体验带给用户的感受。即是否能有效地完成任务,是否是一种有乐趣的操作体验。

 

3.2.1 开启对话

许多系统都采用了命令-控制模式,在这种模式下,用户说话前需给出系统明确指示。目前语音交互唤醒方式大致可分为接触式和非接触式两大类,其中接触式唤醒包括:

硬件唤醒:如使用Siri说话前需按住home键或或按住Siri页面下方的说话图标。

APP式点按唤醒:语音助手以APP形式存在,如国美手机的“小美同学”除支持硬件唤醒外,在桌面上也有对应的APP。

非接触式即通过唤醒词唤醒,如只需直接对iPhone手机说“嘿Siri”,Siri 便会为你服务。

用户开启说话后,系统应给出一定的反馈。以Siri为例,当用户唤醒Siri后,系统会出现非语言的音效反馈和视觉反馈,通过这种方式让用户知道可以说话了。

 

 

 

图7 开启对话后的反馈

 

3.2.2 对话模式

如果用户正在用语音交谈,应尽量做到对话自然连贯。

1) 减少用户操作

用户进行语音对话中,没必要用户每次说话都要重复唤醒设备。因此系统应根据语境尽可能保持聆听状态, 如让Siri打电话给“abc”的场景中,系统中存在两个名为“abc”的联系人,需要用户明确应打电话的确定联系人,Siri会自动保持聆听状态以便用户给出明确指示,而不需要用户手动去按说话图标。

 

      

            图8 减少用户操作

 

该场景下需合理设定系统保持聆听状态的时长,防止时间太短遗漏那些在说话前有短暂犹豫的人说的话;以及时间太长,系统可能会听到一些用户并不打算对系统说的话。

此外,还应减少冗余和繁琐的交互,比如Google的拨号功能设计中,以前用户说“给Cindy发消息”时,Google会询问“是座机还是手机?”,用户必须进行选择。而现在,它能智能判断用户指的是手机,因为用户是不会给座机发消息的。避免用户再次选择,缩短了交互路径。

2)持续跟踪上下文

目前移动端语音交互大多局限于单轮对话,其原因之一是缺乏会话语境。语境意味着系统需要知道对话相关信息是什么,并且知道之前发生过的对话内容。为了改变单轮对话模式,使对话更智能、更人性化,系统可以利用上下文信息,如记住上下文代词的指代对象、存储用户问到的某个人的性别,或者始终存储最近一次提到的那个人,并根据用户说“他”或“她”来进行指代。需要用户做出选择时,能区分 “第一个”或“第二个”具体指代上文中的哪一个。如上面让Siri打电话给“abc”的例子中,用户明确“the second one”(第二个)即可拨打给152****5456的用户。通过了解用户的意图并允许用户继续交谈带给用户更人性化的体验,否则,与一个不能记住上一轮对话内容的系统交谈是一种不舒服又无益的体验。

 

 

    图9结合语境反馈

 

除此之外,开放式对话中,根据上下文语境可以让对话更自然流畅。例如,中英文两种语言状态下,与 Siri关闭低电量模式的对话中可以看出,英文状态下语境结合度比较高,对话更自然流畅;中文下则相对较弱,对话明显生硬,给人答非所问的感觉。

3)提前预测可能会说到的情况

对用户可能会说到的所有情况做更完善的预测,尤其在封闭式对话中,如健康类、金融类对话中。应提前准备好尽可能丰富的语料,以满足功能需求和情感需求。

 

3.2.3 多模态交互

由于人类记忆力有限,一次性大约只能记住7个以内的听觉项目。为了降低用户认知难度,在向用户传达信息、确认信息时,可将需要传递给用户的信息展示在屏幕的可视化列表中,允许用户同时使用语音和屏幕进行交互。同时用户可随时查看列表,而不必记住每个细节。如下图,假如用户对Siri说“想去医院”,Siri会将附近的医院以列表的形式展示出来,便于用户选择确认,而不是读出一串医院的名字。

 

图10 增加可视化组件

 

通过增加可视化组件让用户更从容地进行交互,从而创造更为丰富的使用体验。

 

3.2.4 允许用户请求帮助

当用户在开放式情境下请求帮助,没有任何上下文信息来了解用户到底需要什么帮助,或者用户只是唤醒了语音助理却什么都不说时,屏幕上可以显示一些可以操作的例子,告诉用户它可以做哪些事情。另外,还可以利用视觉展示空间,一些移动应用的GUI界面中通常会设计一个“帮助”或“说明”按钮,能让用户在需要帮助的时候立马知道如何进行下一步操作。语音交互界面中也可以设计这样的按钮,便于让用户知道它真正能做哪些事情。如唤醒Siri但什么话都说时,屏幕上会主动显示Siri可以做哪些事情,同时左下角会一直显示“帮助”按钮。

 

图11允许用户请求帮助

 

3.2.5 异常处理

在进行用户访谈中,让用户使用语音助手执行打电话给某人的操作,发现有时用户发出了打电话的指令但是系统并没有执行相应的动作。这有可能是系统没有检测到语音,也可能检测到语音但系统无法识别。对于这种异常情况,系统可以尝试给出一些聪明或有趣的回答,比如Alexa无法回答用户问题时,它会说“对不起,我不明白我听到的问题”;同样的情况,国美手机的语音助手小美同学会出现“小美同学还不会,去教他”的反馈。

此外,还可以利用人类已经适应的对话规则。实际对话中,当我们不理解对方所说的话时,最常见的方式就是什么都不说,疑惑地看着对方,或者礼貌地微笑。移动端语音助手设计中也可以设计一个虚拟形象,当系统不理解用户的话时,使用一些微妙的反馈,比如一直看着用户。

 

3.3 反思层次

从反思层面进行设计时要求设计能够激发起用户的想象力,从情感的角度出发与语音助手互动,形成情感共鸣才会产生比较高的用户满意度。具体而言,情感体验是内心感情层面的体验,是从情感的角度出发对客观事物进行反思,让用户对语音助手产生新鲜感,在使用中注重与之交互,形成良好的体验,使得交互过程更为安全、流畅,且能够在互动中产生归属感。移动端语音助手交互设计中,将情感元素注入其中,从反思的层面进行设计,就要对人们的认知习惯充分了解,并在设计中合理利用,有助于设计能够产生情感共鸣。

 

3.3.1 学习记忆用户习惯

人与人之间愉快的交谈时,交谈中通常包含一些关键因素:情境感知(关注你和周围环境)、关于之前交流的记忆,以及相关问题的交流,这些都有助于在交流中达成共识。通过机器学习,语音交互将会变得更有代入感、更可信,也更讨人喜欢。当一位经常点披萨吃的用户,唤醒语音助手点披萨时,应该直接显示常点的某家披萨店,让用户确认要不要再次购买,而不只是打开某外卖APP。记住用户的简单信息除了让系统看起来更智能外,还可以节约用户的时间。用户在搜索餐厅时,可以利用定位信息判断用户是在家还是办公室, 从而自动推荐信息,无须用户手动选择位置。

 

3.3.1 情感分析和情绪检测

人的情感是非常丰富的,不同的情感层次需要不同的回应:难过时会需要安慰、开心时需要庆祝激励。通过情绪感应技术可以分析用户的语音语调并由此判断他们当前的情绪,如Moodies Emotions Analytics通过提取不同声调背后的含义,解码和衡量“全方位人类情感”,从而更好地了解人们的心情和剪裁互动。用户只需按下一个按钮,然后说说自己的想法,20秒后,该应用程序就将显示他们的基本情感,如下图

 

 

    

图12 Moodies Emotions Analytics

 

使用用户情绪相关的技术时,应尽量应用情感和情绪分析来引导对话,正确判断用户的情感状态非常关键。根据不同的情绪及语境给出回应,当语音助手检测出用户情绪低落时,可以结合用户行为习惯通过一系列措施调节用户的情绪,比如播放用户喜欢的歌曲分散注意力、讲笑话逗用户开心等。或者根据大数据采取措施,如电影《超能陆战队》中的机器人健康助理“大白”,在主角情绪低落时结合大数据给出调解方案:接触朋友、爱人,并自动联系朋友。

 

3.4 总结

综上所述,为了满足用户“自然”、“高效”、“智能”的诉求,结合情感化设计理论,移动端语音助手交互设计中:

1) 采用固定舒适且自然度高的声音;措辞口语化,使用日常用语;句式自然避免说话方式机械化;这将有助于用户对语音助手形成自然的印象,产生愉悦感。

2) 采用多模态交互,视听融合的交互体验,可以减少用户的记忆负担,让用户更从容地与设备进行交互,从而创造更为丰富的使用体验。

3) 使用对话标记,创造自然流畅的对话模式,不仅能避免单轮对话的枯燥感,减少用户操作,而且能提高用户参与度。

4) 系统状态反馈除及时有效外,还应关注用户接受度。尤其是在异常情况时,系统给予用户有趣或聪明的回答能够调节氛围,更容易让用户接受。

5) 合理运用情感分析和情感检测,可以使语音助手更智能、更具同理心。

 

4. 展望

4.1 跨平台体验一致性

与传统移动端交互相比,语音助手解放了双眼和双手,降低了人们与设备的互动成本。目前语音助手逐渐加入对智能家居的深度管理和控制,给予用户更多自由。随着语音使用场景越来越广泛,处理同一空间下不同语音设备之间的关系,不同平台间信息同步以及体验一致性成为未来语音交互需要解决的问题。例如车内有多个可收听设备:汽车、手机和手表等,可以使所有设备都接收信息,然后根据场景分派响应优先级,由某个设备响应而不是一起响应。如果用户开车过程中询问“昨晚乒乓球比赛谁得了冠军”,通过检测到用户行驶中,手表应该念出所需信息或者请求手机完成信息反馈,而不是直接显示结果。再比如,驾车场景中,用户使用车载系统听书,到家后,用户唤醒手机可自动播放开车中未播放完的节目。跨平台语音设备保持一致性不但能提高效率而且将为用户带来更完整的交互体验。

 

4.2 用户隐私安全性

语音带来方便的同时,也要注意语音数据隐私的安全性。根据the Atlantic的报道,向Siri发出的请求和设备ID会被苹果保存6个月,之后他们会删除设备ID,但是音频文件将再保存18个月,用户隐私泄露的隐患大大增加。为了保护用户隐私,用户的音频文件和设备ID可以上传至云端,允许用户设置密码保护,如将自己的声纹设为访问密码,提高安全性。用户可以通过设定的声纹密码访问、调用、编辑已有的音频文件。

对于会轮询检测唤醒词的设备,应预先制定优先考虑隐私的标准,在用户说唤醒词前不要保留用户所说的内容,为打消用户疑虑。

 

4.3 更智能

与其他智能语音设备相比,移动端语音助手更具便捷性,可以随用户去更多地方,与用户相处时间最久,可谓是了解用户的“一举一动”。结合人工智能的不断发展,语音助手在未来不仅仅能帮助用户处理指定任务,还有可能更智能处理社交任务。如用户在洗澡,不能及时接起家人来电时,语音助手可以代为接听、说明用户状态,并将结果反馈给用户。

AI领域已经出现了一个“情感AI”分支,关注人机互动的情感维度,致力于让人和机器的互动更人性化。通过分析人们在不同情绪状态下的表达方式,比如言语、身体姿态、面部表情等,来“教会”AI基于人们的情绪做出恰当回应。当语音助手能学会“表现的有情感”并越来越擅长这件事时,人们与其交流会更变得越来越顺畅,甚至有可能对其产生信赖。

在享受AI智能带来便利的同时,也应警惕这种便利带来的其他影响。

 

 

参考文献

 

[1] [美]Cathy Pearl著,王一行译,《语音用户界面设计》.中国工信出版集团.

[2] 唐纳德·A·诺曼,《设计心理学3:情感化设计》. 中信出版社.

[3] http://aiid.baidu.com/315/

 

UXPA中国会员登录

记住我

第三方登录

×

微信登录

×
请使用微信扫描二维码登录 “UXPA中国官网”

下雨的春天

已使用微信登录(更换账号)

×

会员密码找回

×