语音交互设计相关基础知识汇总一.docx
- 文档编号:12531665
- 上传时间:2023-04-20
- 格式:DOCX
- 页数:9
- 大小:20.64KB
语音交互设计相关基础知识汇总一.docx
《语音交互设计相关基础知识汇总一.docx》由会员分享,可在线阅读,更多相关《语音交互设计相关基础知识汇总一.docx(9页珍藏版)》请在冰豆网上搜索。
语音交互设计相关基础知识汇总一
语音交互设计相关基础知识汇总一
(
语音交互作为对话设计中最重要的一环,充分体现了智能助手智商和情商的,它直接影响了用户和计算机/智能设备之间的交流。
语音交互启蒙
一.为什么要进行语音交互设计?
1.输入效率高:
XX、斯坦福大学和华盛顿大学,曾共同完成了一项与智能手机输入方式对比的相关研究。
研究结果表明:
智能手机利用语音输入的速度比键盘输入快3倍,且输入准确率更高,语音输入以绝对优势胜出。
在日常生活中,最常见的比较就是在使用微信时,选择语音转文字后,输入速度快,识别准确率也高,很大成程度上提高了沟通的效率。
2.释放双手和双眼:
这里最长见的场景便是,导航。
生活中外出时,尤其是在驾车时,眼睛和手都有自己的工作,此时在找路或者接听电话时,就需要帮助。
语音交互便能很好的解决这一问题。
同时还能保证用户的安全。
3.交互方式更自然使用人群更广:
说话是绝大部分人所具备的能力,即使是语音交互新用户,也能通过直觉性自然地用语言进行回复,语音交互是最为自然地交互方式。
4.传递丰富的信息:
日常生活中我们会发现纯文字沟通很难理解对方的情绪和语气,但语音中却包含了语气、音量、语调和语速,以此传递更多的信息。
5.设备特征需求:
语音交互也常常成为小屏幕设备和不带屏幕设备的首选,甚至是唯一的交互方式。
二.语音交互的技术支持
如今,我们所使用的手机/电脑/笔记本等都已经可以可以用语音处理很多事情了,从听到我们的语音到执行正确的指令为我们解决问题,都离不开语音交互的两个重点核心技术:
语音识别(AutomaticSpeechRecognition,ASR)、自然语言处理(NaturalLanguageProcessing,NLP)。
(1)语音识别的挑战:
噪音处理:
恒定以及突然产生的噪音、周遭说话声;
多人讲话情况:
辨别谁在说话仍将是VUI系统的挑战;
儿童:
声带短,音调高,语音数据少;低龄儿童容易自言自语,口吃、长时间停顿等;
中英文混合,名字、拼写和字母数字:
预设列表和上下文信息,运行时抛弃无效结果,优选可能性高的。
(2)语义识别的挑战:
语言的多样性:
各种不同国家或地域语言:
中英文、方言等;
语言的多义性:
语言存在歧义,比如“我要去拉萨”,是理解为火车票?
音乐?
景点查询?
语言的表达错误:
错字、多字/少字、不连贯(我要看那个恩琅琊榜);
语言的知识依赖:
七天(时间/酒店)、大鸭梨(水果/餐厅)、别称;
语言的上下文:
对话上下文、因果关系、不同类型用户的表达。
就目前行业来看,理想条件下,语音识别发展较为成熟,一些数据显示ASR的准确性已经超过90%。
目前语义识别是学术界研究的聚焦领域,也是行业巨头布局重点。
对话设计原则
一、考虑技术局限及计算机本身
语音交互设计主要是为了实现人类与计算机之间的对话,因此除了在设计前考虑当下技术的局限性,还需考虑计算机本身与人类相比的优势和不足。
在众多方面,计算机的存在优于人类,比如快速收集信息,分享信息;孜孜不倦的重复回答同样的问题等。
在,计算机也不是万能的,比如,很多时候它不能完全的理解人类索要表现的意思。
就像,当下交互技术中,人机对话是,需要特定的开头语,只有这样人说的话才能转化为结构话数据被计算机理解,如果不能按照结构对话,所造成的不稳定因素都会导致计算机无法理解用户意思,这也就是当下的技术局限。
关于技术局限的前提,不止是产品设计者在设计时需要认真理解,同时也是需要设计者将这些局限告知用户,避免用户过高的期望,导致过高的失望。
也避免用户在使用中总是问一些系统无法理解和回答的问题。
二、确认用户场景
每一个用户都可能是在不同的环境下使用语音交互,统一的设计无法满足所有用户的需求,这是为了满足用户需求,需要加入个性化和场景化设计。
如果实现?
我们可以通过技术手段获取用户地址、时间和用户身份(包括声纹、用户注册信息)等信息,从而设计对话脚本,在设计对话脚本前我们需要考虑以下几个场景相关的问题:
1.用户在哪里?
所处的环境是怎样的?
2.用户正在做什么?
3.用户使用的是什么设备?
4.用户要完成什么任务?
目标是什么?
5.用户的期望和意图是什么?
三、明确你要设计的技能是什么?
不同类型的技能面向不同的用户群体和用户场景,在设计前明确要设计的技能是什么。
目前为止,所有的技能都可以分为播报型、指令型和互动型三类。
1.播报型
为用户提供内容服务,例如音乐、新闻、百科、食谱、故事等等。
2.指令型
为用户和生活服务建立一座工具桥梁,帮助用户解放双手,通过语音就能控制家居、发送短信、叫外卖等等。
3.互动型
用户通过多轮对话的方式与设备交互。
主要用于在娱乐领域,如问答测试、情景探险、识图对话、听音唱歌等功能。
四、明确你要设计的对话类型是什么?
不同的技能对应着不同的对话类型,从应用场景的覆盖面看,对话类型可以分为开放域(Open-domain)和封闭域(Closed-domain)两大类。
开放域对话类型没有太多限定的主题或明确的目标,用户和语音助手之间可以进行各种话题的自由对话,它更像一种图灵测试,难度很大,需要大量的知识库和复杂的模型,一般用于闲聊场景。
封闭域对话类型通常会限定在一定场景之下,有若干明确的目标和限定的知识范围,目标也更加清晰明确,例如正常人不会和电商导购交流情感问题。
正因如此,封闭域对话类型对对话的质量要求更高,错误的容忍度更低,它需要一个垂直领域建立的模型和知识图谱。
封闭域对话类型一般用于任务、问答或者娱乐场景。
基于以上的总结,对话类型主要分以下四种,它们有各自的特点。
1.任务类型
任务类型的对话指在特定条件下为带有明确目的的用户提供信息或者服务。
在智能家居场景下,一般可以通过单轮对话实现设备的操控。
如果用户的需求需要多轮互动,那么任务类型的对话需要通过询问、澄清和确认来帮助用户明确目的。
任务类型的对话主要用于智能助手应用上,例如Siri、小爱同学和天猫精灵。
特点:
设计起来比较复杂,非常依赖意图识别技术,通常使用意图识别+多轮对话+对接内容提供商的API和知识图谱。
目标:
用最短的对话轮次来完成用户的任务,通过对话所获取的信息转换成需要的参数。
比如“明天上海天气怎么样”。
地点是上海,时间是明天,意图是天气。
这些都要在意图设计时提前设计好。
2.问答类型
问答类型的对话需要回答“怎么设定闹钟”、“什么是语音系统”等问题,而这些问题也是一种任务,所以问答类型和任务类型的对话有一定的相似性。
问答类型的对话一般用于客服机器人上,常线上购物的朋友应该有过接触,他们的大部分问题都是提前预设的。
它们能和用户进行基本沟通并自动回复用户有关产品或服务相关的问题,当问题回答不了时可以转向人工客服,降低企业客服运营成本的同时兼顾用户体验。
特点:
意图设计非常简单,一般抓住关键词“为什么”和“是什么”即可,然后通过FAQ+对接内容提供商的API和知识图谱回答用户的问题。
目标:
用最短的对话轮次来回答用户的问题。
3.闲聊类型
前面提到闲聊类型的对话属于开放域类型,因此它是一种没有明确目的的对话,语音助手不知道用户下一句话会说什么,主要根据用户对话中出的关键词进行回复。
闲聊类型的对话一般用于智能助手应用上。
特点:
不精准,不可控。
机器的回复会在闲聊库当中,通过检索给出相应的回复。
目标:
对话轮次越多越好,一直聊下去就行。
4.游戏/娱乐类型
游戏/娱乐类型的对话结合了任务和闲聊类型的特点,还要结合游戏类型、趣味性等因素进行设计,一般用于智能助手应用上。
特点:
脚本分支多,游戏型还需要考虑故事线,设计起来比较复杂。
目标:
让用户放轻松。
五、提前定义好智能助手的人物设定
智能助手的人物设定会影响回复话术的设计,所以提前确认好智能助手的核心关键词和画像可以避免后续回复话术的修改。
六、了解对话的关键因素
在语音交互设计指南ActionsonGoogleDesign中提到,构建一个好的VUI对话需要考虑以下4个部分。
1.话轮转换(Turn-taking)
在对话交流中,我们会在一些往返的微妙信号中轮流说话。
如果没有有效的轮换,会导致对话过程中双方同时说话,或者对话内容会不同步并且难以被理解的情况。
因此轮到用户说话时,智能助手应该发出清晰的信号,例如音效提醒。
用户说话时智能助手不要贸然强行打断。
如果是询问用户问题,那就不要在用户回答的时候又突然插入一些其他问题或者指令。
2.对话线索(Treading)
在自然交流中,对话中的上下文、对话随时间演变的方式等对话元素都会连贯地交织在一条主线上。
对话中的对话线索可以帮我们更容易跟上对话流的节奏。
3.利用语音固有的效率
人们经常使用较为简短的口头表达方式,因为他们能够洞察出大家在说什么。
基本上我们都可以感知出一个对话中的“言外之意”,也知道有些东西是不需要被直接说出来的。
4.预测不同的用户行为
人们会用不同的词语和风格去描述同样的事情,这取决于他们自己的情景语境和自己早前经验产生的对VUI的预期,因此VUI应该支持这些差异,用户才能拥有一个无损的体验。
七、遵循会话“合作原则”
有研究表明,人们对技术的反应就像对另一个人的反应一样。
这意味着用户在和智能助手交互时,也会依赖他们现有的人与人对话方式。
量的准则:
所说的话应该满足且不超出交际所需的信息量。
质的准则:
不要说自知是虚假和缺乏足够证据的话。
关系准则:
所说的话要贴切,要与交谈目的和方向有关系,不说不相干的话。
方式准则:
所说的话要简洁明了,别拐弯抹角产生歧义。
(1)质的准则:
宣传自己做不到的事
如:
你对用户说:
“有什么可以帮助您的?
”,而实际上整个VUI系统只能提供点歌功能。
(2)量的准则:
多余的措辞
如:
“好的主人,我已经收到了,请您注意听主人,我要开始给你讲故事了……”(废话好多)
(3)相关准则:
给用户当前用不到的指示
如:
用户还没下单的时候就开始解释退货政策。
(4)方式准则:
使用用户难以理解的专业术语
如:
“您的SSID是什么?
”
八、对话不存在“出错”的概念
逻辑和准确性不是万能法则,人类口语表达通常会呈现出各种毫无道理的话。
用户任何请求都是有目的的,他们总是希望完成某些目的,即使没有明确说出来。
此时就不能将不能理解的问题当成是一个错误来处理,而是考虑如何把它转变为一个机会,把它当做是对话中的转折点,用新的方式来处理,从而推进更顺畅、更自然的沟通。
以下方法有助于把“错误”转化为对话交互中自然的一部分:
1.不要把技术上的“出错”当做用户的错误。
2.对于不同类型的“出错”提供对应适合的处理方式。
3.通过提供帮助来避免出错。
4.要知道在什么情况下放弃。
5.使完成任务的路径更强,来掩盖错误。
如何设计交互系统?
一.流程框架
一般解分为五个关键步骤:
调研→定位→设计→测试→完善
调研——挖掘语音交互使用场景
定位——聚焦产品定位,创建用户画像
设计——设计状态流程图,编写脚本,建立原则
测试——真人感受,在线模拟测试
完善——数据+案例分析,优化调整。
1.调研:
用户场景的选择
Google给出了3条指导原则:
1)人们可以快速做出回答的场景。
比如用户输入不需要思考的基本信息;
2)快捷,可以省去中间交互的时间,强执行操作比如来一首周杰伦的歌
3)双手已被占用,需要并行处理其它任务场合。
比如开车的时候,做饭的时候,记笔记的时候,这些场合双手多数是被占用的。
2.定位:
创建人物画像
语音交互是在模拟人的行为,建立的虚拟人的形象,也会让人们将现实中人的行为与其关联。
在设计对话前,定位出产品态度,才好选择词语风格,句子结构。
比如:
可爱风,严谨风,播音风。
3.设计交互对话
设计分为三个步骤:
逻辑状态图——对话脚本编写——解决方案分级
1)围绕用户产生的结果状态,梳理出逻辑图
机器与人的对话存在多种可能性,除了完成核心场景外,还要考虑意外的情况。
用户输入不在范围内,用户不按提示操作,用户重复输入多次,用户没有回应等等。
2)对每个状态编写对话体验脚本
如何设计AI时代的入口——语音交互
3)结合情感化设计的解决方案分级
从用户体验划分为三个层级,满足人们功能、心理、自我探索共鸣需求。
4.测试
1)大声的朗读出来,听起来是口语,而不是书面语言;
5.迭代完善
结合用户反馈,数据统计进行分析,不断完善。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 交互 设计 相关 基础知识 汇总