网络语言项目中的语音技术Word格式.docx
- 文档编号:19528779
- 上传时间:2023-01-07
- 格式:DOCX
- 页数:41
- 大小:207.63KB
网络语言项目中的语音技术Word格式.docx
《网络语言项目中的语音技术Word格式.docx》由会员分享,可在线阅读,更多相关《网络语言项目中的语音技术Word格式.docx(41页珍藏版)》请在冰豆网上搜索。
学生应该在这一环境中探索,使用目标语言和可用的语言工具来收集信息,以解决给定的问题。
换句话说,系统应该创造一个环境,通过积极使用可用的语言资源,来支持语言学习。
为了这一目的,ELLS应该配有一个智能的(机器人式的)自动语言帮助,学习者可以通过语音或文本输入随时请教,它为学习者提供文本或声音反馈(见赵勇博士的第一份草稿提议《失去的火炬》-来自2002年11月20日的邮件)。
我们把语言学帮助想象成一个交互式环境中的中心部件,这样一个交互式环境通过程序引导学习者,帮助他们完成每一个(游戏)水平,来解决给定问题。
如果语言学助手被学习者(活动角色)提问,它就提供学习者词汇知识的样例,给出语法解释,在源语言和目标语言之间进行翻译,显示和解释单个汉字,显示整个文本段,按要求播放声频和视频剪接文件,这样支持学生听说读写技能的训练。
教学内容必须相互关联,有趣而且是成体系的:
换句话说,课件应该
(1)满足美语(汉语)教学的需要,和教室教学关系密切。
(2)和美国(中国)孩子的性格特点相符,激起他们学习汉语(英语)的积极性,(3)应该运用各种方法介绍和陈述内容,用一种游戏的方式,然后用教学和指导的方法。
汉语教学中课件也应该反映中国(美国)文化,例如中国香港,西部游览故事,北京和其他文明城市,筷子文化等等。
听读能力要求网络课程提供更多支持。
游戏对低年级学生更具有吸引力。
它们对听力训练很有效,但在写作训练是就不是这样了。
而且,游戏可能带来一些消极的后果,这种后果对语言学习者获得系统的科学知识是无用的,而研究性的学习可以弥补这一点。
尽管拼音(罗马字母系统)经常用作汉语阅读教学中的一种过渡性文字用于中文教学阅读,中文读物中仍然使用汉字系统。
对于那些母语不是汉语的学习者来说,汉字的译码可能是一个挑战。
由于汉字是目前人类语言中唯一包含思想性的语言,对于母语不是汉语的学习者来说,学习人类思想之谜,学习汉字和思想的对应关系,学习汉语文化,都特别重要。
下列功能应该包括在系统中,帮助学生学会识别汉字:
a)用本族语言介绍人类思想的形成以及语言和思想的关系。
b)用本族语言介绍汉字和思想之间的对应关系。
c)用本族语介绍汉字生成规则,在实验和逻辑的基础上提供象形文字和复合文字,汉字演变animation,和有关汉字的故事。
练习让学生区分易混淆的汉字或形近字。
d)介绍汉字形式和逻辑符号的发展,包括抽象逻辑基础上的形声字。
练习让学生区分易混淆的字或形近字。
e)介绍汉字潜在地推动思想和语言发展,包括汉字和建立在其上的观念无限结合的能力,包含在汉字中的意义的表达和符号生成的无限性。
也介绍汉语中思想和语言作用的魔力,以及汉语表达意义的潜在能力。
f)汉字抽认卡包括中文汉字、拼音读法、记录的声音和英语释义。
一个简单的配对联系包括抽认卡,要求学生提供发音、语调、汉字的英语意义,反之亦然。
这样能迅速提供反馈。
一种工具要求学生识别汉字的语气和笔划,以及生动的字符来显示笔划顺序。
以上这些最终要整合成一个大规模的游戏系统,探索人类的思想和语言之谜。
1.2自动语言学习助手
我们预想学生可以随时通过语音和文本输入进行访问,得到自动语言学助手。
这一章中描述了我们对通过语言学助手进行的学习活动的预想。
我们将进一步说明需要哪种语音技术来支持这些学习活动。
学习活动:
说和写
支持学生在学习环境控制和操纵:
(1)语言学助手接受用户口头和书面的控制和操纵命令,这些命令用母语能说或写,也可以用第二语言.(更高的游戏水平)。
(2)语言学助手根据给定要求运行,例如,播放视频剪接文件,提供游戏的暗示,通过选项来操纵等等。
语音技术要求:
语音识别,对话的自然语言理解
学习活动:
发音,说话,听力
(3)系统用词或短语提示学习者
(4)听语音输入
(5)提供发音质量反馈
(6)播放学习者输入
(7)播放/合成正确发音的声频
(8)让学习者控制(放慢)发音速度,以便更好地理解和模仿
语音识别,语音合成
词汇,说话,听力
支持学习者与合作者进行简短交流,通过
(9)将词汇表中的词表现为文本,图像,视频
(10)将单词翻译成目标语言或者从目标语言翻译过来
语音识别,自然语言理解,语音合成,词对词的翻译
语法,说话和写作
支持学习者和合作者进行更复杂的交流,通过:
(11)助手翻译交流的简单短语
(12)解释语法结构
语音翻译,语音合成
(13)支持学习者在写作系统中学习
(14)解释和现实中文汉字(对于中国合作者,拼音,音素罗马化)
(15)接受学习者书面输入
(16)识别书面输入
技术要求:
多模式输入技术
学习活动:
阅读,听力
(17)显示正宗的阅读材料,如报纸、杂志、电子邮件
(18)学习者阅读文本
(19)助手听输入,解释口语单词
(20)助手读材料(预先录好音的)给学习者,解释所读的词,以便学习者更容易理解
要求:
听力
(21)按要求播放视频和声频剪接文件
(22)大声读新闻和别的声音材料
语音合成
1.3语言学助手的技术要求
预想中的语言学助手要求四种自动语音处理系统:
语音识别,语音合成,自然语言理解和翻译。
语音识别是接收用户口语输入,并将输入的内容转化为词序列的部分。
因为语音识别不理解用户目的,只是将声音输入转化为文本输入,第二个部分,自然语言理解(NLU)就成为需要。
NLU部分理解用户目的,从输入中推导目的行为。
语音翻译部分接收源语言中用户给定的输入,将其翻译为目标语言。
词对词的翻译只要求在双语词典中查询,以便将一个单词翻译为另一个单词,而基于短语或句子的翻译必须把握句子的意义,将这种意义翻译为目标语言。
这又需要自然语言理解。
语音合成或TTS模块是生成语言助手声音输出的部件。
1.4ELLS环境中语音处理技术的挑战
对于所有的ELLS语音处理部分,我们假定它们是在一个受限领域运行,但应该识别、翻译和合成语音输入,从英语到汉语,从汉语到英语,都进行这些工作,这些英语或汉语是由非母语的语言水平不太好的K-12个“无知”(naï
ve,这里的“无知(naï
ve)”是指他们之前从来没用过语音驱动的系统)学生讲的。
ELLS系统将由一系列建好的部件组成,用这些来学习第二语言。
这个构造反映了语音处理引擎的要求。
开始语音技术的聚焦点将在一些简单的给提示的单词或短语上,这些单词或短语被用户重复好多遍。
目标可能存在于检测较大的发音问题,帮助提高发音,提供词对词翻或简单短语翻译的帮助,从而学到一些汉字。
对于语音处理来说,最大的挑战是双重的,首先是非母语低水平的口语输入的鲁棒性识别,和有发音错误的提示性语音中错误部分的检测;
其次,为词和简单短语的翻译提供高质量的语音输出,学生可以从这些词或短语中学习到正确的发音和语调。
这一课程在更复杂的短语和句子结构上对使用者加大了要求。
正确的获得过程不再要求有提示的单词和短语,而是更自由的口语和更复杂的句法和语义结构。
根据语音处理系统,为了满足语音识别、语音合成、翻译和理解部分的需要,需要一个大词汇表,使系统允许更复杂的输入结构,另外还要求一个更灵活的反馈表。
而且,翻译不仅需要覆盖更复杂的自然的语音输入,还需要处理有语病的句子。
ELL系统用学生要学习的目标语言进行的声音输出,应该有较强的可理解性,并且非常吸引人。
输出应该没有任何发音问题,以保证学生能学到第二语言正确的发音和语调。
用母语进行的声音输出要求较低,因为学习这对自己的母语已经很精通了。
因此,英语母语学生可以接收较差的仿人质量,些微的发音错误或者较弱的单词语调等,这些缺点都不会影响他们的第二语言获得。
1.5ELLS中语音技术预期功能的总结
●人机交互中的说话和写作:
用户使用语音进行网络导航和网上冲浪,语言学习游戏,(导航命令和应用领域受限,话题具体),点击提示按钮用语音合成解释内容。
●系统提供发音,说话和听话功能:
系统提示用户文本(标有国际音标或拼音)中词或短语的发音,提供用户发音反馈,播放用户发音并和标准音进行比较,以便更好地模仿和理解发音过程,系统允许用户调整控制发音速度。
对于目前的语音处理技术来说,要发现句子中词或短语不正确的发音,矫正初学者的发音很重要。
●在术语学习中,为系统提供一个简单的人机对话,解释语音,图片和文本中规定的词汇,提供预定文本中词或短语的互译(英语到汉语,汉语到英语),显示简单的对话,然后让用户完成话题和领域受限的对话。
●在语法学习中,为系统提供简单短语和语法结构的翻译,或者语法结构用字幕或语音加以解释,以便使用户和计算机或用户之间能成功地进行交互和学习。
●在书法笔划的学习中,为系统提供中文汉字笔划输入,通过多媒体输入技术进行学习的功能,这样系统能够显示和解释中文汉字笔划的输入过程。
另外还需要提供汉字拼音读音,来判断用户汉字笔划输入的正确性。
●在听说练习中,为系统提供示例,通过语音识别和合成示范报纸或文本的阅读。
为了使用户可以阅读,系统中对难读词或短语进行标记,这很容易办到,这样用户就可以阅读选定的文本内容。
文本中核心内容的发音是通过文本依赖(对于非母语的初学者来说这很重要)的语音合成实现,要求比较高;
非中心内容的发音质量要求一般,这通过文本-独立的语音合成来实现。
●在听力练习中,播放有声或可视的新闻内容,这通过语音合成或多媒体技术来实现,播放后让用户回答练习。
2.评测标准
我们定义了一个三层评测标准计划,包括E语言学习系统(ELLS),特殊标准,技术具体标准,和产品具体标准。
ELLS项目中语音技术要达到实用,必须满足这些标准。
2.2ELLS特殊标准
ELLS特殊标准是鲁棒性,可量测性和便携性。
ELLS的鲁棒性意思是,整个系统即使没有远程计算机上的维护仍能运行。
系统的使用应该是直接的,傻瓜型的。
对于语音识别来说,可量测性指的是系统可以分布在CD—ROM/DVD上,也可以放到网上。
而且,混合系统能让用户既可以使用CD或DVD,也可以使用网络,作为所需要的补充。
系统必须是有计划的,以便能随着学生水平的提高,很容易地扩展,来覆盖越来越多的内容。
可量测性也包括ELLS在不同的带宽条件下,在各种计算机平台(DOS,Mac,Windows,UNIX)上运行的能力。
系统的便携性表明了方便地将系统扩展到其他领域,可能是其他语言的愿望,这些将在以后的阶段实现。
2.2技术特殊标准
除了这些系统标准,技术本身也需要根据语音交流中传统使用的质量检测进行评测。
这些技术特殊标准指的是语音合成的语音质量和可理解性,语音识别的词错误率和语音翻译的翻译性能。
而且,我们还需要考虑单项技术的计算机要求。
如实时、存储和CPU资源等重要项目,以及带宽限制。
2.3产品特殊标准
除了这些大的标准之外,需要考虑更多的产品有关标准,如花费,产品的可利用性(在不同的平台上)以及技术支持和维护。
最后,对于在网上或者CD上发布,需要考虑许可问题。
这儿关键问题是许可协议,这要允许网上出现大量的,可能无法控制的副本,而每一个副本都不需要单独注册。
3.语音识别技术
语音识别模块是接收口语语音输入,并显示假定输出的可能的词序列的部分。
为了计算最可能的词序列,当前技术水平大部分语音识别系统采用隐马尔可夫模型,该模型从统计上模仿音位和音位变体,将这作为口语的声音单元和操纵查找过程的发音词典。
而且,统计语言模型和语法可以更进一步用来限制搜索空间。
语音识别器的质量通过词错误率(WordErrorRate,WER)来判断,即错误识别的单词的百分比。
但是为了解释一个系统的WER,必须考虑识别任务的困难性,这基本上可以通过四个参数来确定:
说话者(说话者依赖,说话者独立,方言,非母语语音);
噪音环境(close-head麦克风,声道依赖,cell电话);
说话风格(孤立的,有内容的,连续的,自然的,谈话式的)和应用参数(数字,领域受限,报纸,广播电视,非受限领域)。
3.1目前中美语音处理技术的评测
这里我们为每一种技术描述了当前发展水平所实现的系统的性能,展示了这些系统的局限性,以及这些技术和我们期望不久达到的水平的接近程度。
这部分总括了语音识别系统的特征和性能,给出上文多次提到的系统的一些综合信息。
这些被描述的系统许多配置成可使用多种词汇表,多种声音和语言模型。
为了比较作为底线的LVCSE中这些系统的性能,我们首先报告NISR评测结果,为了系统相互间进行比较,报告这些年语音技术的进步,该评测从80年代后期就开始执行。
因为语音识别研究工作组人数非常多,论文无法描述所有现存系统。
因此作者设法在规则的基础上选择两年内参与评测的系统,展示其优良性能。
除此之外,作者设法选择那些和ELLS系统结合时可利用的引擎。
总是作者设法选择这样的系统和设置,即代表语言社团现有工作,与目前系统发展相关的那些。
3.2不同的语音识别系统的比较(针对美国)
即使是纯粹的WER值也无法提供尽可能多的信息,对同一个语音识别任务中不同的语音引擎进行比较,仍然是适合的。
这对NISR评测长期以来是适用的,NISR从19世纪80年代开始一直被使用,进行系统之间的相互比较,报告最近几年内的进步。
NISR这些评测,由DARPA发起(国防部高级研究项目局),证明了语音技术15年之内巨大的进步,从使用近距离讲话的扩音器、在安静的环境中记录下来的、依赖特定讲话者的数字识别,到在多变的噪音条件下、运用不同的语言以各种讲话风格进行的电视广播新闻的语音识别(见计划)。
NIST实施的最新评测是人们在电话中交谈的配电盘(SWB)评测。
这样的语音识别应该很困难,因为十足的会话式演讲风格,产生了自然的语音效果,如被填补的停顿,犹豫,重复和交叉谈话,从而使识别变得困难。
另外由于受带宽限制,电话记录质量差。
2001年配电盘评测的最好系统按顺序依次是,CU-HTK,AT&
T,BBN,IBM,SRI,词错误率从19.8%变化到27%。
这意味着,即使在最好的情况下,每100个词中有20个识别错误。
表1比较了当前最好的语音识别器对一些重要的NIST评测的结果和规范。
我们挑出配电盘(Switchboard)和广播新闻评测方法,因为这些任务和我们能实现的ELLS任务可能很接近。
这个语音引擎表很不完全,但确实包括了由NIST规则评测后最好的最突出的语音引擎。
表0不同语音识别系统的比较(#表示评定等级)
System
NAB-C11994
BN1996
BN1997
SWB1997
SWB2001
AT&
T
#713.0%
-
#225.6%
455RT
BBNByblos
#311.9%
#330.2%
(45kvocab)
#420.3
#235.5
#326.6%
234RT
CUAbbot
#612.4%
#534.7%
(65kvocab),60RT
#927.1
CUHTK
#110.5%
#227.5%
(65kvocab)340RT
#116.2
#339.2
#124.6%
298RT
CMUSPHINX
#1013.7%
#823.8
Dragon
#813.2%
#623.1
#439.9
IBM
#211.1%
#432.2%
(65kvocab)
#217.9
#427.8%
540RT
LIMSI
#412.1%
#127.1%
(65kvocab)250-300RT
#318.3
MIT
#1119.0%
Philips/Aachen
#913.4%
#723.3
SRI
#512.2%
#642.5
#529%
402RT
CSLU(OGI)
#1038.8
CMUJRTk
9.0%200RT
13.0%2.2RT
15.0%1.3RT
#135.1
3.3不同语音识别系统的比较(针对中国)
语音技术已经变成ELLS中人机接口的关键技术,研究水平也从实验室逐步走向实用。
人们可以使用语音技术得到人机口语对话。
许多系统例如机场订票自动问答系统,旅行自动问询系统,餐馆定餐自动咨询系统等等,都取得好的成果。
调查表明,85%以上的人对语音识别的信息咨询服务系统性能表示满意。
我国语音识别研究工作主要是从上世纪八十年代中期开始,主要的研究单位包括清华大学计算机系、电子工程系、中科院声学所、中科院自动化所。
从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。
之后得到了包括“985”、“973”、“九五”攻关、国家自然科学基金等在内的多项国家研究计划和中科院知识创新工程的支持。
Table1andTable2are国内外语音识别系统的概况.中文语音识别的研制和开发的厂商有:
IBM、Microsoft、Speechworks、Nuance、Philips、Infotalk、Pattek,GR&
T,d-EarTechnologies,英语语音识别包括IBM,DragonNaturalSpeaking6(nowScanSoft),微软,SRI/Nuance通信=DECIPHER,At&
T贝尔实验室(LucentTech.),BBN–BYBLOS,CU-HTK,Janus,SPHINX,厂商包括:
Philips,Nuance,SpeechWorks,IBM,MS,ScanSoft.
表1和表2展示了中国和海外的语音识别系统。
Table1:
国外主要语音识别系统
系统或组织
条件
识别性能
1000个单词,中等语法适应说话人的连续语音识别
识别率91.1%。
AirTravelInformationService,系统鲁棒性非常强,能够有效地处理自发口语的各种现象。
在1995年的ARPA-ATIS测试中与AT&
T的CHRONUS一道以错误率仅3.8%名列前茅。
对997个词的连续语音在有文法限制的条件下
识别率为96.8%,音素识别率为73.8%。
INRS
依赖于话者,75000词汇的
识别率为89.5%。
IBMTangora(美式英语)
依赖于话者5000词汇
识别率为97.1%
可识别英式英语、法语、德语、意大利语、西班牙语以及日语,
不依话者20000词汇
识别率为94.6%
IBMViaVoice
不依话者32000中文词
识别率为95%
ViaVoice是Tangora系统的中文版。
M.Miyatakeetal
TDNN综合训练2620字
查找音素的正确率为98.0%
用预测神经网络模型,5240个普通日语字
识别率为92.6%
Hild
对依话者1000个句子多态TDNN,
对120人不依话者的1680个字
识别率为98.5%,
识别率是92.0%,
SPHIX是96.0%
SPHIX为90.4%。
H.Sawai
基于TDNN-LR-DP的混合法,对5000词。
识别率达92.6%
K.Isoetal
预测神经网络,依话者5000词汇
识别率达97.6%
具有很强的建模能力,可用于连续语音和非特定人
Table2国内主要识别系统
研发单位
系统
性能指标
清华大学电子工程系
专用芯片识别30条特定人语音命令
识别率超过95%
基于统计理解方案的汉语全音节语音识别系统--“知音文书处理系统”。
非特定人汉语数码串连续语音识别(在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串))
识别精度94.8%(不定长数字串)和96.8%(定长数字串)
5000词邮包校核非特定人连续语音识别(可识别普通话与四川话两种语言)
识别率达到98.73%,前三选识别率达99.96%
非特定人连续语音识别口语对话功能“熊猫”(观众与“熊猫”自然对话可以了解熊猫的生活习惯、生理结构等信息)
识别率超过98%
清华大学计算机系
EasyFlight是一个电话航班信息系统。
用户使用日常生活中的口语,通过电话信道与系统进行人机交互,向系统提出请求,与系统进行对话来达成其想完成的任务。
系统考虑到口语中存在大量不合语法规则的现象,用以解决口语语言中的无意义成分及词序混乱的现象。
中科院声学所
依赖于话者的4万6千词汉语语音识别
八五攻关项目人机对话工程
中科院自动化所
31650词的大词汇表的认人孤立词识别系统
汉语全音节识别
LOADSTAR一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 语言 项目 中的 语音 技术