语音转换翻译概要.docx
- 文档编号:336118
- 上传时间:2022-10-09
- 格式:DOCX
- 页数:17
- 大小:29.37KB
语音转换翻译概要.docx
《语音转换翻译概要.docx》由会员分享,可在线阅读,更多相关《语音转换翻译概要.docx(17页珍藏版)》请在冰豆网上搜索。
语音转换翻译概要
1.介绍
大量的身体或行为特征,这是鲜明的,可测量的特征来描述人类个体,已经研究了生物识别。
说话人确认,也被称为语音生物识别RICS,是生物识别技术的智能手机[1]或电话应用中语音业务空间分为最流行之一。
说话者检验的任务是自动接受或拒绝根据由用户提供的语音样本的身份,如权利要求。
就像生物的任何其他方法,一个扬声器自动检定(ASV)系统不仅有望成为准确的普通用户,也可确保不会受到spoof-ING攻击。
如所讨论的[2],可能欺骗攻击发生在两点:
传感器电平与感测到的信号的发送。
在传感器级别,对手,我们称之为一个骗子,可能欺骗系统,通过模拟目标发言人麦克风,或通过合成产生的信号取代获取的语音信号或。
一般来说,欺骗传输时间模仿声音攻击。
使用伪造的语音信号作为系统的输入进行特征提取和验证;因此,呈现给扬声器验证系统的威胁。
在本文中,冒名顶替者是指零努力骗子欺骗谁的系统不依赖于任何技术,而我们所说的非零努力骗子的攻击,谁使用语音转换或其他技术来模仿目标说话。
随着数码录音已经成为普及,重放攻击是欺骗扬声器验证系统的最简单方法。
重放攻击涉及预记录话音样品或通过从一个给定的目标讲话者串联基础语音段创建的示例的重复。
事实上,重放攻击已被证明是伪造文本的独立扬声器验证(TI-SV)系统,它没有对语言的内容限制的有效方法[3,4].How-以往,如果重放的内容是不同的由文本依赖扬声器verifica-灰所需的特定密码短语(TD-SV)系统,它不构成威胁,除非攻击能够获取目标讲话者的声音进行特定的通行短语如假定在[5]。
除了重放攻击,人的声音模仿或模拟也得到相当大的关注[6-8]。
作为模拟需要特殊的技能,因此很难判断其作为一般欺骗技术有效性。
部分证据,然而,表明人类是最有效的模仿音箱采用“类似”的声音煤焦CucumisSativus查阅全文,以自己的,而扮演一个任意扬声器,将会出现挑战[6]。
专业的语音模仿,往往配音演员,往往会模仿韵律,口音,发音,词汇,和其他高级别音箱的特征。
而不是使用自动系统频谱线索。
因此,人声模仿不考虑成本效益的对手来说话人确认系统。
语音合成代表了更真实的威胁。
由于单位选择[9]的快速发展,统计学的参数[10],并混合[11]的方法,语音合成系统现在能够产生语音以可接受的质量,以及一个给定的目标讲话者的语音特征,如频谱线索。
在早期的研究[12-14],漏洞oftext提示使用10个扬声器的小型数据库隐马尔可夫模型(HMM)为基础的说话人确认进行了检查。
最近,[15]中使用的柔性适于基于HMM的语音合成系统,欺骗的TI-SV系统上的约300对扬声器,一个主体。
虽然基于HMM的合成构成威胁埃斯佩cially到TD-SV系统中,通常需要训练语音小时培养的合理质量的语音合成系统。
甚至一个适于基于HMM的语音合成系统需要显著量的发言者的数据来训练的平均语音模型目标讲话者适应[16]。
因此,它并不像straightforwardas人认为使用基于HMM的语音合成以模仿某人的声音。
从重放攻击,人声mimick-ING和语音合成不同的是,声音的转换把一种扬声器(源)的声音听起来像另一只音箱(目标)不改变语言的内容。
保持语言的内容不变,该转换技术的工作原理有两种方式,一种是改变源的声音听起来不同-伪装自己;
另一种是改变源的声音听起来像一个目标的声音-模仿一些一.Asreal的语音转换不仅是可能的,而且还提供了语音质量和特色,即使是人耳无法轻易分辨,它提出了一个真正的威胁文字依赖性和TI-SV系统。
总之,人声可以看出有三个属性,语言内容,光谱图案,和韵律。
人声的个性是由光谱二尖瓣模式描述的,称为语音质量或音色,并通过由语音。
人类语音伊京携带的韵律模式通常修改韵律图案而音质转换修改都光谱和韵律模式。
因为它是更可靠,受到他们的频谱线索的表征音箱[17],大多数国家的最先进的扬声器核查系统是光谱模式的差异。
在本文中,我们将专注于语音转换欺骗攻击,并查看最新的研究工作在语音转换,说话人确认,欺骗攻击,反欺骗攻击看法欺骗与反欺骗的说话人确认中可以找到[18]。
本文的其余部分安排如下。
在第二节,语音转换技术的观点上提出,并在第二节,我们将简要飞再次查看该语句的最先进的扬声器验证技术,并讨论发言的薄弱环节,如果我阳离子。
欺骗攻击,防欺骗攻击的研究在第四和第五节,回顾分别。
本文的结论在第六节。
二。
语音转换技术
人的声音传达不仅仅是语言的内容,而且音箱的个性。
从言语感知的角度来看,音箱的个性特点是在三个不同的层次:
段,超音段,和语言的信息。
节段性信息涉及短期特征的表示,如频谱和瞬时基本频率(F0)。
该超音信息介绍韵律特征,如持续时间,语调,重音,节奏上的讲话比语音单位更长的区段。
它是更相关的信号,但跨越更长的时间比段信息。
在语言信息进行编码,并通过在消息词汇词表示。
由于每个扬声器具有他/她自己的词法偏好,字砂句子结构的选择,同样的语言信息可以由不同的人在不同的方式来传达。
语音转换技术来处理段和超节段性为息,同时保持语言的内容不变。
特别是,语音转换的目的是为了修改一个说话人的声音(源)听起来像另一位发言者(目标)不改变语言的内容。
,音质转换是一个过程来学习源语音Y和目标音频X之间的转换函数F(•),并以生成变换的语音信号X.这将此转换函数将源语音信号Y在运行时过程配制为如下:
X=F(Y)。
(1)图1表示一个典型的音质转换框架,它由离线训练和运行转化工艺的。
在离线训练,特性,特征音箱的个性,在参数向量的形式被首先提取源和目标音频信号。
然后,每个源功能配对与一种焦油得到的特征,这是所谓的帧对准,以建立源-目标的对应。
帧定位是通过动态时间通常实现翘曲为paral-LEL数据[19],或通过对非并行数据[20]一些先进帧对准技术。
最后,一个转换功能,从源目标特征对估计。
在运行时,转换函数被用来从源语音中提取的特征,然后将转换后的特征矢量序列被传递到合成滤波器来重建可听语音信号。
接下来,我们讨论的特征提取和转换功能的一个更详细的估计。
A)特征提取
在语音转换,我们考虑两个层次的特点,即短期频谱和韵律特征,对应于在短期光谱特征节段性和超音段是代表,涉及到语音音色的光谱二尖瓣属性。
梅尔-倒谱
语音转换与说话人确认3
图。
1,图一个典型的语音转换系统。
系数(MCC的),线性预测倒谱系数(LPCCs),和线谱频率(LSF)是弹出ular短期光谱特征来表示频谱包络的语音转换。
动态特性,如三角形和delta-Δ功能,也可以采用以捕获语音动力学,以产生更好的质量的转换话音。
共振峰的特点是另一种短期特征表达来描述声道,并已应用在一些语音转换系统。
韵律特征还包括显著音箱的个性。
语调,持续时间和强度是典型的韵律特征。
语调表示的基频轮廓在更长的时间,并描述音节的音调以及一个扬声器的口音。
B)转换功能
光谱映射和韵律转换映射段的精神和超分行业资料,分别从一个扬声器到另一个。
接下来我们讨论这两种形式的转换功能。
1.频谱映射的频谱映射方法可大致分为三类:
统计,频率翘曲,和单元选择方法。
在统计方法,源和目标特征之间的关系,通过参数化模型成立。
它们被用于实现转换函数来源要素映射到目标特征空间。
矢量量化(VQ)是一种简单而直接的映射方法中,这是提出[21]。
此方法实现从配对的源-目标操作上码本。
码本是用于找到对应的焦油获得向量为每个源特征矢量。
一些统计模型已经提出了以提高矢量量化方法。
高斯混合模型(GMM)[22-24],偏最小二乘回归[25],和轨迹HMM[26]是假设在源与目标的功能之间的线性关系的好例子。
假设在源和目标语音特征之间的非线性关系,研究人员研究了另一组的方法,如阿尔季ficialne尤勒尔网络[27-31],支持向量回归[32],和内核部分的LEA平方回归[33]。
在统计方法,变换函数是用于从发送的频谱,而不以下物理原理。
因此,统计平均化效果,这反映了语音特征的集中趋势,可以引入过度平滑[24,34,35]。
频率翘曲方法的股权的物理原理考虑,目标是振幅频谱的频率轴上翘曲到源扬声器以匹配的目标说话者[36-41]。
通过这种方式,频率变形方法能够保留更多的频谱细节砂生产出高品质的转换讲话。
其基本频率弯折方法只考虑没有考虑振幅考虑移动频率轴。
为了弥补这一差距,提出了在[39]的除垢技术,以提升转换性能。
虽然频率弯折方法能够生产出高品质的语音转换,频率翘曲方法转换和目标语音之间的相似性不如中所报告的[40]的生成的方法。
一般来说,统计参数和频率翘曲的方法尝试修改扬声器特性。
与这些方法,单元选择方法利用原来的目标讲话者的特征向量来构建各转换[42-44]。
这种想法是通过单元选择用于语音合成[9]的启发。
在音质转换,作为训练数据有限,基本单元通常仅跨酮[42,43]或几个帧[44]。
2.韵律变换韵律转换涉及的韵律特征,诸如基频,语调,和持续时间。
最简单常用的方法为正常化均值和源扬声器的(对数)F0分布的方差对于与目标讲话者的。
这种方法操作瞬时F0值和仅改变F0的全局级别,以及基频范围。
然而,目标声音取相同的持续时间和语调图案作为源的声音。
一些已经尝试延长均值方差归一化(MVN)的方式,诸如较高阶多项式[45],片分段线性变换[46],和基于GMM的映射[47,48]。
这些方法也操作上瞬时F0和工作,如果源和目标音箱具有“类似”的语调模式。
相反,瞬时F0经营,分别提出了更先进的方法[45,47,49,50],在转化为国家的模式直接在音节级甚至更长的时间段。
这些方法通常需要手动标注的语调边界。
除了基频/语调转换,提出在[51-54]的持续时间的转换。
持续时间是相关于语音信号的节奏和速度,并且是描述扬声器个性的重要因素之一。
在[51],持续时间嵌入式双HMM模型,提出了同时转换的光谱属性和持续时间。
双HMM模型的意思是平行的源-目标HMM模型捕捉源和目标功能。
在[52],提出了一种概率模型来处理两个不同长度的话语,其中源和目标特征之间的帧对准被下列国家代表通过隐藏.A相似的想法在[54]到转换持续时间和频谱。
在[53],该音节级的持续时间,通过最大似然线性回归(MLLR)转化,并放松了的并行数据的要求。
3.3.总结一般来讲,光谱/韵律映射技术是,以匹配给定的源说话人的频谱/韵律特征的目标说话者的频谱/韵律的属性。
如上所讨论的,已经提出了大量的方法旨在改善的音质转换的质量。
在这里,我们更感兴趣的是为欺骗攻击的语音转换方法的有效性。
从频谱映射的角度看,这两种统计学的频率和翘曲的方法是灵活的,当训练数据有限,而单元选择方法有望实现更好的性能时有足够的数据,例如30分钟讲话,是可用的。
在统计学的方法中,最大似然高斯mix-TURE模型(ML-GMM)与动态特征约束的方法[24]以及动态核偏最小二乘法(DKPLS)[33]是两个受欢迎,实现的方法性能稳定,不同的训练数据。
特别是,对ML-GMM方法是在音质转换研究行之有效的基线方法。
在频率翘曲的方法中,加权频率翘曲
4.与幅度缩放(WFW-AS)已报道实现相当的性能的ML-GMM扬声器相似[39]表示。
因此,ML-GMM,DKPLS和WFW-AS可能是不错的选择,可模拟语音转换欺骗攻击时,训练数据是有限的,虽然不是所有的人都被应用到欺骗攻击。
在韵律转换,语调模式的转换,需要手工语调边界和图案的标签,以及大量的训练数据。
最实用的方法就是做F0值均值和方差归一化。
5.三。
说话人确认技术
6.扬声器核查系统的目的是为了才会自动接受或拒绝一个扬声器的基础上只是语音样本声称的身份小号X={X1,X2,...,XT,...,XT}[17]。
这个验证过程ILLUstrated图。
2,并配制为假设检验:
7. (X)=
8.P(X|λH)P(x|λ高)
9.,
(2)
10.其中λH是假设H的模型参数,该话音样品X是选自扬声器S,和H是一种替代的假设,即话音样品是不脱离要
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 转换 翻译 概要