书签分享收藏举报版权申诉 / 26

立即下载加入VIP,免费下载

当前位置：首页 > 自然科学 > 天文地理 > 计算机辅助翻译技术Review.docx

计算机辅助翻译技术Review.docx

文档编号：5841781
上传时间：2023-01-01
格式：DOCX
页数：26
大小：401.36KB

《计算机辅助翻译技术Review.docx》由会员分享，可在线阅读，更多相关《计算机辅助翻译技术Review.docx（26页珍藏版）》请在冰豆网上搜索。

计算机辅助翻译技术Review.docx

计算机辅助翻译技术Review

计算机辅助翻译技术概论

押题：

1、隐马尔科夫模型2、机器翻译的方法3、文本电子化OCR4、双语对齐处理

5、汉语切分的方法和关键问题

5-20考试——计算机辅助翻译技术

考试题型：

填空、判断、问答7-8个

考查内容：

基本概念梳理，理解分析能力，考题思路，课件！

1、概论

1.1概况

为什么要研究翻译技术？

Ø何谓翻译技术（translationtechnology）？

能够用来进行语言翻译或辅助进行语言

翻译的信息技术。

Ø解决或缓解语言障碍（languagebarrier）问题，提高翻译从业人员的生产率。

Ø翻译技术的研究始于机器翻译

关于机器翻译

Ø机器翻译（MachineTranslation）定义：

利用计算机及其软件把一种语言（自动）翻译成为另外一种语言的技术。

Ø机器翻译研究的目标是研制具有翻译能力的计算机软件系统。

Ø机器翻译的研究始于20世纪40年代末期。

Ø机器翻译结论很困难。

翻译技术的分流

Ø机器翻译（MT）：

机器翻译的主体是机器。

目前比较困难。

（目标是寻找彻底的解决方案）

Ø计算机辅助翻译（CAT）：

计算机辅助翻译的主体是人。

相对比较容易，但却很实用。

Ø计算机辅助翻译立足为翻译人员提供（软件）工具。

协助翻译人员提高效率（生产率）。

名词辨析

CAT-Computer-aidedTranslation

MAT-Machine-aided（-assisted）Translation

MAHT-Machine-assistedHumanTranslation

HAMT-Human-assistedMachineTranslation

MT-MachineTranslation

FAHQMT-FullyAutomaticHighQualityMT

关于翻译技术的理解

Ø狭义的理解，翻译技术指计算机辅助翻译技术和机器翻译技术。

Ø广义的理解，翻译技术指的是对翻译人员工作有益的任何信息技术。

文字处理工具（MSWord）（不可或缺）

国际互联网及其应用（WWW、Email...）

各种电子资源（百科全书光盘...）

Ø本课程的定位：

主要是狭义的翻译技术。

配合翻译技术的一些通用技术（数据获取技术、文本处理技术）

关于本地化

何谓本地化（localization）？

Theterm“localization”referstotheprocessofcustomizingoradaptingaproductforatarget

languageandculture.

全球化没有带来其他语言的消亡，带来了本地化。

本地化的特点：

量大、时间紧迫、技术（应用）性强

simship

Anabbreviationof“simultaneousshipment”,whichreferstothepracticeofreleasingmultiplelanguageversionsofaproductatthesametime（oratleastasclosetothesametimeasispossible）.

翻译技术概观

翻译技术体现为一组翻译工具，是若干软件工具的集合。

翻译工具可以涵盖翻译的不同阶段、面向不同的需要。

资料的收集\原文的理解\术语的处理

1.2工具

语言材料的电子化工具

ØData-capturetools

Ø使用翻译技术的前提：

待翻译的文本需要是电子化的，是计算机可以处理的。

翻译过程中所需要的各种资源需要是电子化的。

Ø何为机器可读（Machinereadable）?

文字变成编码形式

Ø常见的电子化手段：

手工键盘输入（keyboarding）、Scanning+OpticalCharacterRecognition、VoiceRecognition

Ø文件格式转换工具

Ø编码转换工具

Ø多语种处理能力

语料库分析工具

ØCorpus：

alargecollectionofelectronictextsthathavebeengatheredaccordingtospecificcriteria.

ØTypeofcorpus：

monolingualcorpus：

orpuswhichconsistsoftextsinonelanguage.

parallelcorpus：

corpuscontainingsourcetextsalignedwiththeirtranslations.

语料电子化工具、语料处理工具

ØCorpus-analysistools

Softwarethatallowuserstoaccessanddisplaytheinformationcontainedwithinacorpusinavarietyofusefulways.Mostcorpus-analysistoolstypicallycontainanumberofusefulfeaturesthatallowuserstogenerateandmanipulatewordfrequencylists,concordances,andcollocations.（频率表、关键词、搭配）

ØFrequencylist

ØConcordance（bilingualormonolingual）

ØCollocation

ØCorpus-analysistools

Øallowuserstohaveaccesstofrequencydataandto

Øseetermsinavarietyofcontextssimultaneously–

Øfeaturesthatdictionariescannoteasilyprovide.

ØKeywordincontext（KWIC）:

amethodofdisplaying

Øconcordancelinesinwhichalloccurrencesofthe

Øsearchwordarecenteredonthescreensurrounded

Øbytheimmediatecontext

Ø直观认识

语料处理工具

汉语切词（segmentation）

词性标注（POStagging）

屈折语形态还原（lemmatization）

句法分析（parsing）

双语对齐（alignment）

……

既是语料处理工具通常也是机器翻译或机器辅助翻译系统的组成部分

术语管理工具

翻译中的术语一致性问题：

termbank,termbase

Terminology-managementSystem（TMS）:

Asoftwareapplicationthatallowsuserstocreate,store,andretrievetermrecords.

Activeterminologyrecognition

Terminologypre-translation

Termextraction（identification）

MonolingualorBilingual

Qualityoftermextraction

翻译记忆工具

TranslationMemory:

atypeoflinguisticdatabasethatisusedtostoreandretrievesourcetextsandtheirtranslations.

Translationreuse

Pre-translation

Matches:

ExactmatchFuzzymatchNomatch

TMtoolsandlocalization

TMCreation

TMtool是CAT的核心工具

机器翻译用作辅助翻译工具

Pre-editing+MachineTranslation

MachineTranslation+Post-editing

其他策略

Sublanguage

controlledlanguage

集成翻译工具

ØTranslator'sworkbench（workstation）：

anintegratedsystemfortheuseofprofessionaltranslators,whichcombinesmultilingualword-processing,terminologymanagement,translationmemory,andautomatictranslation.

ØWorkflowmanagement

1.3翻译技术与计算语言学

Ø计算语言学是通过建立形式化的计算模型来分析、理解和处理自然语言的学科。

是一门文理交叉的学科。

（源于翻译技术的需求）

Ø翻译技术建立在计算语言学的基础之上，翻译技术的突破有待于计算语言学的发展。

Ø自然语言

2、P2-翻译技术的数学基础

2.1概率统计的基本概念

2.1.1随机事件

随机事件：

在一定条件下,可能发生也可能不发生的事件称为随机事件，简称事件。

一般用大写拉丁字母A,B,C,…表示事件。

随机事件的两个特殊情况

必然事件：

每次试验都必定发生的事件（W）。

不可能事件：

每次试验都一定不发生的事件（F）。

2.1.2频率和概率

频率：

如果在相同条件下进行了n次重复试验，事件A出现了v次，那么事件A在n次实验中出现的频率为是v/n。

当n无限增大时，频率呈现稳定性。

这一统计规律性表明事件发生的可能性大小是事件本身所固有的、不以人们主观意志而改变的一种客观属性。

概率：

概率:

事件A发生的可能性大小称为事件的概率，记作P（A）。

当试验的次数n足够大，可以用事件的频率近似地表示该事件的概率，即

概率的基本性质

条件概率

条件概率在事件B发生的条件下，事件A发生的概率称为事件A在事件B已发生的条件下的条件概率，记作P（A|B）。

当P（B）>0时，规定:

当P（B）=0时，规定P（A|B）=0。

乘法公式

2.1.3独立性和贝叶斯公式

若事件A和B，满足条件P（AB）=P（A）P（B）则称事件A和B相互独立。

贝叶斯公式:

根据乘法公式，可以得到下面的重要公式

2.1.4随机变量

随机变量：

每次试验的结果可以用一个实值变量X的取值来表示，这个变量称为随机变量。

它是随机现象的数量化。

离散型随机变量如果随机变量X只能取有限个（或可列个）数值x1，x2，…，xn，…，就称X为离散型随机变量。

在语言的统计处理中，一般仅用到离散型随机变量。

2.1.5概率质量函数（pmf）

设X是一个离散型随机变量，它所有可能取的值为x1,x2,…,xn,…,

P{X=xk}=pk（k=1,2,…,n,…），

则可以用下面的表格来表达X统计的规律：

其中，1≥pk≥0且Σpk=1，称表格所表示的函数

为离散型随机变量的分布质量函数，记作p（x）。

2.1.6随机变量的数字特征——期望方差标准差

数学期望:

随机变量X的数学期望E（X）是该变量取值的概率加权平均。

数学期望简称期望，描述了随机变量的平均值。

若X为离散型随机变量，则：

E（X）=X1*p（X1）+X2*p（X2）+……+Xn*p（Xn）

随机变量（X–E（X））2的数学期望称为随机变量X的方差，记作D（X）或Var（X）。

方差描述了随机变量的取值距离其平均值（即期望值）的分散程度。

即

标准差随机变量X的标准差定义为随机变量X的方差的算术平方根，记作s（X）。

即:

2.1.7总体、样本

总体研究对象的所有可能的观察结果称为总体。

样本从总体中抽取一部分样品，称为总体的一个样本。

数理统计方法是通过研究样本来了解和判断总体的统计特性的科学方法。

2.2信息论的基本概念

2.2.1最优编码

变长编码：

给小概率信息赋以较长的编码，而给大概率消息赋以较短的编码。

随机变量X服从概率分布P，如果消息x的分布密度为p（x），则给其分配一个长度为

个二进制位的编码。

消息的编码长度大，可理解为消息所含信息量大。

消息的编码长度小，则消息所含信息量小。

平均信息量即为发送一个消息的平均编码长度。

信息论中用熵描述随机变量平均信息量。

2.2.2熵（entropy）

熵描述了随机变量的不确定性。

2.2.3互信息（mutualinformation）

2.2.4噪音信道模型

在利用噪声信道处理语言问题时，人们并不关心编码问题，而更多关心的是，在有噪声存在的情况下，如何解码将输出还原为信道输入。

2.3统计语言模型简介

语言建模（LanguageModeling）

对于一个服从某个未知概率分布P的语言L，根据给定的语言样本估计P的过程被称作语言建模。

3、P3-语言材料电子化工具-文本电子化：

手段编码及格式

3.1关于文本电子化

Ø定义：

文本电子化就是指将文本转换为机器可读形式进行存储。

Ø使用翻译技术的前提：

A待译文本需要是电子化的。

B、翻译过程中使用的语言资源需要电子化：

语料库：

翻译记忆库（TM）：

术语资源、词典资源

Ø文本的机器可读形式：

计算机及其软件可以读写以及处理。

如文字编辑。

对于文本而言，字符以适当的编码形式存储。

如：

ASCII码、GB2312码、UNICODE码等。

非机器可读形式的文本：

手写文稿、打印文稿传真文稿文稿的数字照片

3.2关于文字编码和编码转换

Ø文字在计算机中是以编码形式表示的

Ø编码的标准化：

英文字符编码标准ASCII码

西文字符编码标准ISO8859

汉字编码标准GB18030、BIG-5

统一码UNICODE

Ø文字的输入和输出

文字编码的处理过程：

输入码》机内码》字形码

除输入和输出外，计算机内的任何文字处理都是以机内码形式进行的，如编辑、统计

Ø关于编码的转换

从机器可读到软件可读

编码与软件对编码的支持

软件可能不支持所有编码，若软件不支持某文本采用的编码，会出现处理错误或得不到预期的处理结果。

不兼容的编码之间可以转换：

GB<-->BIG-5GB<-->UNICODE

3.3文本的电子化手段

Keyboarding

Scanning+opticalCharacterRecognition

VoiceRecognition

Ø扫描（scanning）

将硬拷贝文稿经扫描仪扫描转换为图像格式存储，如：

*.bmp、*.jpg、*.tif等。

图像存储格式的特点：

点阵存储基本单位是像素（pixel）

Ø光学字符识别（OCR）：

将印刷体或手写体图像中的文字辨认出来，转换为规定的编码格式存储，如：

ASCII、

GB2312、UNICODE等

ØOCR的基本过程

图像处理：

缩放、旋转、去除污痕，目标是提高识别率

版面划分：

区分文字、表格板块以及非文字板块，判别识别顺序，便于按序分别处理

文字识别：

根据特定模型及文字识别特征，逐行逐字进行识别

文字编辑：

对识别结果进行编辑，纠正错误

3.4关于文件格式和格式转换

Ø常见的文件格式有：

纯文本文件（txt文件）

Web页面文件（html文件）

Word文档（doc文件）

PortableDocumentFormat（PDF文档）

RichTextFormat（RTF文件）

...

纯文本文件中只能有文字信息，不能有格式信息、图表信息

辅助翻译软件未必支持所有文件格式。

许多语料处理工具仅仅支持纯文本文件。

要注意文档格式转换常常会损失信息。

例如图表、格式信息会丢失或不能很好保持。

4、语料处理工具工作原理

P4-现代汉语词语切分技术

Ø什么是汉语自动切分？

通过计算机把组成汉语文本的字串自动转换为词串的过程被称为自动切分segmentation）。

英语中的切分问题

英语中不是完全没有切分问题，不能仅仅凭借空格和标点符号解决切分问题。

英语中的切分通常被叫做Tokenization。

同汉语相比，英语切分问题较为容易。

Ø为什么要进行汉语的切分研究

应用的要求：

语音合成和信息检索

Ø汉语自动切分的方法

基于词表的方法

最大匹配法（MM）（特点：

长词优先，算法非常简单）

1.正向最大匹配法（MM）：

从左向右匹配词典

2.逆向最大匹配法（RMM）：

从右向左匹配词典

全切分+路径选择

序列标注方法：

把切分问题看作给句子中每个字加标记的过程。

四个标记：

（1）B词首

（2）M词中

（3）E词尾（4）单独成词S

例如：

提/B高/E人/B民/E的/S生/B活/E水/B平/E

Ø自动切分的评价

准确率（P）＝切分结果中正确分词数/切分结果中所有分词数*100%

召回率（R）＝切分结果中正确分词数/标准答案中所有分词数*100%

F-评价（F-measure综合准确率和召回率的评价指标）F-指标＝2PR/（P+R）

Ø汉语切分的关键问题

♦切分歧义（消解）

一个字串有不止一种切分结果

交集型歧义：

从小学

组合型歧义：

中将

混合型歧义：

人才能

歧义的分类

真歧义：

歧义字段在不同的语境中确实有多种切分形式。

伪歧义：

歧义字段单独拿出来看有歧义，但在真实语境中仅有一种切分形式可接受。

歧义的发现

歧义消解的前提是发现歧义。

切分算法应该有能力检测到输入文本中何时出现了歧义切分现象。

1双向最大匹配（MM+RMM）：

同时采用MM法和RMM法。

如果MM法和RMM法给出同样的结果，则认为没有歧义，若不同，则认为发生了歧义。

双向最大匹配法不能发现所有的歧义，存在盲点

最大匹配法不能发现组合型歧义（长词优先）

在一定条件下（链长为偶数），双向最大匹配法

也不能发现交集型歧义

2MM+逆向最小匹配法

3全切分算法

歧义消解

基于统计的歧义消解：

在词图上寻找统计意义上的最佳路径

♦未登录词识别

专有名词新词

未登录词识别困难

未登录词没有明确边界

许多未登录词的构成单元本身都可以独立成词

通常，每一类未登录词都要构造专门的识别算法：

在序列标注法中，未登录词无需单独处理。

识别依据

–内部构成规律（用字规律）

–外部环境（上下文）

P5-词类的自动标注

什么是词？

是由语素构成的、能够独立运用的最小的语言单位。

Ø隐马尔可夫模型（HMM）简介

简介：

HiddenMarkovModel,HMM）是对马尔科夫模型的一种扩充。

隐马尔科夫模型的基本理论成形于上世纪60年代末期和70年代初期。

（L.E.Baum）

70年代，CMU的J.K.Baker以及IBM的F.Jelinek等把隐马尔科夫模型用于语音识别研究。

隐马尔科夫模型在语言信息处理领域中有着广泛的应用。

例如隐马尔科夫模型在词类自动标注中的应用。

马尔科夫：

一阶马尔科夫模型可以描述为一个二元组（S,A），S是状态的集合，而A是所有状态转移概率组成的一个n行n列的矩阵，其中每一个元素aij表示从状态i转移到状态j的概率。

在马尔科夫模型中，给定了观察序列，同时也就确定了状态转换序列。

隐马尔科夫:

如果给定一个观察序列（不同颜色的小球序列），不能直接确定状态转换序列（坛子的序列），因为状态转移过程被隐藏起来了。

所以这类随机过程被称为隐马尔科夫过程。

隐马尔可夫过程是一个双重随机过程，其中一重随机过程不能直接观察到-通过状态转移概率表示。

另一重随机过程输出可以观察到的观察符号，这由输出概率来定义。

隐马尔科夫模型的三个问题：

给定HMMl=（A,B,p）

给定观察序列O=（o1o2o3…oT）

如何有效地计算出观察序列的概率，即P（O|l）?

（估算问题）

给定HMMl=（A,B,p）

给定观察序列O=（o1o2o3…oT）

如何寻找一个状态转换序列q=（q1q2q3…qT），使得该

状态转换序列最有可能产生上述观察序列？

（解码问题）

在模型参数未知或不准确的情况下，如何根据观察序列

O=（o1o2o3…oT）求得模型参数或调整模型参数

（学习问题或训练问题）

估算观察序列概率

对隐马尔可夫模型而言，状态转换序列是隐藏的，一个观察序列可能由任

何一种状态转换序列产生。

因此要计算一个观察序列的概率值，就必须考

虑所有可能的状态转换序列。

求解最佳状态转换序列

隐马尔可夫模型的第二个问题是计算出一个能最好解释观察序列的状态转换序列。

理论上，可以通过枚举所有的状态转换序列，并对每一个状态转换序列q计算P（O,q|l），能使P（O,q|l）取最大值的状态转换序列q*就是能最好解释观察序列的状态转换序列，

参数学习

隐马尔科夫模型的前两个问题均假设模型参数已知，第三个问题是模型参数未知，求最佳模型的问题，是三个问题中最为困难的问题。

在模型（l）未知的情况下，如果给定观察序列的同时，也给定了状态转换序列，此时可以通过有指导的学习方法学习模型参数。

例如给定下面的训练数据，可以通过最大似然估计法估计模型参数。

Ø词类标注的语言学基础

1词的分类依据

形态标准

Wordsthatfunctionsimilarlywithrespecttotheaffixestheytake（theirmorphologicalproperties）aregroupedintoclasses.

分布标准

Wordsthatfunctionsimilarlywithrespecttowhatcanoccurnearby（their“syntacticdistributionalproperties”）aregroupedintoclasses.

意义标准（×）

Whilewordclassesdohavetendenciestowardsemanticcoherence（nounsdoinfactoftendescribe“people,placesorthings”,andadjectivesoftendescribeproperties）,thisisnotnecessarilythecase,andingeneralwedon’tusethesemanticcoherenceasadefinitioncriterionforpart-