面向中文学术专著的机器辅助翻译研究.docx
- 文档编号:6011608
- 上传时间:2023-01-03
- 格式:DOCX
- 页数:9
- 大小:23.28KB
面向中文学术专著的机器辅助翻译研究.docx
《面向中文学术专著的机器辅助翻译研究.docx》由会员分享,可在线阅读,更多相关《面向中文学术专著的机器辅助翻译研究.docx(9页珍藏版)》请在冰豆网上搜索。
面向中文学术专著的机器辅助翻译研究
面向中文学术专著的机器辅助翻译研究
第一章引言
1.1课题的提出
日本英文版的科技论著已占相当大的比重。
可以说日本的科学技术发展较快,与出版界注意信息的国际性和利用英文出版物把日本的科学界直接推向了国际大舞台不无关系。
我国有着一批世界级的优秀科学家,在许多科学领域在国际上有一定的地位,甚至是领先地位。
我们多出一些优质的英文版专著,可以将中国的科学技术事业推向世界。
同时英文版专著的增加乃至普及则可能使我国的科技人员进一步提高英语水平,全面进入世界科技信息前沿,充分吸收借鉴国际上先进的科技成果,从而促进我国的科学技术进步。
同时又形成良性循环,进一步促进我国科技专著的英语化和走向国际市场,全面促进提高全民族的文化素质,使我们真正在科学上树立起我国应该有的国际威信。
从一个较小的视角,探索机器辅助翻译的发展方向及相关研究工作的任务。
本研究同时也是一个实例:
在自然语言处理领域,把现实的需求和现有的技术有效的结合起来。
专著的情况(期刊网—专著),专著翻译的情况
专著版本更新
面向人的翻译过程是怎样的(相关研究)
机器辅助的翻译过程又是怎样的(为什么有这个必要?
)
哪些东西是可以利用的?
现有的技术;翻译策略
限制领域+人机协作
针对一个小范围的用户,但开发方法可以在较短时间内适应到一个新的应用范围。
专著(Monograph),是指著作者针对某一问题进行深入研究后撰写的、具有较高学术水平和一定创造性的专门著作。
本文的主要目标是针对中文科技专著的机器辅助翻译(ComputerAidedTranslation)这一过程,系统地研究其中的要素(即做什么和由谁来做)和行为(即按什么顺序做和怎么做),为其建立一个模型,从而使翻译人员和计算机的劳动在该过程中实现最优的结合,合理地安排翻译过程的每个环节,有效地利用各项翻译资源,以机助人译的方式提高翻译人员的工作效率和工作质量。
围绕机器辅助翻译和科技专著的语言特点,本文的汉英对比研究拟从两种语言在被动表述问题上的差异着手,为机器辅助翻译系统中的翻译记忆模块提供支持。
本文需要关注的要点分别是机器辅助翻译、科技专著、汉英对比。
选题的定位主要出于以下考虑:
一,随着我国科研水平的提高以及国际合作与交流的加强,中文专著的“出口”需求日益增大。
这种工作量极大、质量要求又相当高的翻译任务亟需一种有效的解决方案。
二,全自动高质量的机器翻译在可预见的将来尚不能实现,这已成为一个不争的事实。
然而,自然语言处理技术仍在不断地向前发展,新成果层出不穷,对已有研究成果的合理利用是我们迈向全自动高质量机器翻译这一最终目标的必经之路。
机器辅助翻译为现有的技术提供了一个很好的应用场景,它既能保证翻译质量又能提高工作效率。
三,不同领域的专著在写作风格上的差异会对其翻译任务提出不同的要求。
科技文献中,语言的语法结构较为固定、词汇歧义较少,相对于文学专著而言,科技专著的翻译更适于计算机处理。
因此,作为面向专著的机器辅助翻译的一次初探,本文的研究将“专著”的范围限定为科学技术领域的著作。
四,翻译记忆(TranslationMemory)是机器辅助翻译系统的一项关键技术,其常用的算法在句子一级匹配的成功率较低。
面向专著的汉英对比研究将为翻译记忆提供语言学知识,从而使机器辅助翻译系统的翻译记忆机制更为实用。
本文的研究将以北大俞士汶教授等编著的《现代汉语语法信息词典详解》一书的导引部分(后简称《详解》)作为专著的蓝本,以该书的汉英翻译过程作为建模工作的参考实例,同时配合研究工作开发一个演示系统,作为面向专著的机器辅助翻译模型中的软件环境。
1.2语言翻译中人和机器的协作
人们把一种劳动称为“机械性的”是因为已经掌握了其中的运作规律,而把另一种劳动称为“创造性的”是因为还无法把握其中的端倪。
翻译被称为一门精细的艺术,一种创造性的劳动,因此很多人否定全自动高质量的机器翻译(FAHQT)。
然而,科学研究仍在这方面做着不懈的努力,让计算机通过不同的途径去尝试这项尚无规律可循的任务。
每一次失败都会指出我们的一个“无知”之处,每一次失败都是在向最终发现规律迈进。
今天,当人们在说“翻译中也有机械、重复的劳动”的时候,机器辅助翻译系统就开始进入了我们的视线。
1.2.1前人的研究
相关的翻译研究
theplaceofmanandmachineintranslation
1.2.2机器辅助翻译(CAT)综述
1.3本文研究工作的内容
1.3.1定位(目标)
随着我国科研水平的提高以及国际合作与交流的加强,中文学术专著的“出口”需求日益增大。
面向中文学术专著的机器辅助翻译将为这类工作量极大、质量要求极高的翻译任务提供一种实用的、人机交互式的解决方案。
该方案侧重于:
1)从计算的角度深入地考察专著的语言特点;2)用计算的方法有效地辅助专著的翻译。
本课题将为现有的自然语言处理技术提供一个很好的应用场景;同时,机器辅助翻译研究也是迈向全自动高质量机器翻译这一最终目标的必经之路。
从实际情况(学术专著翻译通常采用的模式,本研究考察的模式)着手,本文将研究的场景限定为:
1)翻译的对象为中文学术专著
2)翻译过程涉及两种语言:
中文(原文),英文(译文)
3)参与翻译过程的人员包括:
a)原文作者:
熟悉原文内容和专业知识;中文水平较高;英文水平一般,但熟悉专业英语;
b)译者:
熟悉原文内容和专业知识;中文水平较高;英文水平较高
c)出版社审编
1.3.2工作基础
本文选题过程中对专著翻译人员及专著翻译过程进行了调查,作为建模的依据。
北大计算语言所在自然语言处理、尤其是中文信息处理方面的积累将为面向专著的机器辅助翻译系统的开发工作提供良好的技术支持和资源支持。
目前已有的语言资源和软件基础包括:
1)汉英平行语料15万句对;
2)待整理的双语词典资源,预计将提供约10万汉英对照词条;
3)汉语切分标注软件;
4)双语语料处理工具集,支持语料预处理、标记、自动对齐、辅助校对、格式转换等功能;
5)双语相关集列工具,支持汉英两种语言的简单检索、复杂检索、模糊检索、按位排序、搭配统计、词频统计等功能;
6)TM模糊匹配算法,基于动态规划的模糊匹配算法;
7)翻译等价对提取工具。
1.4本文的结构安排
第二章学术专著及其翻译过程的特点
2.1学术专著的特点
2.1.1术语及其相关问题
2.1.2语句的重复使用
?
?
就语句的长度而言,专著与一般论文有无区别?
?
?
就长句的数量而言,专著与一般论文有无区别?
2.2学术专著翻译过程的特点
专著翻译过程模型(图)(过程建模)
翻译过程中所需的帮助
专业性和创新性是学术专著的突出特点,因此,学术专著的翻译应该要求翻译人员具有相同或相近的学科背景,以保证译文的质量。
第三章计算机辅助环境
(紧扣第二章的需求)
3.1各种NLP技术的应用与改进
为现有的自然语言处理技术提供一个很好的应用场景,同时充分考虑人和机器优势与劣势。
以下内容均针对专著及其翻译过程的特点。
3.1.1术语的识别
3.1.2切分标注的改进
3.1.3语料库相关内容(语料收集,语料的利用concordance)
3.1.4相似度计算的改进
本文工作对相似度计算的改进:
能做什么、不能做什么
注意!
!
!
泛化会不会对翻译造成负面影响?
?
?
两种用法:
1)online;2)pre-translation
自然语言处理技术中语言资源和语言知识有着至关重要的作用。
(规则和统计的协作)
自然语言处理技术就基础理论、技术算法来讲可以是通用的、普遍的。
但将其放入具体应用中,就应该具体问题、具体分析。
这中间有一个适应(adaptation)的过程,即根据具体应用的要求来改进或利用现有的基础理论、技术算法。
附:
规范专著的写作,便利计算机处理
计算方法:
基于字和基于词的加权—可以满足需求
方法简单,效率高,可扩充性强(主要指语言知识的扩充)
不考虑词序:
因为是辅助翻译,TM是给出参考,而并非自动翻译结果。
同时,学术专著中词汇歧义较少,因词序不同引起的语义变化情况少。
不考虑语义:
专著中术语较多,根据术语建立的语义资源notavailable。
但目前考虑到的语义知识足以对翻译起到很好的辅助效果(如术语及其并列结构,括号、引号等)。
与原来的按字节算法的对比。
(数据)
泛化的目的:
帮助翻译记忆的相似度计算模块更有效地利用记忆库中句子级对齐单位(句对)。
自动泛化(综述):
brown,张建
用知识库支持泛化(根据token)对语言知识的利用,对专著特点的利用
通常意义上的EBMT泛化是为了减少实例的数量(或者说控制/减小实例库的规模);我们的研究是为了更好地利用已有的实例。
两者的目的实质上是相同的。
泛化的实质:
模糊匹配(orpartialexactmatching)
partialmatch:
lexicalequivalenceclassequivalence(equivalentclass)
泛化的定义:
Brown:
/*
●张建:
泛化是指通过对实际例句中的部分词语或片段进行一定的概括、归纳,使结果能够适用于更多的情况,是提高EBMT的性能的有效方法。
●张建的做法:
通过对句子一级对齐的双语语料库学习来抽取翻译模板;对获得的翻译模板进行训练;然后利用所获得的翻译模板进行翻译。
(借鉴前人的三个系统)
●张建:
以基于范例的推理(Case-BasedReasoning)的方法作比;***从翻译学的角度?
?
?
●根据前面的比较和分析,我们可以得知EBMT具有如下几个优点:
产生的译文精确,翻译速度快,不需要人工收集和编辑翻译知识;但是也存在诸如匹配率比较低,需要大规模的例句库的支持等缺点。
事实上,传统的EBMT系统的匹配率和其翻译质量是一对矛盾,当匹配率的限制严格的时候,一旦匹配成功则得到的译文质量非常高;反之,如果匹配率限制的不是很严格,则匹配成功时可能得到的译文质量一般。
●泛化的EBMT的基本思想是通过对自然语句中的词语或者片段进行抽象和概括来降低输入维数,从而提高语句的匹配率。
一方面,该方法减少了对语料库规模的依赖;另一方面,由于被抽象和概括的词语或者是片段具有普遍性,一般该部分的变化不会影响翻译的结构和框架,这样可以保证翻译译文的质量同泛化之前相当。
●我们采用翻译模板的方法来自于这样一个启发:
当我们学习语言的时候首先学习一些简单的语句,然后通过句式的变换和词语的替换,词汇量的增加来逐步的掌握语言的。
类比学习是人类学习中的一个很重要的方法,人们在学习过程中总是有意或无意地比较事物的相同点和不同点从而达到学习的目的。
根据这样一种思路,我们提出了从语料库中提取翻译模板以及利用这些获得的翻译模板来指导翻译的方法。
●框架的作用槽的作用匹配的对象
●优点(p.36)
●一个完整的翻译模板由下面几个部分组成:
源语言模板,目标语言模板,两种语言模板的槽的对应关系,翻译模板的ID、匹配率和翻译正确率等。
*/
槽对应中包含约束条件,由该槽允许的词性序列来表示。
这种约束条件通过人机交互式的训练来获得。
张建:
/*
获得一个语句片段的“语义类”将其也作为翻译模板槽的一个约束条件,对语句的泛化效果会更好,但这种“语义类”信息需要对语句做深层次的分析才能得到。
*/
我们的泛化规则可以突显出槽的语义约束。
(如:
术语、注释等)
张建:
/*
不同种类的词语在决定整个语句的翻译结果的分量也是不同的,即应该对不同类型的词语区别对待,如动词和介词、虚词的地位应该比名词重要。
*/
在CAT中泛化的工作相对简单,不需要建立目标语言模板,更不需要在两种语言的模板间建立槽的对应关系。
这可以说是泛化方法在CAT中应用的一个优势,绕开了目前尚不成熟的一些NLP技术(见张建论文),但也对泛化技术进行了封装,为今后技术的进步保留了一个插入点。
此外,人(译者)的作用的能够发挥出来。
在现有技术水平前提下人机优势的有效结合。
(知识的自动获取是一个趋势,但现阶段技术还不成熟。
)
本研究中TM的自学习能力:
专著翻译的过程也是双语平行语料库实时更新的过程(并且是句对齐的)
统计一下并列结构在专著中的平均长度。
translationbyanalogy
相似度计算模块的性能评测:
1)coverage;2)matchlength;3)howmuchtextisrequiredtoreachacertaincoverageofunrestrictedtexts
CATTMEBMT之间的关系
Arestrictedformofexample-basedtranslationisavailablecommercially,knownasatranslationmemory.
Moreadvancedtranslationmemorysystemswillalsoreturnclosebutinexactmatchesontheassumptionthateditingthetranslationoftheclosematchwilltakelesstimethangeneratingatranslationfromscratch.
ThebiggestproblemwiththeEBMTsystemdescribedonthepreviouspageisthatitneedshugeamountsofpre-translatedtexttomakeareasonablegeneral-purposetranslator--severalmillionwords.Whatisneededisawaytoget"morebangforthebuck"fromeachpre-translatedexample,sothatfewerexamplessuffice.Tomaketheexamplesmoreeffective,wecangeneralizethem.
specializedentriesinitsknowledgebase
相似度计算的基本公式:
S=2n/(m+n)
加权平均:
按字计算的相似度值S字
按词计算的相似度值S词
xxxxxx
语句相似度S=a×S字+b×S词
其中a+b=1
流程:
(1)输入专著原文;
(2)若有术语表(包含专有名词),将术语表加入切分标注模块的词典中,转(6);否则,转(3);
(3)无术语表支持的切分标注;
(4)术语自动抽取,得到候选术语集;
(5)对候选术语集进行人工校对和补充,得到专著术语表(及其译文);
(6)有术语表支持的切分标注;
(7)断句处理:
断句符号包括句号、问号、叹号、分号、冒号;括号、引号、书名号优先;
(8)泛化处理:
泛化对象包括a)引号、括号、书名号及其所标内容;b)术语(含专名)及其并列结构;c)用户自定义的对象;
(9)读入语句;
(10)搜索原文和双语语料库,进行整句匹配,若找到相似度高于阈值X的语句,输出其译文,若找到多句,则按相似度从高到低选择前n句的译文输出,读入下一句,转(10),若无下一句,转(14);否则,转(11);
(11)搜索原文和双语语料库,进行分句匹配,分句以逗号结束,若找到相似度高于阈值Y的语句,输出其译文,若找到多句,则按相似度从高到低选择前n句的译文输出,转(9),若无下一句,转(14);否则,转(12);
(12)搜索原文和双语语料库,进行关键匹配,缺省的关键匹配点包括a)高频动词、名词、形容词;b)特殊句式“进行”、“加以”和被动语态,若找到相似度高于阈值Z的语句,输出其译文,若找到多句,则按相似度从高到低选择前n句的译文输出,转(9),若无下一句,转(14);否则,转(13);
(13)匹配失败,返回空值;
(14)结束流程。
停用词表:
不参加相似度计算的词或表达
注:
整句匹配与分句匹配
3.2其他其本功能
版本管理
笔记本
用户自定义(充分的自由,更好的适应性,更广的用途,更高的效率):
如自定义断句标准、分句合句
第四章汉英对比研究
通过对语料的考察
面向人的翻译学研究面向计算机的翻译学研究
4.1服务于相似度计算的汉英对比研究
4.2
1)并列结构
并列结构很长,往往会干扰译者理解原文和组织译文。
尤其在学术专著中,并列结构中所含的术语相当多(数据),对译者的干扰更大。
?
?
并列结构的翻译是否存在谓语的数的问题?
专著中长句的形成原因?
?
是否和并列结构有关?
查:
并列结构翻译
汉译英并列结构
并列结构前后的词语(如[X1+X2]的),及由此形成的结构在翻译时的特点
2)标点符号
对于自动断句不合理的,系统有[分句、合句]功能(人机交互)。
对于不规范的标点符号的解决方法:
1)建议作者修改2)系统中的自定义向导
注:
语言知识的获取主要来自对《详解》一书的观察,部分也用其他专著做测试。
通过观察(内省)获得的知识是机器翻译的一个重要资源,但其积累的过程也堪称不易。
第五章系统结构与实现
那些部分已实现,那些待完成。
第六章结语
未解决的问题:
如格式(排版)处理
一致性检查:
forauthorandeditor
标点符号的使用
附录:
对专著写作的一些建议
考虑:
学术交流与“准确表达文意,推动汉语书面语言的规范化”的需求。
如标点符号使用的规范化。
国家技术监督局1995年12月13日颁布标点符号用法
待考虑:
自学习问题(如,根据用户的修改)
用户自定义的策略
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 中文 学术 专著 机器 辅助 翻译 研究