言语失误标注 原1.docx
- 文档编号:11025334
- 上传时间:2023-02-24
- 格式:DOCX
- 页数:7
- 大小:20.35KB
言语失误标注 原1.docx
《言语失误标注 原1.docx》由会员分享,可在线阅读,更多相关《言语失误标注 原1.docx(7页珍藏版)》请在冰豆网上搜索。
言语失误标注原1
翻译语料的言语失误标注原则
鉴于目前国内的学习者语料库如杨惠中老师和桂诗春老师(CLEC),SWECL(SpokenandwrittenEnglishofChineseLearners),大学英语口语语料库(卫乃兴)等所用的标准均为error-taggingsystem.为了保持统一和可对比性,便于以后对我国不同类型的英语学习者的语料进行对比,故我们决定采用统一体系,然后在一些不同之处作说明。
CLEC的标注体系“采取两级分类,第一级是大类,每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等”这个赋码相对简单合理,易于系统操作。
由于错误标注是手工操作,参与标注的人比较多,如果分类表过于繁复,就难于掌握,届时标注的准确性和连贯性皆难以得到确保。
因此,在实际操作层面,可操作性在很大程度上确定了标注的准确性和统一连关性,也是学习者语料库建库成败的关键。
语语料库标注的一大问题(Hunston,2003)。
不仅是一如何其他的标注方式如扬达复老师提出的从五个纬度标注,
此外,一些错误的类型难以判断,特别是一种错误引起另一种错误,或者错误的本身可以从不同的层面上进行界定,在这种情况下,统一遵循学习者预料的客观性。
作为学习者语料,这是进行中介与对比研究的基础,标注是一项必不可少、又费时费力的浩大工程。
这是进行对比分析的依据,同时也对中介语研究的关键步骤。
同时为了确保标注的正确性和统一性,除对标标注小组成员进行培训,熟悉赋码,还定期会面,讨论标注过程中出现的一些问题,这些讨论一方面有助于统一对某些错误的认识,同时也有助于市的一些分析变得更加深入和丰富。
句子之间的标注以衔接词和连词为主,另一在现有的格式上好操作的标注体现在叙述性人称代词的使用,如。
其他语言层面的标注没有进行,语篇标注的其他层面,如语用角度的言语行为等。
语言习得研究是多维的多层次的,语料的标注是研究的目的为出发点的。
此外,现有的标语标注体系具有开放性。
在翻译中共有19大类错误,主要有如词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn),语篇方面的句际衔接(cn),代词(cp),翻译质量上的漏译(mt),中式翻译(co),标点符号(pc),冠词(ar),从句sb时态(tn).从前面的列举中可以看出,衔接(cn),代词(cp)是我们想再简单的可操作的句际层面的衔接体现,代词也是句际间的指代一致,其中包括前后指代连贯,和叙述角度的代词一致。
标点符号(pc),冠词(ar),从句(sb)和时态(tn)此时为了研究的方便,和这些错误的多发性和独特性,我们决定将这些现象单独列成一类,并根据情况具体细分,如从句是从句子中分出来,用来标示不同类型(共8小类)的从句错误以更好地说明和分析中国英语学习者在从句方面的错误,便于我们对典型的从句错误进行分析,从而较为全面深入地掌握中国英语学习者句子结构方面的使用情况。
时态(又分5小类)也是出于同样的目的而单列出来的。
最后漏译(mt)和中式翻译(co)是翻译中所独具的特色。
这些也是我们在标注的过程中摸索出来的。
学生在翻译时,特别是在考试时的翻译,一时找不到合适的词汇,可能会将某个词或词组或者整个句子,由于种种原因漏译。
中式翻译指的是具有典型的汉语次序或语序的英语担子拼成的句子和翻译,这类错误在语言形式上表现各异,很难用语法的类别加以区分,为了确保标注的公正性和可观性,我们采用这一标准/类别表示这一类错误,它则为典型的中式英语作了一些总结。
此外,在翻译中一些过简的无法准确地将原文翻译出来的句子,而是简单翻译句子的大意,我们将这一类标为df,不忠实原文,将这类现象单独列出来,便于人们研究在何种情况下学习者趋向于这样做翻译。
2. 分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
3. 提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如Inthepast,peopleare[vp6,4-]kindtoeachother…,失误用方括号表示,放在失误之后。
[vp6]Inthepast,peopleare[vp6,4-]kindtoeachother……,[vp6,4-]are为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断areare这个词用错了。
4.开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,等等。
5.对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。
Aijmer&Altenberg(1996:
12)平行语料库对比
Specialized有特殊目的建设而成的语料库
Generalized有一般目的建设而成的语料库
Corpus-basedtranslationstudiescomesin2broadareas:
theoreticalandpractical(Huston,2002:
123).Intheoreticalterms,corporaareusedmainlytostudythetranslationprocessbyexploringhowanideainonelanguageisconveyedinanotherlanguageandbycomparingthelinguisticfeaturesandtheirfrequenciesintranslatedl2textandcomparableL1texts.Inthepracticalapproach,corporaprovideaworkbenchfortrainingtranslatorsandabasisfordevelopingapplicationslikemachinetranslation(MT)andcomputer-assistedtransition(CAT)system.
基于语料库的翻译研究主要有两大目的/功能:
进行理论和实践方面的应用和研究(Huston,2002:
123)。
在理论上,语料库主要用来研究翻译过程,通过对比中两种语言的语言特征和它在第二语言中出现的频率可以探讨一种语言中的思想如何用另一语言来表达。
在实践层面,语料库位翻译者培训提供了可参考的文本,同时为机器翻译(MT)和计算机辅助(CAT)翻译提供一定的基础。
引起人们对语言和文化差异的关注(Huston,2002:
123)
Corporaannotation语料库标注
主要有以下优势:
1.方便提取语料库中存在的某些信息,但当然,前提是已经标注好的。
语料库标注(Leech,1997:
2)指的是对口语和/或书面语电子文档的一些注释性的语言信息。
(interpretative)正是由于这些信息,语料的价值被扩大,这些信息的提供可以扩大人们进行研究的范围。
(因为它可以扩大一个语料库可以提供的有关一些研究的信息。
)(XiaoandMcEnery,2005;)
1.toextractlinguisticinformationpresentinthecorpora;firstlytobeencodedinthecorpora
“addingsuchinterpretativelinguisticinformationtoanelectroniccorpusofspokenand/orwrittenlanguagedata’isreferredtoascorporaannotation”(Leech,1997:
2)
Corpusaddsvaluetoacorpusinthatitconsiderablyextendstherangeofresearchquestionsthatacorpuscanreadilyaddress.
CAaddedvalue
CAisa“acrucialcontributiontothebenefitofacorpusbrings,sinceitenrichesthecorpusasourceoflinguisticinformationforfutureresearchanddevelopment”(leech,1997a:
45)
语料库标注极大地了放大了语料库的优势,它使得语料库成为人们以后研究和发展中提供语言信息的源泉。
(leech,1997a:
45)
McEnery(2003:
454-455)曾提到语料库标注至少有以下四方面的优势:
suggestthatthereareatleast4advantagesofcorporaannotation.
1.方便地从语料库中提取某种信息
2.可以反复使用的资源
3.所方面的功能
4.语言分析
3.4稳定的基础:
语言分析,客观记录,以后的研究可以进行对比
CAdisadvantages:
语料库标注的不足:
1.被割断的语料库,研究者应该能够看到原始的物标注的文本,应该保留干净的文本。
2.令语料库使用者强行接受一些语言分析
3.标注会“过度使用”一些语料,令其变得不易获取或使用,不以更新和不易扩展。
(Hunston,2002:
92_93)
4.涉及到语料标注的正确性和一致性。
标注的进行方式:
自动化,机助式,手工三种方式
1.clutteredcorporaRersshouldbeabletoseetheplaintext–shouldkeeptheplaintext
2.imposelinguisticanalysisuponacorpususer
3.annotationmay“overuse”acorpus,maymakeitlessreadilyaccessible,updatable,andexpandable”(Hunston,2002:
92_93)
4.Relatedtotheaccuracyandconsistencyofcorpusannotation
Howannotationisachieved:
●Automatic
●Computer-assisted
●manually
typesofAnnotation:
atdifferentlevelsandmaytakevariousforms标注的种类可以发生在不同的语言层面,可以有不同的表现形式。
●phonologicalsyllableboundariesorprosodicfeatures在语音层面上,音节的划分,和音韵处理
●morphologicalprefixes,suffixesandstems再词素层面:
前缀、后缀和词干
●lexicallevelpartofspeech,lemmas,semanticfield词汇层面:
词性、词形、语义场
●syntacticlevelparsing,treebanking,brackets句法层面:
断句、数状图,括号
●discoursallevelanaphoricrelations,语篇层面:
前指关系
⏹pragmaticlevel:
pragmaticinformation,speechacts语用层面:
语用信息,言语行为
⏹stylisticfeaturesspeech,thoughtpresentation语言风格特色:
言语,思想表述
sofarpossuccessfullyapplied目前应用较为成功的是词性(POS)标注。
句法标注方面发展很快。
其中以CLAWs软件进行的词性标注结果可以以不同的形式存储。
词形处理leximatization(lexemes,lemmas)也进展较为顺利。
syntacticdevelopingfast
posCLAWsstoredindifferentencodingformats
leximatization(lexemes,lemmas)
errortagging(usedwidelyinlearnercorpora)
CLCCambridgelearnercorpus
Longmanlearnercorpus
JEFLLSST
HKUST
不同的学习者语料库中的错误赋码不同,但大多数包括Omission,aadditionandmisinformation
Cambridgelearnercorpus6majorcategories
Wrongwordformused(F)
Somethingmissing(M)
Phrasethatneedsreplace(R)
Unnecessaryword/phrase(U)
Wordwronglydevised(D)
(Nichollis,2003:
573-574)
CLEC11类61种错误类型
SST47种错误
GrangerandICLEerroreditor
TONO(2003:
804)errortaggingisalaboriousandtime-consumingtaskasitisdifficulttodevelopeitherrule-basedorprobabilisticprogramtoidentifyerrorsdueinlargeparttoalackofinformationregardserrorpatternsandtheirfrequencieswithrespecttolearnergroups
Problem-orientedannotation
1.notexhaustiveonlyphenomenondirectlyrelevanttoaparticularresearchquestion
2.theschemeisrelevanttospecificresearchquestions,notforbroadcoverage.
format
Embeddedannotation
Stand-alongannotation
平行可对比语料
1.通过对比语言可以带来一些新发现,特别是单语研究难以发现的结果
2.能够实现不同的对比目的,可获得一些语言知识,如某种语言所独有的现象,类型学上的、文化上的差异,患有一些所有语言所共有的普遍性的发现
3.发现原语和翻译,本族语和非本族语中的不同
4.具有一些实际的应用,如词典学,语言教学和翻译,
多种语料库的对比价值
平行语料库:
对比,
学习者翻译语料库
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 言语失误标注 原1 言语 失误 标注