传家宝多语言交互与评测.docx
- 文档编号:24118710
- 上传时间:2023-05-24
- 格式:DOCX
- 页数:48
- 大小:51.25KB
传家宝多语言交互与评测.docx
《传家宝多语言交互与评测.docx》由会员分享,可在线阅读,更多相关《传家宝多语言交互与评测.docx(48页珍藏版)》请在冰豆网上搜索。
传家宝多语言交互与评测
中科院计算所“传家宝”
——自然语言处理与人机交互组
编者:
何中军崔世起
2005年版
自然语言处理和人机交互课题组1
自然语言处理方向1
一.研究方向1
二.科研成果1
三.本方向重要的学术会议1
四.本方向重要的期刊杂志2
五.本方向重要的网络资源3
六.课题组发表的论文4
七.本方向推荐论文13
八.本方向推荐书籍24
人机交互小组25
一.研究方向25
二.科研成果26
三.本方向重要的学术会议26
四.本方向重要的期刊杂志26
五.本方向重要的网络资源27
六.课题组发表的论文27
七.本方向推荐论文28
八.本方向推荐书籍29
自然语言处理和人机交互课题组
自然语言处理方向
一.研究方向
1、汉语词法分析
2、汉语句法分析
3、汉语与其他语言的机器翻译
4、汉语新词语检测
5、汉语文本的信息提取和知识挖掘
6、中文信息处理与人机交互技术基础资源建设
7、中文信息处理与智能人机接口技术评测
二.科研成果
1、研制了汉语词法分析系统ICTCLAS,该系统在国家973项目相关主题专家组组织的汉语分词标注评测和国际SigHan2003研讨会组织的汉语分词评测中分别获得多项第一。
2、研制了汉语句法分析系统ICTPROP,该系统的汉语句法分析效果达到了国际上同类系统中的最好水平。
3、研制“汉英机器翻译系统”,先后获国家863计划、973计划支持,在1998年国家863智能计算机主题专家组组织的智能接口全国评测中获汉英机器翻译译文质量第一。
4、推出了“中文自然语言处理开放平台”(),为我国自然语言处理的研究工作者提供了一个共享资源与信息的公共平台。
该平台已成为我国自然语言处理领域最有影响的网站,被《科学时报》报道并被广泛转载。
5、承担了国家863计划和北京市数字奥运多语言信息服务系统项目中的有关中文信息处理和智能接口的资源建设和技术评测课题()。
负责组织“国家863中文信息处理和智能人机接口技术评测”,吸引了国内外众多研究单位参加,大大促进了本领域的研究进展和技术交流。
同时开发了规模巨大的中文信息处理与人际交互技术资源库,为相关研究工作提供了有力的数据保障。
三.本方向重要的学术会议
[会议名称]ACL(TheAssociationforComputationalLinguistics)
[会议介绍]国际计算语言学会年会,本领域最权威的学术会议之一,每年一次
[会议名称]COLING(TheInternationalConferenceonComputationalLinguistics)
[会议介绍]计算语言学会议,也是本领域最权威的学术会议之一,两年一次
[会议名称]IJCNLP(TheInternationalJointConferenceonNaturalLanguageProcessing)
[会议介绍]自然语言处理联合学术会议,由AFNLP(亚洲自然语言处理联合会)主办,每年一次
[会议名称]EMNLP(EmpiricalMethodinNaturalLanguageProcessing)
[会议介绍]自然语言处理经验主义方法会议,每年一次,影响也很大
[会议名称]MTSummit(MachineTranslationSummit)
[会议介绍]机器翻译峰会,两年一次,不仅仅是学术讨论,也有工业界、用户代表参加
[会议名称]SIGHAN
[会议介绍]ACL下属的SIGHAN(中文语言处理兴趣小组)年会,其举办的中文分词比赛已成为本领域研究的基准
[会议名称]计算语言学联合学术会议
[会议介绍]国内本领域最有影响的学术会议,两年一次
四.本方向重要的期刊杂志
[期刊名称]COMPUTATIONALLINGUISTICS
[期刊介绍]ComputationalLinguisticsistheonlypublicationdevotedexclusivelytothedesignandanalysisofnaturallanguageprocessingsystems.Fromthisuniquequarterly,universityandindustrylinguists,computationallinguists,artificialintelligence(AI)investigators,cognitivescientists,speechspecialists,andphilosophersgetinformationaboutcomputationalaspectsofresearchonlanguage,linguistics,andthepsychologyoflanguageprocessingandperformance.
计算语言学领域最权威的刊物,ACL的会刊,季刊,每一期论文数量都不多,但篇幅很长,都是很权威的工作。
[期刊名称]JOURNALOFNATURALLANGUAGEENGINEERING(JNLE)
[期刊介绍]NaturalLanguageEngineeringisaninternationaljournaldesignedtomeettheneedsofprofessionalsandresearchersworkinginallareasofcomputerisedlanguageprocessing,whetherfromtheperspectiveoftheoreticalordescriptivelinguistics,lexicology,computerscienceorengineering.Itsprincipalaimistobridgethegapbetweentraditionalcomputationallinguisticsresearchandtheimplementationofpracticalapplicationswithpotentialreal-worlduse.Aswellaspublishingresearcharticlesonabroadrangeoftopics–fromtextanalysis,machinetranslationandspeechgenerationandsynthesistointegratedsystemsandmultimodalinterfaces–thejournalalsopublishesbookreviews.Itsaimistoprovidetheessentiallinkbetweenindustryandtheacademiccommunity
[期刊名称]MachineTranslation
[期刊介绍]
[期刊名称]中文信息学报
[期刊介绍]《中文信息学报》及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。
从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。
《中文信息学报》刊登内容有:
汉字及少数民族文字的输入输出及加工处理、印刷体、手写体汉字识别、语音识别和合成、人工智能、专家系统、计算语言学、机器翻译、信息检索、自然语言处理等。
五.本方向重要的网络资源
[网址]http:
//www.aclweb.org
[简介]ACL(AssociationforComputationalLinguistics)主页,自然语言处理的主要国际组织,特别是网站上提供的ACLAnthology(ACL文集)收集了大量本领域主要学术刊物和会议论文的电子版,极富参考价值。
[网址]http:
//www.ldc.upenn.edu
[简介]TheLinguisticDataConsortiumsupportslanguage-relatededucation,researchandtechnologydevelopmentbycreatingandsharinglinguisticresources:
data,toolsandstandards.
[网址]
[简介]中文自然语言处理开放平台,是一个公益性质的交流平台,提供了各种NLP中可用的免费资源,中国科学院计算技术研究所主办
[网址]
[简介]计算所自然语言处理研究组,除了一般的课题组介绍外,还提供了各种成果的在线测试
[网址]
[简介]北京大学计算语言学研究所
[网址]http:
//www.mt-archive.info/
[简介]汇集了众多的自然语言处理方面的论文
[网址]comp.ai.nat-lang
[简介]NLP新闻组
[网址]http:
//www.faqs.org/faqs/natural-lang-processing-faq/
[简介]NLP常见问题及其解答,包括重要的会议,期刊,邮件列表等
六.课题组发表的论文
[论文题目]基于层叠隐马模型的汉语词法分析
[论文作者]刘群,张华平,俞鸿魁,程学旗
[期刊名称]计算机研究与发展
[所在页码]pp.1421-1429
[发表时间]2004年8月,第八期
[论文摘要]本文提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中。
在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普通词一样处理。
未登录词识别引入了角色HMM:
Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识别出未登录词,并计算出真实的可信度。
在切分排歧方面,作者提出了一种基于N-最短路径的策略,即:
在早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜力的候选结果中选优得到。
不同层面的实验表明,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用。
作者实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS,该系统在2002年的973专家组评测中获得第一名,在2003年汉语特别兴趣研究组(theACLSpecialInterestGrouponChineseLanguageProcessing,SIGHAN)组织的第一届国际汉语分词大赛中综合得分获得两项第一名、一项第二名。
这表明:
ICTCLAS是目前最好的汉语词法分析系统之一,层叠隐马模型能够解决好汉语词法问题。
[读者评价]
[论文题目]基于微引擎流水线的机器翻译系统结构
[论文作者]刘群
[期刊名称]计算机学报
[所在页码]pp.651-658
[发表时间]2004.5,第五期
[论文摘要]本文比较了现有各种多引擎机器翻译方法的优缺点,提出了基于微引擎流水线的机器翻译系统结构,详细介绍了有关的数据结构和算法。
这种结构的优点在于在部件层次上实现多种算法的并存,通过对微引擎的增删和流水线结构的调整可以方便地尝试各种机器翻译方法的组合,而不需要修改系统的整体算法。
文章最后介绍了这种机器翻译系统结构在面向新闻领域的汉英机器翻译系统中的具体实现,给出了实验数据,并进行了总结。
[读者评价]
[论文题目]汉英机器翻译若干关键技术研究
[论文作者]刘群
[出处]北京大学2004年博士论文
[时间]2004年5月
[论文摘要]虽然机器翻译离人们的希望还有很大的距离,不过近年来统计机器翻译技术的一些进展使很多研究者相信,在现有的计算条件下通过研究方法的改进,机器翻译的水平还有较大的提高空间。
作者认为,充分利用人类专家知识库、基于大规模语料库获取语言和翻译知识、建立反映语言深层结构对应关系的统计翻译模型是通向高质量机器翻译的有效途径。
本文的研究工作就反映作者在这个方向上进行的一系列努力。
本文主要围绕汉英机器翻译中的一些关键技术展开研究。
具体来说,本文在以下方面做出了有创新性的工作:
1.提出了一种基于层叠隐马尔可夫模型的汉语词法分析算法。
这个算法由多个层叠的隐马尔可夫模型构成,粗切分采用基于N最短路径的算法,简单未定义词和复合未定义词采用基于角色的隐马尔可夫模型识别新词,并采用基于角色的词语生成模型估计未定义词的概率;细切分采用词汇化的隐马尔可夫模型;词性标注采用基于词性的隐马尔可夫模型;多种模型紧密结合,下层模型不仅提供多个最好的分析结果供高层模型使用,而且也给出了这些结果的概率。
模型之间环环相扣,互为补充,最终达到整体结果的最优化,同时保持算法的高效率(线性时间复杂度)。
2.提出了一种基于《知网》的词汇语义相似度计算模型。
这种方法充分利用了《知网》中所包含的丰富的人类语言学知识,直接计算两个词语的语义相似度,而无需通过大规模语料库的训练,方法简单有效。
这种方法可广泛用于词义排歧、基于实例的机器翻译等多种领域。
3.提出了一种高效的双语短语对齐搜索算法。
这种算法的主要优点是可以尽可能避免词语对齐错误给短语对齐带来的干扰,使得短语对齐的正确率和召回率比词语对齐的相应指标都要高出很多,效果很好。
算法采用柱形搜索策略,时间消耗随着句子长度线性增长,效率也非常高。
4.定义了一种可以刻画两种语言深层句法结构对应关系的短语结构转换模板,并给出了从双语短语对齐的语料库中抽取这种模板的算法。
对实验结果的初步分析表明,从一个八千句子对的短语对齐语料库中抽取出来的模板,已经可以覆盖各种常见的汉英句法结构的转换模式。
5.提出了一种微引擎流水线机器翻译系统结构。
在这种结构下,整个机器翻译过程被分解成若干个串行的阶段,每个阶段可以有若干个功能相似的部件(微引擎)同时工作。
通过添加和删除微引擎以及调整流水线的结构很容易实现各种机器翻译构件的协调工作,而无需修改系统的总体翻译算法和数据结构,有利于提高机器翻译系统的开发效率以及尝试新的机器翻译方法。
文中介绍了一个基于这种结构实现的面向新闻领域的汉英机器翻译系统,并给出了实验结果。
[读者评价]
[论文题目]统计机器翻译综述
[论文作者]刘群
[期刊名称]中文信息学报
[所在页码]Vol.17,No.4,pp.1-12
[发表时间]2003.7
[论文摘要]本文综述了基于信源信道思想和基于最大熵思想的统计机器翻译方法并介绍了统计机器翻译的评测方法。
基于信源信道的方法将翻译概率表示为一个语言模型和一个翻译模型。
而基于最大熵的方法则是利用一系列实数值特征函数的线性组合来求解最优的译文。
基于最大熵的统计机器翻译方法比基于信源信道的方法更具有一般性,后者可以看做前者的一个特例。
[读者评价]
[论文题目]汉英机器翻译的难点分析
[论文作者]刘群,俞士汶
[会议名称]InternationalConferenceonChineseInformationProcessing,黄昌宁主编,1998中文信息处理国际会议论文集,清华大学出版社,
[所在页码]pp.507-514
[发表时间]1998.11
[论文摘要]汉英机器翻译研究滞后于英汉机器翻译的原因在于汉英机器翻译具有一些特殊的困难。
本文根据作者开发汉英机器翻译系统的实际经验,对汉英机器翻译所特有的一些难点,从汉语的语法分析和汉语到英语的转换两个方面进行了较为深入的分析,并对其中的一些难点探讨了可能的解决办法。
[读者评价]
[论文题目]TransEasy:
AChinese-EnglishTranslationSystembasedonhybridapproach
[论文作者]QunLiu,ShiwenYu
[会议名称]ThirdConferenceoftheAssociationforMachineTranslationintheAmericas(AMTA-98),Langhorne,PA,USA,Oct.1998,In:
DavidFarwell,etal,Eds.,MachineTranslationandtheInformationSoup,LectureNotesinArtificialIntelligenceVol.1529,Springer
[所在页码]pp514-517
[发表时间]1998
[论文摘要]ThispaperdescribestheprogressofamachinetranslationsystemfromChinesetoEnglish.ThesystemisbasedonareusableplatformofMTsoftwarecomponents.It’sarule-basedsystem,andsomestatisticalalgorithmsareusedasheuristicfunctionsinparsingaswell.Thereareabout50,000Chinesewordsand400globalparsingrulesinthesystem.ThesystemgotagoodresultinapublictestofMTsysteminChinainMar.1998.Itisaresearchvehicleuptonow.
[读者评价]
[论文题目]一个汉英机器翻译系统的计算模型与语言模型
[论文作者]刘群,詹卫东,常宝宝,刘颖
[会议名称]第三届全国智能接口与智能应用学术会议,吴泉源,钱跃良主编,智能计算机接口与应用进展,,电子工业出版社
[所在页码]pp.253-258
[发表时间]1997.8
[论文摘要]本文介绍我们所设计并实现的一个汉英机器翻译系统。
在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。
[读者评价]
[论文题目]基于《知网》的词汇语义相似度计算
[论文作者]刘群,李素建
[会议名称]第三届汉语词汇语义学研讨会,台北,2002年5月
[期刊名称]ComputationalLinguisticsandChineseLanguageProcessing(修改后发表)
[所在页码]Vol.7,No.2,pp.59-76
[发表时间]2002.8
[论文摘要]《知网》是一部比较详尽的语义知识词典。
在基于实例的机器翻译中,词语相似度计算是一个重要的环节。
不过,由于《知网》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语相似度的计算带来了麻烦。
这一点与WordNet和《同义词词林》不同。
在WordNet和《同义词词林》中,所有同类的语义项(WordNet的synset或《同义词词林》的词群)构成一个树状结构,要计算语义项之间的距离,只要计算树状结构中相应结点的距离即可。
而在《知网》中词语相似度的计算存在以下问题:
1.每一个词的语义描述由多个义原组成,例如“暗箱”一词的语义描述为:
part|部件,%tool|用具,body|身,“写信”一词的语义描述为:
#TakePicture|拍摄write|写,ContentProduct=letter|信件;
2.词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通过一种专门的知识描述语言来表示。
我们的工作主要包括:
1.研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义原之间的关系,区分其在词语相似度计算中所起的作用;
2.提出利用《知网》进行词语相似度计算的算法;
3.通过实验验证该算法的有效性,并与其他算法进行比较。
[读者评价]
[论文题目]中文信息处理开放平台的设计
[论文作者]刘群,张浩,白硕
[期刊名称]《语言文字应用》
[所在页码]No.4,pp.50-56
[发表时间]2002.11.
[论文摘要]我国的自然语言处理研究,在很大程度上处于一种低水平重复状态,由于缺乏一些公共的基础设施,很多研究工作都要花费大量的精力从底层模块做起,造成研究工作难以深入。
本文提出,可以将开放式的开发模式应用于自然语言处理领域,并给出了一个面向中文的自然语言处理开放平台的设计。
这个平台能够共享代码、语料、语言知识库等资源,并支持协作开发。
这个平台的上层管理采用项目方式,实现了资源的重复利用。
随着参与者的增多,和项目的发展,这个平台一定会为中文信息处理提供大量的资源。
[读者评价]
[论文题目]结构上下文相关的概率句法分析
[论文作者]张浩,刘群,白硕
[会议名称]第一届学生计算语言学研讨会
[所在页码]
[发表时间]2002.8
[论文摘要]本文研究了PCFG独立性假设的局限性,并在PCFG的基础上提出了三个逐层递进的与结构上下文相关的概率句法分析模型,它们考虑了分析树当中每个派生节点的结构上下文条件。
为了更好地说明方法本身的问题,我们在宾州中文树库和一个短句树库上都进行了实验,文中给出了横向和纵向的对比实验数据。
结果表明,系统地将结构上下文条件引入的做法以很小的代价提高了概率句法分析器的性能,值得推广和深入研究。
[读者评价]
[论文题目]基于最大熵模型的组块分析
[论文作者]李素建,刘群,杨志峰
[期刊名称]计算机学报
[所在页码]Vol.26,No.12,pp.1722-1727
[发表时间]2003.12
[论文摘要]本文采用最大熵模型实现中文组块分析的任务。
首先我们明确了中文组块的定义,并且列出了模型中所有的组块类型和组块标注符号。
组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程,我们可以把它作为一个分类问题根据最大熵模型来解决。
最大熵模型的关键是如何选取有效的特征,文中给出了相关的特征选择过程和算法。
最后给出了系统实现和实验结果。
[读者评价]
[论文题目]ParsingthePennChineseTreebankwithSemanticKnowledge.
[论文作者]DeyiXiong,ShuanglongLi,QunLiu,ShouxunLinandYueliangQian.
[期刊名称]InProceedingsof2ndInternationalJointConferenceonNaturalLanguageProcessing(IJCNLP-05).
[所在页码]
[发表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 传家宝 语言 交互 评测