HZAU CQPweb 简明使用手册doc.docx
- 文档编号:10549766
- 上传时间:2023-02-21
- 格式:DOCX
- 页数:29
- 大小:3.03MB
HZAU CQPweb 简明使用手册doc.docx
《HZAU CQPweb 简明使用手册doc.docx》由会员分享,可在线阅读,更多相关《HZAU CQPweb 简明使用手册doc.docx(29页珍藏版)》请在冰豆网上搜索。
HZAUCQPweb简明使用手册doc
农科英语语料库网络检索平台HZAUCQPweb使用手册
登录网址:
http:
//211.69.132.28
用户名:
test密码:
test
本手册分为如下几个部分:
本手册分为如下几个部分:
1.平台登陆界面:
介绍平台登陆方式和基本界面;
2.检索方式:
介绍简单检索和复杂检索模式下输入检索词的格式,及得到检索结果后的后续操作,
3.功能介绍:
介绍HZAUCQPweb可实现的基本功能,包括:
标准查询、限定条件查询、词形匹配查询、生成词频表、生成关键词表;重点介绍了随机抽样、频率分解、分布展示、排序、搭配查询等功能;
4.功能拓展举例:
以问答的方式举出操作实例,帮助使用者了解如何利用语料库解决实际问题;
5.术语中英文对照表;
6.附录-Claws
7.词性赋码集和基本通配符
1.平台登陆页面介绍
CQPweb(CorpusQueryProcessor)是语料库在线检索平台,HZAUCQPweb是华农师生共建的农科英语论文语料库(总计:
738.2万词),属第四代网络语料库工具。
语料库的三层架构(见下图):
第一层是农科专业期刊论文语料库Journalarticle,收录英语母语者发表的期刊论文838篇,共553.7万词。
第二层是汉语母语学习者语料库Learnerarticle,收录农科专业的硕士生、博士生撰写的、完整的农科SCI论文手稿379篇,共184.5万词。
这两个语料库构架一样,均由按照章节部分和学科分类的两个子库构成:
章节子库按照英语名称缩写命名,包含摘要(ABS)、引言(INT)、方法(MET)、结果(RET)、讨论(DIS)、结论(CON)6个库,章节部分子语料库主要用于写作教学研究。
学科子库按照汉语拼音首字母缩写命名,包含植物科学(ZWKX)、动物科学(DWKX)、生命科学(SMKE)、园艺林学(YYLX)、农业经济(NYJJ)、农业工程(NYGC)、水产科学(SCKX)、食品科学(SPKX)、资源环境(ZYHJ)9个学科子库。
第三层是对比语料库,包括经过授权的英语母语学习者语料库BAWE和文学作品语料库DICKENS,主要用于对比研究。
华农语料库在线检索平台(以下简称:
HZAUCQPweb)的网址为http:
//211.69.132.28/,进入该网址,可看到多个语料库的登录界面。
点击任何一个子语料库,弹出用户名和密码填写窗口,例如点击2.0版的右上角代表英语母语者发表的农科期刊论文全文语料库ArticlesbyDiscipline(是最常用的一个子语料库),输入用户名test和密码test,之后就可以进入按学科分类的子语料库,接着点击主页面的左边菜单的restrictedquery,出来界面的右下角可进行学科的选择,进入学科子语料库。
HZAUCQPweb多个语料库登录页面的最上面部分是扩大库容后的2.0版本的期刊文章库JournalArticle2.0(553.7万词)和学习者论文库LearnerPaper2.0(184.5万词)。
在该两个子库下分为,ArticlesbyDiscipline代表全文论文子库(右手最上面红色)和6个章节部分子库例如ArticleAbstract(论文摘要库)、ArticleConclusion(论文结论子库)等。
登录页面的中间部分是扩大库容前的非2.0版(如下图所示),其构架跟扩容后一致,也分为期刊文章子库(220万词)和学习者语料库子库(140万词),非2.0版主要作为历史发展而存在,为了更得到更为全面、可靠的数据,用户始终使用扩展库容后的是2.0版。
登录页面的最下面是用以进行对比研究的其他语料库othercorpora,其中BAWE(BritishAcademicWritingofEnglish)代表英语为母语的学习者产出的论文,其中包括农科论文。
Dickens是狄更斯小说语料库,这两个语料库主要用于语言的对比研究,前者可用于英、汉母语学习者语言使用的对比研究,后者用于科学和文学体裁对比研究。
点击任何一个子语料库,弹出用户名和密码填写窗口,例如点击2.0版的右上角代表英语母语者语言使用的期刊论文全文语料库ArticlesbyDiscipline,输入用户名test和密码test,之后就可以进入按学科分类的子语料库,接着点击主页面的左边菜单的restrictedquery,出来界面的右下角可进行学科的选择,进入学科子语料库。
2.两种标准检索模式
标准查询模式(StandardQuery)
如箭头所示的四个步骤:
1.点击左边栏“Corpusqueries”中的“Standardquery”选项进入标准查询模式,2.在此模式下,在白色输入窗口输入检索对像,例如:
(research|researches)(英语格式的双引号);3.选择检索模式简单检索“SimpleSyntax”,两种检索方式下均可按各自的检索语法输入单词、短语等进行检索,4.点击检索指令“startquery”,执行检索。
2.1简单检索
标准检索模式Querymode有两种:
simplequery简单检索和CQPsyntax复杂检索。
简单检索在检索模式下拉菜单中选择Simplequery(见下图左输入框下),则为简单检索模式。
该模式下可输入单词、短语等进行检索。
如要查询语料库中所有包含单词research的索引行,在simplequery模式下输入research,不需要带引号,带引号是复杂检索,点击开始查询,即可获结果。
如果我们需要一起查询research及其复数researches,我们输入(research|researches),圆括号表示两个词一起检索,“|”表示或者,这些符号和指令的组合,在帮助文件里有详细说明,(见上图)白色输入框下面蓝色字体simpleQuerySyntaxhelp,点击即可得到帮助文件。
注意:
帮助文件的词性赋码为CLAW5,华农语料库网络平台使用的是更高版本词性赋码CLAW7,词性赋码虽然不一样,但是帮助文件里的检索方法仍然适用。
同时检索单复数的research,结果如下图:
CQPweb以目标检索词汇为中心,对齐呈现,方便用户对目标检索词汇用法的观察,注意上面右图红色框中检索的数据汇报,在838个文本,共5537109个词中检索到2209个research,平均每百万词398.94次/每百万词。
注意上边右图中红色框中NewQuery这个功能下拉条中有很多功能选择,其中我们最经常用到的是Frequencybreakdown频数解析,Distribution分布,Collocation搭配。
下面展示NewQuery下拉菜单中语料库提供的多种数据处理功能。
(1)频数解析功能(Frequencybreakdown):
显示频数分解、和百分比;表示同时在检索多个目标词或短语时,对目标词项分别计算频数。
比如,想要知道increase|increases作名词与介词in还是of搭配得多时,如果想知道英语母语者的搭配用法,可在JournalArticle2.0,的ArticlebyDisciplines中检索的操作步骤:
step1.输入(increase|increases)(in|of),同样圆括号表示同时检索increase的单数和复数,同时检索介词in和of,“|”表示或者,step2.在检索结果页面点击右上角功能框的Newquery下拉菜单中选中Frequencybreakdown选项,点击右边的Go,step3.则会按这4个词项分别报告中搭配用法在语料库中出现的频数和百分比。
如果想知道华农学生的搭配用法,在LearnerPaper2.0下,PapersbyDisciplines中检索,step4.得到学习者语料库搭配用法频数解析的结果
step1step2
step3step4
比较发现英语母语者increasein的搭配用法为72.3+21.5=93.8%,increaseof的搭配用仅为7%,而汉语母语者的increaseof的搭配用法高达44%,说明汉语母语者过度使用increaseof的搭配。
同样方法检索(research|researches),在英语母语者期刊论文语料库ArticlesbyDisciplines557万词的语料库中得到2209例research,却无一例researches,说明research的复数形式不存在,而在184万词的学习者语料库中检索到146例,说明学习者的对research一词的误用。
(2)分布显示功能(Distribution):
查询结果的分布展示,按不同学科领域分别呈现查询结果。
例如我们想知道那个学科在写作中更为开放地提及研究局限和不足limitation和weakness,于是我们在ArticlesbyDisciplines中语料库中检索该二词在期刊论文语料库中的分布,在简单检索中我们输入该二词的单复数,大小写各种变化的词形(limitation|limitations|Limitation|Limitations|weakness|Weakness|weaknesses|Weaknesses),在得到的检索结果页面中点击右上角菜单的Distribution选项,可查看该关键词在不同学科领域的分布情况。
分布数据表明植物科学(ZWKX)最少提及局限和弱点,而资源环境(ZYHJ)科学更多提及。
若在“Showas”一栏中选择BarChart,则还可以以柱状图的形式展示结果。
我们进入章节部分子语料库,回到登录页面Journalarticle2.0语料库,中间一栏第三行红色的Articlesbysection,点击进入,输入(limitation|limitations|Limitation|Limitations|weakness|Weakness|weaknesses|Weaknesses)可以显示该二词在各个章节部分的出现频率。
数据表明论文的结论部分更多提及局限和弱点(188,46次/每百万词),在材料方法部分该二词的出现频率最小(36.7次/每百万词)。
(3)搭配功能(Collocations):
搭配计算。
统计特定词语在语料库中的典型搭配。
例如,如果我们想知道“DNA”与哪些词搭配使用,我们可以在DNA的检索结果页面中点击右上角下拉菜单中的Collocations选项,在下一个界面点击Createacollocationdatabase,进入Collocationcontrols界面,在这个界面设置搭配检索的条件。
如windowfrom/to即指检索目标距离关键词DNA的距离。
若将其均设置为1totheleft则表示查询的是关键词DNA左边紧接的单词,Freq表示出现的频次条件,and/ortag中可设置词性条件(与其搭配的名词、动词,介词等)。
如果将搭配检索的条件按照下图所示设置,则表示查询紧接在DNA之前、出现频次不少于3的所有动词搭配。
检索结果表明:
在“动词+DNA”的搭配中,出现频率最高的动词,从上到下依次为:
bind,repair,comprises,purify,contaminate,extract,precipitate,detect等。
collocation功能除了显示搭配的用法,也能显示,与某词或短语搭配的词性。
例如,如何得知applyto在语料库中跟哪些词性的词搭配?
这个问题属于类联接(Colligation),即一个词和语法标记(如词性)的搭配情况。
1)输入“apply”“to”可在获取applyto的检索结果之后,2)在右上角下拉菜单选择“Collocations”,点击Go,
3)在接下来的界面,点击“Createcollocationsdatabase”按钮,
4)出现Collocationcontrols界面,按照箭头从上到下的操作:
(1)选择基于词性pos的搭配,
(2)将Collocationwindowfrom和Collocationwindowto均设置为“1totheright”,基于claws词性赋码,点击“Go”按钮即可查看紧跟在单词conventional右边的单词词性频率分布。
结果显示,applyto与AT(定冠词),JJ(形容词),NN2(名词搭配),也就是说apply后面接名词或者名词短语,暗示了短语applyto中的to是介词。
此外语料库还有以下功能包括:
(4)随机抽样功能(Thin):
该功能对查询结果随机抽样,从所有索引结果中,随机抽取若干行。
例如在检索take得到结果之后,总共得到105个索引行,选择右上角下拉菜单中的Thin,点击Go之后可在下图中设置抽样条件,如把抽样数目设置为20(此处也可设置百分比),点击Thinthisquery,可以看到随机抽样的20个结果。
(5)排序功能(Sort):
对查询结果的排序条件进行设定。
例如,在查询take后的检索结果页面中点击右上角菜单的Sort选项,可对所有查询结果进行排序。
在Sortcontrol一栏中,若将position设置为1Right,则表示根据紧跟take右边第一个形符(即单词或符号)的顺序来排列。
在TagRestricttion中还可以对排序所依据的形符的词性赋码设置限制条件。
(6)下载功能(Download):
下载保存查询结果。
(7)标注功能(Categorise):
对检索结果手工分类标注。
2.2复杂检索从简单检索切换为复杂检索一定要选择“CQPSyntax”检索模式,否则不出结果。
在Querymode下拉菜单中选择CQPSyntax,则为复杂检索模式。
复杂检索最大优势在于可以提取变量,例如"a"[]"of"可以提取a+任意单词+of,例如,avarietyof,adoseof,anumberof等等,其次,CQPweb中所有语料经过了词形赋码,复杂检索可以提取词性,因此将要提取的用词性表达的结构,例如副词+形容词+名词结构,输入表达式:
[pos="R.*"][pos="J.*"][pos="N.*"],其中pos(partofspeech)表示词性,R.*,J.*,N.*分别表示所有动词,形容词,名词,提取的结果例如closelyrelatedspecies,significantlyhigherlevels,statisticallysignificantdifferences.CQPweb支持复杂检索算法基于CQP语法,该语法与CQP的数据结构紧密相关。
CQP的最基本的数据结构包括p-attribute和s-attribute。
(1)基于p-attribute数据结构检索。
一个形符所对应的p-attribute结构包括单词本身、词性赋码和单词其他属性。
CQPweb复杂检索中主要查询的属性是word(单词)和pos(词性赋码),查询时采用[属性=“值”]的形式,每个检索单元间以[]作为分隔符。
例如输入[word=“take”]检索所有包含单词take的索引,输入[pos=”NN1”]检索所有可数名词单数。
单词可以直接用在双引号中输入单词即可检索,例如输入"take""in",检索takein,但是检索词性必须放在[pos=“N.*”],不可省略中括号标识。
不同的检索单元可以连接在一起进行检索,如[word=”look”][word=”for”]可以检索所有包含lookfor的索引行。
空的[]可以指示任意形符,如[word=“a”][][word=“of”]可以检索出alotof,aseriesof等形式。
同一个形符对应的p-attribute结构作为一个检索单元时,可以将其不同属性通过布尔运算符(和“&”、或“|”、否“!
=”)进行组合运算。
如检索[word="look"&pos!
="NN"]可以得到所有不是名词的look。
当查询的属性为word时,p-attribute结构的检索单元可以省略“值”的形式,即检索[word=”take”]时输入也可简化为”take”,二者检索结果一致。
检索词性时,需要知道词性赋码,HZAUCQPweb采用的CLAW7词性赋码,在本手册的最后有Claws7词性赋码表。
最基本的几种词性赋码,需要记住:
N.*名词;V.*动词;J.*形容词;R.*副词;VVN过去分词;现在分词VVG
I.*介词;:
AT.*冠词;VB.*be动词;VH*有动词;VV*实意动词;VM情态动词
(2)基于s-attribute数据结构检索。
s-attribute数据结构对应若干索引行(句子)。
对于一个句子而言,标示句首,标示句尾。
例如通过检索”DNA”可以得到所有包含“DNA”且该单词位于句首的索引。
该次检索可以得到句子“DNAfromeachofthesepoolswassequenced”,但结果中不会包括句子“EachDNAsamplewasamplified”。
基于s-attribute结构的检索和p-attribute结构的检索可以结合起来使用。
例如,查询语句"DNA"[pos="VBDZ"]可以得到诸如DNAwasextractedfromyoungleaftissue之类的句子。
(3)使用CQP正则表达式检索。
CQP语法支持在检索单元内部(即[]内部)和检索单元之间(即[]之间)使用正则表达式进行查询。
CQP正则表达式常用的符号包括:
符号
意义
.
点号匹配任意字符
[]
字符集,如[ab]表示a,b其中之一,[1-3]表示1,2,3其中之一
?
不重复或重复一次
*
不重复或重复多次
+
重复一次或重复多次
{n}
重复n次
{m,n}
重复m到n次
|
选择符号,表示逻辑或。
如be|was表示be或was
^
否定符号,表示逻辑非。
&
表示逻辑与。
例如:
输入[word="DNA.+"]则表示检索所有以DNA开头、且之后有其他字符的单词,得到的结果可以包括DNA-dependent,DNAse,DNASTAR等。
输入[word="DNA.*"]则表示检索所有以DNA开头、且之后有不一定有其他字符的单词,得到的结果除了包括上面提到的DNA-dependent,DNAse,DNASTAR之类的单词,还可能包括DNA。
输入[word="DNA[^-]+"]则表示检索所有以DNA开头、且之后有非“-”的其他字符的单词,得到的结果会有DNAse,DNASTAR等,但不包括DNA和DNA-dependent之类的单词。
掌握的基本的词性赋码和通配符,我们将二者结合起来就可以编写检索表达式:
例1:
提取被动语态(be+过去分词)的表达式为:
[pos="VB.*"][pos="R.*"]{0,2}[pos="VVN"]
其中VB.*代表be动词,VVN代表过去分词。
过去分词前可能还有1~2个{0,2}副词R.*修饰。
例2:
提取名词词组:
the+adv.(可有可无)+adj.(可有可无)+n.的表达式为:
[pos="AT.*"]([pos="R.*"]{0,2}[pos="J.*"]{0,2})[pos="N.*"],其中pos=表示词性=,AT.*代表冠词,R.*代表副词,{0,2}表示有0~2个副词,[pos="J.*"]{0,2},表示有0~2个表示形容词,圆括号表示形容词和副词是一个整体,N.*表示名词。
例3:
提取强调名词词组的句型强调的正则表达式为:
"it|It""is|was"[pos="AT.*"]*([pos="R.*"][pos="J.*"])*[pos="N.*"]"that",其中"it|It","is|was",和"that"是固定单词,不需要[word=...],直接用双引号,名词短语是利用词性赋码和通配符编写的正则表达式。
3.检索举例:
功能拓展举例
(1)如何查询一个词的常用搭配?
以单词”take”为例,在查询结果页面点击右上角下拉菜单,选择”Collocations”,在Maximumwindowspan一栏选择一个数字,这表示在关键词前后若干个单词范围内检索其搭配。
点击Createcollocationdatabase按钮即可得到其常见搭配。
(2)如何按子库检索(如take在不同子库的分布)?
在左边栏选择RestrictedQuery,并勾选子库,即可得到在指定子库的检索结果。
在检索结果页面中点击右上角下拉菜单选择Distribution,可以查看关键词在不同子库的具体分布情况(频数、频率等)。
(3)如何得知However,Although,While三个词中,哪个词使用最多?
首先注意到这三个词在语料库中出现时都可能有大小写的形式,输入[word="However|however|Although|although|While|while"]进行检索,得到结果后点击右上角下拉菜单选择“Frequencybreakdown”可以查看三个词的频数频率分布。
由图可见however的使用频率明显高于其余二词。
(4)在学术论文中表示“……的变化”时到底用changein或changeof,怎样得知英语母语者与中国学生在选择这两个搭配时不同的使用倾向?
可在不同的语料库登录界面,进入不同子语料库比较母语者与学习者写作风格的不同。
2.0版的学科领域的专家撰写的期刊论文可以查询ArticlesbyDisciplines(右上角第一个)期刊论文语料库;华农学生(中国英语学习者)整体使用倾向可以查询PapersbyDisciplines;英语母语学习者使用倾向可以查询OtherCorpora下的BAWE英国学术英语写作语料库中的子语料库,勾选biological_science,agriculturescience,foodscience即可进行限定范围检索。
在三个语料库中分别输入[pos="N.*"&word="change|changes"][word="in|of"],得到检索结果如下所示:
ArticlesbyDisciplines:
LearnersPapersbyDisciplines:
英语学习者语料库BAWE中选农科科学和生命科学子库,得到以下检索结果:
由此不难看出不同作者写作时选词的倾向:
英语母语专家使用情况:
change(s)of=3.2%+1.8%=4%
华农学生:
change(s)of=28.7%+24.7=53.4%
英国学生:
change(s)of=12.7%
这三个数据说明,华农学生过多使用of。
(5)approach在表示“……的方法”时,在期刊论文(ArticlesbySubjects)中,与之搭配频率最高和第二高的介词是什么呢?
方法一:
可以输入检索表达式:
[word="approach"][pos="I.*"],其中"I.*"指以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HZAU CQPweb 简明使用手册doc 简明 使用手册 doc