一堆信息抽取的资料文档.docx
- 文档编号:5908145
- 上传时间:2023-01-02
- 格式:DOCX
- 页数:8
- 大小:22.22KB
一堆信息抽取的资料文档.docx
《一堆信息抽取的资料文档.docx》由会员分享,可在线阅读,更多相关《一堆信息抽取的资料文档.docx(8页珍藏版)》请在冰豆网上搜索。
一堆信息抽取的资料文档
一堆信息抽取的资料文档
一堆信息抽取的资料文档
http:
//FullSearch.Com中文全文检索网2005-11-2514:
19:
09sigz
关键词:
结构化信息抽取 “一堆”,就是没有整理,是堆放的。
不是自己写的,是找来的。
我会在这里继续添加的,依然是“堆”。
有兴趣的可以看看,没有兴趣的就别碰了。
有谁有什么好文,拿出来大家共分享。
1.网上信息抽取技术纵览(下载)
LineEikvil原著(1999.7)陈鸿标译(2003.3)
信息抽取(InformationExtraction:
IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。
输入信息抽取系统的是原始文本,输出的是固定格式的信息点。
信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。
这就是信息抽取的主要任务………
第一章导论
第二章简要介绍信息抽取技术
第三章介绍网页分装器(wrapper)的开发
第四章介绍已经开发出来的网站信息抽取系统
第五章介绍信息抽取技术的应用范围以及首批已经进入商业运作的商用系统2.LanguageIndependentNamedEntityRecognitionCombiningMorphologicalandContextualEvidence
SilviuCucerzan,DavidYarowsky
一种独立于语言的命名实体识别方法。
3.信息抽取研究综述
王建会对自动摘要算法改进方面所做的研究工作4.信息抽取综述
这是介绍信息抽取(InformationExtraction)的一篇报告,包括MUC、Web抽取(WebExtraction)等。
5.FASTUS:
ACascadedFinite-StateTransducerforExtractingInformationfromNatural-LanguageText
本文介绍了FASTUS系统,这是一个从自然语言文本中进行信息抽取的系统,抽取来的信息输入数据库或者用作其它用途。
6.MUC-7InformationExtractionTaskDefinition
MUC-7信息抽取任务的定义7.OVERVIEWOFMUC-7/MET-2
本文简要介绍了MUL-7/MET-2的任务8.InformationExtraction:
TechniquesandChallenges
本文介绍了IE(InformationExtration)技术(18页)。
9.信息抽取研究综述李保利,陈玉忠,俞士汶
摘要:
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。
与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。
过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。
回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。
10.Class-basedLanguageModelingforNamedEntityIdentification(Draft)
JianSun,MingZhou,JianfengGao(Acceptedbyspecialissue\\\\\\\"WordFormationandChineseLanguageprocessing\\\\\\\"oftheInternationalJournalofComputationalLinguisticsandChineseLanguageProcessing)Abstract:
WeaddressinthispapertheproblemofChinesenamedentity(NE)identificationusingclass-basedlanguagemodels(LM).ThisstudyisconcentratedonthreekindsofNEsthataremostcommonlyused,namely,personalname(PER),locationname(LOC)andorganizationname(ORG).Ourmaincontributionsarethree-fold:
(1)Inourresearch,ChinesewordsegmentationandNEidentificationhavebeenintegratedintoaunifiedframework.Itconsistsofseveralsub-models,eachofwhichinturnmayincludeothersub-models,leadstotheoverallmodelahierarchicalarchitecture.Theclass-basedhierarchicalLMnotonlyeffectivelycapturesthefeaturesofnamedentities,butalsohandlesthedatasparsenessproblem.
(2)ModelingforNEabbreviationisputforward.Ourmodeling-basedmethodforNEabbreviationhassignificantadvantagesoverrule-basedones.(3)Inaddition,weemployatwo-levelarchitectureforORGmodel,sothatthenestedentitiesinorganizationnamescanbeidentified.Whendecoding,two-stepstrategyisadopted:
identifyingPERandLOC;andidentifyingORG.Theevaluationonalarge,wide-coverageopen-testdatahasempiricallydemonstratedthattheclass-basedhierarchicallanguagemodeling,whichintegratessegmentationandNEidentification,unifiestheabbreviationmodelingintooneframework,hasachievedcompetitiveresultsofChineseNEidentification.11.BBN公司的信息抽取系统SIFT(中文详细说明)
ScottMiller,MichaelCrystal,HeidiFox,LanceRamshaw,RichardSchwartz,
这是BBN的MUC7参评系统SIFT系统的说明,我把它翻译了一下,基本意思很明了,但部分细节我可能还没有把握准确,如果有问题,请给我来信说明。
12.(slides)ChineseNamedEntityIdentificationusingclass-basedlanguagemodel
JianSun,JianfengGao,LeiZhang,MingZhou,andChangningHuang
Thisistheslidesforthe19thInternationalConferenceonComputationalLinguistics13.ChineseNamedEntityIdentificationusingclass-basedlanguagemodel
JianSun,JianfengGao,LeiZhang,MingZhou,andChangningHuang
WeconsiderheretheproblemofChinesenamedentity(NE)identificationusingstatisticallanguagemodel(LM).Inthisresearch,wordsegmentationandNEidentificationhavebeenintegratedintoaunifiedframeworkthatconsistsofseveralclass-basedlanguagemodels.WealsoadoptahierarchicalstructureforoneoftheLMssothatthenestedentitiesinorganizationnamescanbeidentified.Theevaluationonalargetestsetshowsconsistentimprovements.Ourexperimentsfurtherdemonstratetheimprovementafterseamlesslyintegratingwithlinguisticheuristicinformation,cache-basedmodelandNEabbreviationidentification.14.MUC-7EVALUATIONOFIETECHNOLOGY:
OverviewofResults
ElaineMarsh,DennisPerzanowski
reviewsMUC-7andintroducestheresultandprogressduringthisconference15.Methodofk-NearestNeighbors 16.MultilingualTopicDetectionandTracking:
SuccessfulResearchEnabledbyCorporaandEvaluation
CharlesL.Wayne
TopicDetectionandTracking(TDT)referstoautomatictechniquesforlocatingtopicallyrelatedmaterialinstreamsofdatasuchasnewswireandbroadcastnews.DARPA-sponsoredresearchhasmadeenormousprogressduringthepastthreeyears,andthetaskshavebeenmadeprogressivelymoredifficultandrealistic.Well-designedcorporaandobjectiveperformanceevaluationshaveenabledthissuccess.17.信息提取概述
骆卫华的综述报告18.InformationExtractionSupportedQuestionAnswering
Cymfony公司的IE系统,主要面向QA,包括已实现的NE系统和将要实现的CE和GE的原型。
19.ALGORITHMSTHATLEARNTOEXTRACTINFORMATION20.DescriptionoftheAmericanUniversityinCairo\"sSystemUsedforMUC-7 21.AnalyzingtheComplexityofaDomainWithRespectToAnInformationExtractionTask 22.从半结构化文本与自由格式文本中学习信息抽取规则作者StephenSoderland为华盛顿州立大学计算机科学系教授。
本文的被引用次数高达50多次。
论文以信息抽取系统WHISK系统为例,描述了如何以机器学习的方式,利用小规模样本训练系统自动学习目标文本的抽取模式,从而实现自动化信息抽取的一种技术。
这种技术不但极具启发意义而且很有实用价值。
23.信息抽取研究综述本文出自北京大学计算机科学与技术系,综述了信息抽取的一些基本概念。
24.利用Lixto进行可视化的信息抽取作者分析了Lixto抽取系统的架构,介绍了一种半自动化的Wrapper生成技术与自动化Web信息抽取技术。
25.Web数据抽取工具综述作者将目前的几种Web数据抽取工具按照六种分类:
Wrapper开发语言,可感知HTML的工具,基于NLP的工具,Wrapper归纳工具,基于建模的工具,基于语义的工具依次介绍了各Web数据抽取工具的工作原理与特点,并且比较了它们的一般输出质量。
26.针对BBS短文本的提取标注本文前半段将会介绍有关本体的相关概念,后一部分将介绍本体在我们系统中的应用。
为了配合信息提取,需要一些先验性的知识和统计信息。
所以,我们构造了自己的针对BBS短文本的提取标注工具。
为此构建了本体知识并以直观方式展现出来。
结合本体推理机,我们的标注工具在标注的同时具备推理能力使得标注智能化,并能通过引用一个包装好的提取算法进行提取预览。
27.XWRAP?
?
AnXMLenabledWrapperConstructionSystemforWebInformationSourcesLingLiu?
?
CaltonPu?
?
WeiHanThispaperdescribesthemethodologyandthe
softwaredevelopmentofXWRAP?
?
anXML_enabledwrap_
perconstructionsystemforsemi_automaticgenerationof
wrapperprograms_ByXML_enabledwemeanthatthe
metadataaboutinformationcontentthatareimplicitin
theoriginalwebpageswillbeextractedandencodedex_
plicitlyasXMLtagsinthewrappeddocuments_Inaddi_
tion?
?
thequery_basedcontent_lteringprocessisperformed
againsttheXMLdocuments_TheXWRAPwrappergen_
erationframeworkhasthreedistinctfeatures_First?
?
itex_
plicitlyseparatestasksofbuildingwrappersthatarespe_
ci_ctoaWebsourcefromthetasksthatarerepetitive
foranysource?
?
andusesacomponentlibrarytoprovide
basicbuildingblocksforwrapperprograms_Second?
?
itpro_
videsauser_friendlyinterfaceprogramtoallowwrapper
developerstogeneratetheirwrappercodewithafewmouse
clicks_Thirdandmostimportantly?
?
weintroduceandde_
velopatwo_phasecodegenerationframework_The_rst
phaseutilizesaninteractiveinterfacefacilitytoencodethe
source_speci_cmetadataknowledgeidenti_edbyindividual
wrapperdevelopersasdeclarativeinformationextraction
rules_Thesecondphasecombinestheinformationextrac_
tionrulesgeneratedatthe_rstphasewiththeXWRAP
componentlibrarytoconstructanexecutablewrapperpro_
gramforthegivenwebsource_Wereporttheinitialex_
perimentsonperformanceoftheXWRAPcodegeneration
systemandthewrapperprogramsgeneratedbyXWRAP_ 28.DataMiningonSymbolicKnowledgeExtractedfromtheWebRayidGhani?
?
RosieJones?
?
DunjaMladeni´cy?
?
KamalNigam?
?
Se´anSlattery?
?
Informationextractorsandclassifiersoperatingonunrestricted,unstructured
textsareanerrorfulsourceoflargeamountsofpotentially
usefulinformation,especiallywhencombinedwithacrawlerwhich
automaticallyaugmentstheknowledgebasefromtheworld-wide
web.Atthesametime,thereismuchstructuredinformationonthe
WorldWideWeb.Wrappingtheweb-siteswhichprovidethiskindof
informationprovideuswithasecondsourceofinformation;possibly
lessup-to-date,butreliableasfacts.Wegiveacasestudyofcombining
informationfromthesetwokindsofsourcesinthecontext
oflearningfactsaboutcompanies.Weprovideresultsofassociation
rules,propositionalandrelationallearning,whichdemonstrate
thatdata-miningcanhelpusimproveourextractors,andthatusing
informationfromtwokindsofsourcesimprovesthereliabilityof
data-minedrules.29.ABriefSurveyofWebDataExtractionTools
AlbertoH.F.LaenderBerthierA.RibeiroNeto
AltigranS.daSilvaJulianaS.TeixeiraInthelastfewyears,severalworksintheliteraturehaveaddressedtheproblemofdataextractionfromWebpages.Theimportanceofthisproblemderivesfromthefactthat,onceextracted,thedatacanbehandledinawaysimilartoinstancesofatraditionaldatabase.TheapproachesproposedintheliteraturetoaddresstheproblemofWebdataextractionusetechniquesborrowedfromareassuchasnaturallanguageprocessing,languagesandgrammars,machinelearning,informationretrieval,...30.TowardSemanticUnderstanding|AnApproachBasedonInformationExtractionOntologies
Informationisubiquitous,andweare
oodedwith
morethanwecanprocess.Somehow,wemustrely
lessonvisualprocessing,point-and-clicknavigation,
andmanualdecisionmakingandmoreoncomputer
siftingandorganizationofinformationandauto-
matednegotiationanddecisionmaking.Aresolu-
tionoftheseproblemsrequiressoftwarewithseman-
ticunderstanding|agrandchallengeofourtime.
Moreparticularly,wemustsolveproblemsofau-
tomatedinteroperability,integration,andknowledge
sharing,andwemustbuildinformationagentsand
processagentsthatw
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一堆 信息 抽取 资料 文档