科技情报大数据挖掘与服务平台剖析.docx
- 文档编号:30011246
- 上传时间:2023-08-04
- 格式:DOCX
- 页数:24
- 大小:174.56KB
科技情报大数据挖掘与服务平台剖析.docx
《科技情报大数据挖掘与服务平台剖析.docx》由会员分享,可在线阅读,更多相关《科技情报大数据挖掘与服务平台剖析.docx(24页珍藏版)》请在冰豆网上搜索。
科技情报大数据挖掘与服务平台剖析
推荐单位意见:
项目名称科技情报大数据挖掘与服务平台
推荐单位
(专家)中国人工智能学会
推荐单位(专家)意见:
该项目为“研究者社会网络搜索与挖掘系统(ArnetMiner)”,经李德毅院士组成
的评审委员会评审,得到了各位评审专家的充分肯定,获得 2013 年度吴文俊人工智
能科学技术进步奖一等奖。
此后,该项目相继展开近三年的创新研究,取得了多项进
展,主要包括:
1)理论研究:
在多源异构数据语义集成,面向科技创新的网络用户
行为分析,构建多维关系依赖的知识图谱等方面取得突破,新增发表论文 30 篇(其
中 CCF A 类论文 13 篇);2)知识产权:
积极推动知识产权保护,新增授权专利 5 项,
项目相关授权专利达到了 12 项;3)经济效益:
项目核心技术及工具获得了多个企事
业单位的认可,集成应用如搜狗、亿赞普、点通等单位的主流产品中,产生经济效益
超过 5 亿元;4)社会效益:
项目系统向科技界免费开放访问接口及各种数据,为
KDD, ICDM,WSDM 等 20 余个重要国际会议提供审稿人推荐及语义信息服务;积极
参与建设中国工程院主导的“中国工程科技知识中心”建设,成为其 12 个分中心之
一;并参与建设联合国教科文组织主导的国际工程科技知识中心,成为其核心应用之
一,为第三世界国家免费提供科技信息咨询及知识挖掘服务。
综合上述情况,我会同意推荐该项目申报 2016 年度国家科学技术发明奖。
项目简介:
科技数据记载着科学技术的发展和进步,对其进行深入挖掘,可以及时了解和掌
握科技动态,加快科技创新速度,提高科技生产力,让学术成果真正服务于经济发展
和社会进步,为决策部门提供综合性战略性情报服务。
这对于提高我国互联网科学管
理水平,促进互联网经济发展,推动数据挖掘、信息检索、情报分析以及网络科学等
相关学科的发展,占领下一代信息技术和知识服务的科技制高点具有重要的战略意义。
推荐项目针对互联网环境下科技信息资源规模大、分布及异构等特征,率先提出
并研发了以知识和研究者为核心的异构网络深度挖掘与服务平台,实现了亿级节点的
大规模科技知识图谱的建立;创新性的提出面向科技创新的群体智能挖掘方法,为理
解网络群体行为的形成和动态演化奠定了理论基础。
项目主要发明及创新点如下:
1)提出了多维依赖关系信息抽取方法和基于最小风险的语义集成框架,大大提高
了语义信息的抽取精度,实现了亿级节点的大规模科技知识图谱的建立;
2)创新性的提出面向科技创新的群体智能挖掘方法,系统性的给出了网络结构和
网络用户行为之间的关联关系,为理解网络群体行为的形成和动态演化奠定理论基础;
3)提出面向科技知识网络的异构对象统一建模方法 将异构对象映射至低维隐空
间进行排序学习,解决了知识网络中的异构对象排序难题,实现了异构对象全局权威
度的高效计算;
4)研发了具有完全自主知识产权的新一代研究人员社会网络的学术信息挖掘和搜
索系统 ArnetMiner(后更名为 AMiner),提供面向学术、专利和科技新闻的搜索、语
义分析、科技成果评价及趋势分析等功能。
项目获得发明专利授权 12 项,取得软件著作权 6 项;发表相关学术论文 112 篇,
Google Scholar 引用超过 5800 次。
项目相关应用系统 AMiner 自 2006 年上线以来
已经产生了显著的学术影响和社会效益。
目前已为全球 220 个国家/地区 700 多万独
立 IP 访问提供服务,发表在 SIGKDD’08 上介绍关键技术的代表论文 Google
Scholar 引用 531 次,在该会近 8 年发表的 1508 篇论文中排名第 7。
项目获得中国人
工智能学会科技进步一等奖、中国电子学会自然科学二等奖、北京市自然科学三等奖。
项目研究成果还在微软必应搜索、搜狗、亿赞普、点通、华为、IBM、通用、美孚、
腾讯等企业的合作项目中得到推广应用,近三年相关产品新增销售额超过 5 亿元。
客观评价:
1. 对项目的评价
1)2013 年 8 月 29 日,教育部对“研究者社会网络搜索与挖掘系统”进行了成果鉴
定。
鉴定委员会认为:
项目成果完善了 Web 语义集成、主题模型、网络排序以及
社会网络搜索与挖掘的理论体系和技术方法……被认为是世界上最有代表性的学
术社会网络分析系统之一……鉴定委员会一致认为,项目核心技术达到国际先进、
国内领先水平。
2)2013 年 10 月,项目“研究者社会网络搜索与挖掘系统(ArnetMiner)在与国内
近 40 项研究成果的竞争中胜出,获得了中国人工智能学会第三届吴文俊人工智能
科学技术进步一等奖(仅一名一等奖)。
2. 对 ArnetMiner 系统评价
1)2008 年,介绍“研究者社会网络搜索与挖掘系统”框架及核心技术的文章
“ArnetMiner:
Extraction and Mining of Academic Social Networks”发表在数据挖掘领
域的国际顶级会议 SIGKDD‘2008 上。
论文 Google Scholar 引用次数 540 次。
2)UIUC 大学的知名教授 DanRoth 在 Coling 上关于专家发现的论文使用
Arnetminer 的结果作为评测标准。
3)著名研究机构 DERI 资深研究员 P. Buitelaar 等人在论文中提到:
ArnetMiner 是
当前著名的学术研究者社会网络搜索工具。
4)南安普顿大学 Tiropanis 等人撰写的综述中多次提到 ArnetMiner 系统,评价
ArnetMiner 是“…搜索与匹配方面最有代表性的工具…”
3. 对项目核心技术评价
1)创新点 1:
信息集成工具 RiMOM 在国际本体映射竞赛 OAEI 中连续 6 年夺得
9 项子任务第一的好成绩;在 2008 年OAEI 结果分析报告中,RiMOM 被认为是
“Top Matching System”。
2)创新点 2:
关于大规模社交网络中影响力分析的论文发表在 SIGKDD’2009 上,
在 ACM 的 Digital Library 中已经下载 3792 次,在该会议近六年(2008-2013)所
有 1208 篇文章中下载次数排名第一。
3)创新点 3:
在异构网络排序学习模型的研究中,将用户影响力分析应用在交叉
领域协作关系推荐,论文发表在 SIGKDD’2012 上,被评审认为是“This is a very
nice paper which proposes a novel approach for cross-domain collaboration
recommendation”,论文获得最佳 Poster 奖。
推广应用情况:
项目研发成果 AMiner 系统自 2006 年上线运行以来,至今已经过 8 次重大改版升
级,吸引了来自 220 个国家/地区 700 万独立 IP 的访问,为公众免费提供了超过 200
万次数据/代码/工具下载,收集了超过 1 亿 5 千万用户日志。
GoogleAnalytic 分析工
具最新结果显示:
来自于 google 搜索的日均访问量超过 5000 次,其中访问国家排名
第一的是美国。
AMiner 系统除了为公众提供免费信息服务之外,同时其还开放了服务端口,为全
球最大出版社 Elsevier 和 SIGKDD’10-13, PKDD’11, ICDM’11-13 等 20 余个国际会议
提供论文-审稿人自动指派和专家搜索服务。
在企业合作方面,项目相关研究技术成果在国家政府部门及国内外企事业单位获
得了广泛的应用,近三年产生的直接经济效益超过 5 亿元。
主要知识产权证明目录:
知识产
权类别知识产权具体名称
国家
(地
区)
授权或申
请号 授权日期
证书编
号 权利人
发明人
授权发
明专利
授权发
明专利
在大规模社会网络
中基于路径评分的
个人关系发现方法
基于专家值传播算
法的社会网络专家
信息处理系统及方
法
中国 ZL2007101
中国 ZL2007101
480395 清华大
学
592945 清华大
学
唐杰、
李涓子
唐杰、
张静、
李涓子
授权发
明专利
一种基于词频和多
元文法的新闻关键
词抽取方法
中国 ZL2007101
77074.2
2009/11/1
4 530956
清华大
学
李涓子、
樊绮娜、
李军
授权发
明专利
基于元数据分析的
78687.8 2009/12/4
645414 清华大
学
李涓子、
常诚,
张阔
授权发
明专利
基于约束优化的专
54304.4
2012/11/1
4 1079349
清华大
学
唐杰、
唐文斌
授权发
明专利
基于统一概率模型
的个性化用户标签
建模与推荐方法
中国 ZL2010105
46780.1
2012/11/1
4 1079129
清华大
学
唐杰、
张宁
授权发
明专利
一种文档的检索方
38289.X 2011/9/14
839632 清华大
学
唐杰、
杨子
北京搜
授权发
明专利
获取别称匹配对的
086.2 2012/8/8
1019924
狗科技
发展有
刘珊瑞、
张阔
限公司
北京搜
授权发
明专利
一种获取多层信息
805.1 2010/8/11 655115
狗科技
发展有
李华北、
张阔
限公司
授权发
明专利
一种对查询词分类
的方法、装置及搜
索引擎系统
中国 200710304
北京搜
狗科技
发展有
限公司
张智敏、
张阔、
茹立云
完成人姓名
唐杰
排名
1
行政职务
清华大学科技大数据
研究中心执行主任
技术职称
副教授
工作单位
清华大学
完成单位
清华大学
对本项目技术创造性贡献:
项目总负责人,对创新点 1-4 都有创造性贡献。
具体来说,提出最
小风险的网络知识集成方法,被国际竞赛 OAEI 评价为 2006 年来最有
代表性的方法之一;研究网络用户微观影响力理论,提出基于话题的
影响力挖掘和传播模型,部分解决了影响力最大传播模型中的输入假
设问题。
论文:
Arnetminer:
extraction and mining of academic social
networks
Social influence analysis in large-scale networks
专利:
基于约束优化的专家匹配方法及系统(201010554304.4)
完成人姓名
李涓子
排名
2
行政职务
清华大学计算机软件
研究所副所长
技术职称
教授
工作单位
清华大学
完成单位
清华大学
对本项目技术创造性贡献:
完成人对创兴点 1,3,4 有创造性贡献。
具体说来,针对不同资源
类型,提出不同的语义信息抽取模型,针对异构资源,提出最小风险
的网络知识集成方法,解决了网络资源信息自动获取问题。
论文:
RiMOM:
A Dynamic Multi-Strategy Ontology Alignment
Framework
ArnetMiner:
Extraction and Mining of Academic Social
Networks
专利:
主要完成人情况:
(摘自“主要完成人情况表”中的部分内容,公示姓名、排名、行
政职务、技术职称、工作单位、完成单位、对本项目技术创造性贡献)
完成人姓名
张阔
排名
3
行政职务
技术总监
技术职称
教授级高工
工作单位
北京搜狗科技发展有限公司
完成单位
北京搜狗科技发展有限公司
对本项目技术创造性贡献:
对创新点 1、4 有创造性贡献,提出查询词深层语义意图理解方法,
解决了用户自然语言查询的结构化理解问题;提出一种语义同义词、
短语的获取方法,解决了用户多样性需求表达的归一化问题,为知识
化信息的精确检索提供基础。
专利:
一种对查询词分类的方法、装置及搜索引擎系统
(200710304182.1)
一种获取多层信息的方法和装置(200810102805.1)
获取别称匹配对的方法及装置(200810225407. 9)
完成人姓名
张静
排名
4
行政职务
技术职称
博士生
工作单位
清华大学
完成单位
清华大学
对本项目技术创造性贡献:
对创新点 2,3 有创造性贡献。
具体来说,研究网络用户微观影响
力理论,提出基于话题的影响力挖掘和传播模型,部分解决了影响力
基于专家值传播算法的社会网络专家信息处理系统及方法,
ZL200710117719.3
完成人姓名
茹立云
排名
5
行政职务
搜狗公司副总裁
技术职称
工作单位
北京搜狗科技发展有限公司
完成单位
北京搜狗科技发展有限公司
对本项目技术创造性贡献:
对创新点 1 有创造性贡献。
提出利用上下文无关文法、基于机器学
习的实体识别、基于大数据挖掘的属性映射,对查询词中的结构化查
询意图进行自动化识别,解决了用户自然语言查询的结构化理解问题。
同时,提出了基于用户查询后续行为大数据分析基础上的查询词类型
识别方法,使得对于用户查询意图的理解精确度有了显著的提升。
专利:
一种对查询词分类的方法、装置及搜索引擎系统
(200710304182.1)
完成人姓名
许斌
排名
6
行政职务
技术职称
副教授
工作单位
清华大学
完成单位
清华大学
最大传播模型中的输入假设问题;提出了异构对象统一建模方法,建
立了 ArnetMiner 中的 ACT 模型。
论文:
Social influence analysis in large-scale networks
专利:
基于专家值传播算法的社会网络专家信息处理系统及方法
(200710117719.3)
对本项目技术创造性贡献:
对创新点 1,4 有重要贡献。
具体来说,在本项目中主要负责
ArnetMiner 整个架构设计及研究信息提取及语义集成。
提出了以 Web
服务方式实现语义标注的方法,解决了多人同时标注信息的问题。
专利:
基于元数据分析的新闻事件检测方法(200710178687.8)
完成人合作关系说明:
项目完成人唐杰(排名 1),李涓子(排名 2),许斌(排名 6)同为清华大学计算
机系知识工程实验室老师,自 2006 年起就一直保持长期合作关系。
在推荐项目中合
作发表过多篇论文(Zhifeng Gu, Juanzi Li, Jie Tang, Bin Xu, and Ruobo Huang.
Verification of Web Service Conversations Specified in WSCL. In Proceedings of 31st
AnnualIEEEInternationalComputerSoftwareandApplications
Conference (COMPSAC'07). pp. 432-437.),合作申请过多项专利(ZL200710177066.8)。
项目完成人张阔(排名 3)2003 年-2008 年在清华大学知识工程实验攻读博士学位,
之后加入搜狗科技有限公司,任研发总监,期间与唐杰,李涓子有多次项目合作,并
合作申请专利(ZL200710178687.8)及发表论文(Zhigang Wang, Juanzi Li, Shuangjie
Li, Mingyang Li, Jie Tang, Kuo Zhang, and Kun Zhang. Cross-lingual Knowledge
Validation Based Taxonomy Derivation from Heterogeneous Online Wikis. In Proceedings
of the 28th AAAI Conference on Artificial Intelligence (AAAI'14). pp. 180-186.)。
项目完成人张静(排名 4)是唐杰,李涓子共同培养的博士生,在推荐项目中一
起合作发表过多篇论文(Jing Zhang, Jie Tang, Juanzi Li, Yang Liu, and Chunxiao Xing.
Who Influenced You?
Predicting Retweet via Social Influence Locality. ACM Transactions
on Knowledge Discovery from Data (TKDD), Volume 9, Issue 3, 2015, Article No. 25. ),
申请过多项专利(ZL200710117719.3)。
项目完成人茹立云(排名 5)曾就读于清华大学智能技术与系统国家重点实验室,
现任搜狗科技有限公司副总裁,期间与唐杰,李涓子有过多次合作,在推荐项目中与
唐杰有合作论文。
(Bo Wang, Zhaonan Li, Jie Tang, Kuo Zhang, Songcan Chen, and Liyun
Ru. Learning to Advertise:
How many ads are enough?
In Proceedings of the 15th Pacific-
Asia Conference on Knowledge Discovery and Data Mining (PAKDD'11). pp. 506-518.)。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 科技情报 数据 挖掘 服务 平台 剖析
![提示](https://static.bdocx.com/images/bang_tan.gif)