网络海量可视媒体智能处理的理论与方法Word格式.docx
- 文档编号:19250439
- 上传时间:2023-01-04
- 格式:DOCX
- 页数:34
- 大小:95.80KB
网络海量可视媒体智能处理的理论与方法Word格式.docx
《网络海量可视媒体智能处理的理论与方法Word格式.docx》由会员分享,可在线阅读,更多相关《网络海量可视媒体智能处理的理论与方法Word格式.docx(34页珍藏版)》请在冰豆网上搜索。
探索流形结构与学习算法本质的数学描述,提出融合高层结构语义分析的可视媒体机器学习理论与分析方法,研究可视媒体认知原型的可视交互、语义匹配与一致性合成,解决可视媒体符合视觉感知的高效构建问题。
以语义分析为主线,研究可视媒体信息的视觉结构语义分析与动态时空关联分析,实现可视媒体信息的纵向语义分析与挖掘,探索基于多模态信息融合的视觉关联与语义关联之间的转化机制和知识迁移,形成多模态特征级融合模型与归一化语义表示方法,提出多模态融合的网络海量可视媒体关联计算的基础理论、数据组织与挖掘方法,支持海量可视媒体信息的分析整合与有效搜索。
5.2技术途径
本项目的特色是借鉴认知科学的研究成果,以可视媒体的认知计算模型为基础,以分析学习理论为工具,以交互构建和搜索服务为两条主线,支持国家重大需求。
从总的技术思路上,我们将注意以下几个关键环节:
符合认知特性的可视媒体计算理论研究与应用验证平台的研发同步进行。
针对关键科学问题的研究,集中力量重点突破。
同时,要尽早搭建“有数字内容安全保障的可视媒体高效构建与搜索服务的系统原型”,作为理论研究的应用验证,并用于其他课题研究的验证。
理论研究与实践紧密结合。
本项目的特点是,有明确重大需求的驱动,可视媒体的高效处理算法,必须由实践检验其实用性。
算法的实践与应用,可以产生新的思路,从实践中提出新的问题,促进理论研究的深入。
强调不同课题的协同研究,注重项目整体创新。
本项目六个课题的研究内容各有侧重,可视媒体认知计算模型是基础,机器学习方法和语义分析整合是工具,可视媒体安全是保障,构建与交互、搜索与服务面向国家重大共性需求并提供验证手段,从而在整体上构成研究体系。
从具体的单元技术上,将研究内容分为“可视媒体认知计算模型”、“可视媒体结构分析与高效构建”、“可视媒体语义表示与搜索服务”三个方面开展研究和技术创新,既聚焦突破关键科学问题,又直接面向解决国家重大需求。
5.3创新点与可行性
1.创新点
1)可视媒体处理的认知计算模型:
采用心理物理法研究物理变化量与感知、记忆、分类判断绩效的关系,面向海量可视媒体信息,探索高层视觉特性与底层可视媒体特征的关联,基于视觉显著特征感知、自适应的动态记忆系统和视觉分类判断机理建立可视媒体计算模型(PMJ模型),提高海量可视媒体智能处理的效率和准确性。
2)面向可视媒体的大规模并行神经网络计算:
传统的人工神经网络基于少量的神经元模型,与生物视觉感知不符,也不能适应可视媒体智能处理的需求,本项目基于回复式神经网络,建立基于人类神经系统原理的神经计算模型,研究大规模神经网络求解的并行化和集群环境下的数据表达、传输、可扩展性等实际问题,实现机器模拟生物视觉感知信息处理的神经网络计算
3)运动目标时空关联分析及多模态异构可视媒体数据挖掘:
利用大脑对运动的感知机制,基于连续吸引性的运动感知神经计算模型,将运动特征和视觉显著特征引入到跨视域运动目标时空关联分析,建立运动对象关联分析的模型,并研究多模态特征级融合模型与归一化语义表示方法以及面向多模态特征描述对象的相似性度量方法,有望在异构可视媒体数据挖掘方面取得突破。
4)基于结构语义的可视媒体表达与合成:
现有的可视媒体分析与合成方法基本采用底层特征或单个对象,缺乏对高层结构语义的应用。
本项目研究基于统计思想的流形学习与分类,以及内隐特征与结构的流形表达,实现可视媒体海量信息结构提取与存储,结合视觉原型的可视交互与语义提取,实现互联网上可视媒体基于结构语义的表达与合成。
2.研究体系特色
本项目以可视媒体为研究对象,借鉴人类视知觉感知机理和神经元工作机理,以可视媒体认知计算模型、可视媒体结构分析理论与机器学习方法、网络可视媒体交互与合成为主线建立可视媒体内容的构建和呈现研究体系;
以可视媒体认知计算模型、网络可视媒体语义分析与挖掘、网络可视媒体有效搜索与服务为主线构造可视媒体智能服务体系,并通过可视媒体的内容认证、真伪鉴别等的研究为可视媒体提供内容安全保障,形成满足数字内容产业和海量可视媒体搜索及服务等国家重大需求的完整的研究体系。
3.可行性分析
本项目以计算机科学理论为基础,借鉴人脑的组织结构、计算方法及视觉认知等方面的重要研究成果,开展网络海量可视媒体的智能处理理论与方法的研究,研究目标是基于研究队伍对可视媒体智能信息处理和网络技术的长期研究积累和对信息网络战略性新兴产业国家重大需求的高度凝练,按照从重大需求归纳科学问题和关键技术问题、从知识创新(理论研究)到技术创新(技术突破)的思路,分解成六个紧密协作的课题,技术方案各部分已经经过充分预研和技术储备,具有较好的研究成果积累。
5.4课题设置
课题设置的原则是:
理论研究要有新的学术思想、为重大应用需求提供理论基础,应用平台要实现对理论和关键技术的验证。
本项目研究网络海量可视媒体智能处理的理论和方法。
依据以上原则,本项目包括可视媒体的认知计算模型、可视媒体的结构分析与机器学习、网络可视媒体的语义分析与信息整合、网络可视媒体安全、网络可视媒体信息的交互与合成、网络可视媒体的有效搜索与服务六个课题。
课题间的关系如下图所示:
如图所示,项目中六个课题的相互关系总体上可以用三个层次、两条主线、一个保障来概括。
从横向看,可以分为三个层次:
第一课题“可视媒体的认知计算模型”作为底层基础向中间层的第二课题、第三课题及上层的第四、五、六课题提供认知方面的理论和方法;
中间层的第二课题“可视媒体的结构分析与机器学习”和第三课题项目“网络可视媒体的语义分析与信息整合”为上层的第五课题和第六课题提供可视媒体的表达、分析与学习方法;
上层的第五、六课题则在此基础上实现“网络可视媒体信息的交互与合成”和“网络可视媒体的有效搜索与服务”。
从纵向看,可以分为两条主线:
课题一“可视媒体的认知计算模型”课题二“可视媒体的结构分析与机器学习”课题五“网络可视媒体的交互与合成”的主线主要为了满足媒体内容生成的重大需求;
而课题一“可视媒体的认知计算模型”课题三“网络可视媒体的语义分析与信息整合”课题六“网络可视媒体的有效搜索与服务”的主线则主要为了满足网络智能服务;
第四课题“网络可视媒体内容安全”则为各课题提供认证取证、真伪鉴别等可视媒体内容安全的保障。
各课题的名称、主要研究内容和目标、承担单位、课题负责人及经比例如下:
1.可视媒体的认知计算模型
负责人:
傅小兰
承担单位:
中国科学院心理研究所、清华大学、四川大学
主要研究内容:
视知觉认知机理
a.视觉显著特征的感知机理
b.自适应的动态记忆系统
c.视觉分类判断机制
视觉计算模型
a.认知的可计算性
b.认知可计算模型
c.视觉认知负荷的数学模型
神经网络计算
a.学习记忆的神经计算模型
b.面向可视媒体的大规模神经网络计算
研究目标:
提出实现生物感知和人类认知可计算性的认知计算模型,实现机器模拟生物视觉感知信息处理的神经计算工具,为海量可视媒体的表示、分析和智能处理提供符合认知机理的计算模型。
经费预算:
14%
2.可视媒体的结构分析与机器学习
查红彬
北京大学、清华大学、东南大学
可视媒体结构分析计算的基础理论与方法
a.可视媒体信息与结构重建的几何计算
b.可视媒体几何结构分析的基础理论
高维可视媒体数据的本征表达
a.内隐特征与结构的流形表达
b.基于核映射机制的特征提取和表示
可视媒体分析与处理的机器学习方法
a.融合结构语义的海量可视媒体机器学习方法
b.基于流形变换的知识迁移与内容映射
c.基于大规模并行神经网络的深层学习方法
提出可视媒体几何结构分析计算方法,解决可视媒体数据非线性近似表达的问题;
提出保持可视媒体数据内隐特征与结构的流形表达方法,提出融合可视媒体结构语义的机器学习新方法。
15%
3.网络可视媒体的语义分析与信息整合
刘允才
上海交通大学、清华大学、北京交通大学
基于视觉先验的可视媒体结构分析
a.基于视觉先验的可视媒体上下文表达
b.图像与视频内容结构分析
c.鲁棒的多尺度几何结构分析
可视媒体运动目标的语义分析与感知
a.人体运动行为的分析与感知
b.面向行人视觉目标的视觉内容抽取与分析方法
c.集群目标运动语义分析与感知
跨视域多场景视觉信息整合
a.摄像机网络中跨视域时空关联
b.跨视域目标识别与跟踪
c.融合上下文语义的多场景信息整合与事件分析
基于人类视知觉机理,并借鉴神经系统网络的原理,提出可视媒体的信息视觉表达与结构分析方法;
提出可视媒体运动目标的时序分析与感知和跨视域多场景视觉信息整合机制。
18%
4.网络可视媒体安全
黄继武
中山大学、北京交通大学、武汉大学
可视媒体统计特征与质量评价
a.可视媒体统计特性建模
b.网络可视媒体质量评价
网络可视媒体内容认证
a.可视媒体内容合成检测
b.网络可视媒体源辨识
可视媒体内容保护
a.可视媒体数字水印
b.可视媒体的信息隐藏
c.网络环境下可视媒体安全分发
提出网络环境下可视媒体安全的新机制、新方法,包括可视媒体统计特性建模、质量评价、内容认证、信息隐藏和安全分发等。
5.网络可视媒体的交互与合成
胡事民
清华大学、浙江大学、中国科学院软件研究所
面向内容生成的海量可视媒体分类与组织
a.可视媒体内容的分类
b.视频素材的语义过滤
c.面向视频语义的多模态信息组织与资源库构建
面向抽象概念模型的可视分析与交互
a.基于非精确标注的视频语义分析与提取
b.面向高层语义的草图描述与交互
c.基于草图的可视媒体多维度相关性计算与匹配
基于语义的可视媒体一致性编辑与融合
a.基于语义单元的可视媒体编辑
b.场景结构图的构建与表达方法
c.高质量的时空一致性融合
提出基于互联网数据集的可视媒体内容生成与呈现方法,包括面向内容生成的海量可视媒体分类与组织方法,非精确标注与交互的分析与匹配方法,以及基于语义的可视媒体一致性编辑与合成,实现面向内容生成海量网络可视媒体信息的高效利用。
21%
6.网络可视媒体的有效搜索与服务
杨士强
清华大学、东北大学、浙江大学
可视媒体的概念表示与建模
a.基于视觉认知的特征选择
b.基于统计流形学习的概念建模
c.基于互联网大规模资源库的语义标注与扩散
网络可视媒体信息的关联挖掘
a.面向海量可视媒体元数据的复杂实体鉴别及其关联挖掘
b.多模态异构可视媒体数据挖掘
c.网络可视媒体的主题检测与跟踪
网络可视媒体的个性化搜索与服务
a.基于网络群体智能的可视媒体搜索
b.基于用户行为的可视媒体内容推荐
c.基于社会网络传播特性的可视媒体传播与分发
提出复杂网络环境下海量可视媒体信息的高效搜索和个性化推荐服务机制,包括面向网络个性化搜索与智能服务的可视媒体关联挖掘、利用网络环境下的多模态信息及用户群体智能的可视媒体深度关联挖掘。
17%
四、年度计划
研究内容
预期目标
第
一
年
1.研究人脸的感知和识别、简单和复杂物体的多物体追踪;
研究人的视觉信息量的主要影响因素、定量关系和视觉显著特征界定、描述与抽取。
2.分析汉语组织概念和隐喻表达的理解机制,探讨内隐学习中对统计特征和规则的学习机制。
重点研究生物视觉功感知功能和认知功能的建模问题。
通过动物行为学的数据分析,进行基因芯片检测。
3.了解传统的三维场景几何结构重建算法的优点与缺点;
分析二维流形上Voronoidiagram的几何结构并建立显示表达。
4.研究共形映射的能量泛函模型;
研究提取可视媒体数据最佳鉴别特征的度量标准和图像结构语义上下文建模,以及人体姿态运动的流形学习。
5.从深度自然场景中学习三维字典。
研究网络可视媒体场景与事件的统一描述模型,建立人体运动的物理模型。
研究行人检测方法。
研究集群目标的检测方法。
研究跨场景多摄像机时空关联模型。
6.研究不变特征提取及其数学描述方法。
研究上下文情境的描述与操作方法。
研究融合上下文语义的多场景信息整合与事件分析的最新方法。
7.研究数字图像/视频的压缩误差;
分析可视媒体近似拷贝的相似性;
研究由海量网络媒体数据建立内容认证数据库的有效方法;
构造网络环境下的系统实验环境。
8.研究抗几何变换的数字水印;
研究可视媒体特征域有效进行正交分解的变换方法和不同工作域的融合性;
研究同态加密域数字水印嵌入方法。
9.研究网络环境下海量图像和视频数据的内容检索和分类算法;
研究海量素材环境下的内容严格过滤和前景对象提取算法。
10.研究非精确草图视频批注方法;
研究自上而下的草图在线分解与自下而上的场景层次匹配方法;
研究图像与视频的色彩、色调一致性融合算法、图像与视频的整体和局部性融合算法
11.研究视觉认知系统与建模;
研究有效、鲁棒的可视媒体不变性视觉特征;
研究多模态对象预处理技术以及多模态特征融合方法及模型;
12.研究海量网络可视媒体数据的主题检测与跟踪技术;
研究面向主题的网络可视媒体信息用户偏好模式挖掘;
研究网络可视社区媒体中的多维多尺度用户关系亲密度度量。
1.揭示影响人脸感知和识别的因素和规律;
揭示工作记忆中物体表征的复杂性及其与注意容量的关系。
建立对人的视觉信息量的定量描述和公式。
揭示高层与低层可视媒体特征的关联性。
2.揭示不同领域语义知识之间建立映射和加工机制。
揭示对视觉信息的编码和存贮特点。
建立起一系列模拟人类视觉感知功能的神经计算模型。
3.初步实现传统的三维场景几何结构重建算法;
了解精确测地线度量对流形上Voronoidiagram的影响及相关作用。
4.初步建立共形映射的能量泛函模型;
建立高斯混合模型下的多类贝叶斯错误率上界,建立提取可视媒体数据最佳判别特征的度量标准;
提出求解联合正交变换的算法。
初步建立图像结构语义的上下文模型,实现人体姿态运动的高维到低维流形映射。
5.获得深度自然场景的三维字典模型。
实现可视媒体视觉感受和时序运动的一致分析。
提出具有嵌入无关特点的内蕴不变量。
完成人体运动的物理模型。
6.提出若干行人检测新算法,实现究集群目标的检测算法。
提出跨场景多摄像机时空关联拓扑模型。
提出上下文情境的描述与存储模型。
实现多场景信息整合与事件分析算法。
7.初步建立起大规模原始图像/视频库;
建立由于图像/视频压缩误差引入的固有统计特征;
提出衡量相似性的度量准则;
分析和建立可视媒体内容合成的统计特征;
8.提出新的抗几何变换的鲁棒数字水印算法;
提出基于可视媒体特征的加密工作域和指纹工作域的正交变换算法;
实现同态加密域数字水印的嵌入和提取。
9.实现网络海量图像和视频数据的有效检索和分类,支持海量可视媒体的有效组织;
提出基于草图交互和互联网内容过滤的图像与视频提取算法
10.提出对可视媒体非精确标注的静态和动态批注方法;
给出基于草图的视频内容相似计算算法;
实现图像与视频融合,满足局部光滑过渡的图像与视频一致性融合
11.深入理解视觉认知的基本原理,实现一种有效、鲁棒的可视媒体不变性视觉特征。
建立多模态特征融合模型,并提出基于数学方法和数据挖掘技术的有效的高维特征降维方法;
12.提出基于流形技术的标注扩充及去噪方法和基于标注信息的可视媒体主题检测方案;
提出用户偏好模型、社区媒体中用户关系的多维多尺度的合理度量方法及其评测标准。
二
1.建立自然概念和语义特征的数据库,研究语义一致性对场景识别和记忆的影响,并考察在内隐学习中的作用;
研究人的视觉的加工速度和加工特点。
2.定义视觉显著特征抽取、特征存储和分类判断三过程的数学描述;
研究神经计算模型相关的多稳定性、完全收敛性、连续吸引性、容许与禁止集的相关条件。
3.研究三维场景几何结构的监督学习。
研究基于最佳鉴别标准的可视媒体数据特征提取方法;
借助核映射机制,研究非线性最佳鉴别特征的度量标准及特征提取方法。
4.图像结构语义上下文模型的求解算法;
人体姿态运动流形变换;
基于深层神经网络学习算法的结构关系。
5.设计视觉刺激,并记录神经元在刺激下的响应。
研究视频分割方法、图像修补及场景与事件的描述模型。
研究和分析数字几何的整体拓扑结构。
6.建立人体运动的统计模型,建立人体运动库。
研究行人检测、跟踪及姿态估计方法。
研究多摄像机网络时空关联模型自学习算法。
研究动态人体不变特征提取及数学描述方法。
研究网络可视媒体的统一描述模型。
7.研究可视媒体统计特征选择;
研究网络盗版产生的近似拷贝与原始版本的关系;
研究内容篡改检测算法;
对各类图像源的图像统计特性进行研究并建模;
8.研究几何不变空间映射方法;
研究自适应隐写方法;
研究同态加密算法的代数性质;
分析可视媒体内容分发的网络环境特征和安全需求。
9.研究基于网络海量图像和视频的人体内容检测、行为动作和服饰姿态分析与组织,构建网络人像数据库;
研究草图描述方法;
研究海量原始媒体数据的可视形态
10.研究视频的色彩、色调一致性融合算法;
视频的整体和局部性融合算法;
研究可视媒体合成质量评价方法
11.研究稀疏概念建模;
研究半监督学习模型;
研究多模态数据对象的相似性度量方法及多模态数据初步挖掘算法;
研究面向海量网络可视媒体标注数据的实体鉴别及索引技术;
12.研究即敲即得式信息检索机制;
研究基于偏好模型的社区媒体用户群分类;
研究面向社区用户群的可视媒体信息质量联合评估。
1.揭示长时记忆中语义知识存储和组织的规律;
揭示高级语义的作用。
揭示刺激的特征类型在内隐学习中的作用。
2.量化感知、自适应的动态记忆系统和视觉分类判断的机理,为新建和完善神经计算模型建立较为完整的理论体系,并构建关键基因的信号通路。
3.初步实现三维场景几何结构的监督学习算法。
初步实现共形映射能量泛函模型的推导和求解;
提出基于最小贝叶斯错误率的异方差判别分析新理论及优化求解算法;
建立异方差核鉴别分析的理论和求解算法。
4.初步实现上下文模型的求解算法;
提出人体姿态运动的流形变换算法;
提出深层神经网络的实用训练方法。
5.收集充足的实验数,获得视觉神经元的刺激下响应。
实现相应的图像分割、修补算法及描述方法。
提出三维几何整体拓扑结构分析方法。
6.完成人体运动统计模型的建模,建成人体运动库。
提出行人检测、跟踪及姿态估计新方法,实现集群目标中的颗粒目标检测与跟踪。
提出时空关联模型自学习算法;
提出场景与事件的统一描述模型;
提出非确定的上下文情境描述模型。
7.提出常见的媒体统计特征;
提出近似拷贝的鲁棒特征;
建立自动内容篡改检测系统;
建立基于统计特性的模型库,以判断待辨识图像的设备来源;
8.研究和开发数字媒体水印新算法;
提出新的自适应信息隐藏算法,实现同态加密域DFT变换。
9.实现人像数据库构建;
提出视频高层语义的草图表示方法,;
提出同时观察焦点信息与相关上下文信息的视频可视
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 海量 可视 媒体 智能 处理 理论 方法