成果名称 ---【 非结构化信息(图像)的内容理解与语义表征 】

基本信息
所属机构
中国科学院计算技术研究所
立项名称
非结构化信息(图像)的内容理解与语义表征
主题词
图像理解;视频监控;推理引擎
研究起止时间
2007.01 至2011.08
软件登记号
2007SR17047
成果公报内容
课题发表学术著作8本,学术论文197篇,其中SCI索引的论文32篇, EI索引的论文166篇。论文发表在著名国际刊物IEEE Transaction on Knowledge and Data Engineering、IEEE Transaction on SMC、Pattern Recognition Letter、Journal of Visual Communication and Image Representation、Multimedia Tools and Applications、Information Science等,以及在高水平的国际人工智能联合会议(IJCAI)、美国人工智能国际会议(AAAI)、IAPR模式识别国际会议(ICPR)、IAPR文档分析与理解国际会议(ICDAR), IEEE图像处理国际会议(ICIP)、ACM多媒体国际会议(ICMM)、CIKM、KDD、等重要学术会议上均有论文发表。 课题获得发明专利授权14项, 申请5项。软件著作权5项。研究成果获得了国家科技进步二等奖一项、教育部科学技术进步奖二等奖一项、北京市科学技术奖二等奖一项。 课题在下列研究内容上取得创新成果: 一、非结构化信息的语义表征和描述模型 语义表征是语义理解的基础,决定着语义理解的广度、深度和易用程度。我们对划分熵的不等式定义进行了理论分析,提出了一种新的条件熵定义;我们提出了信息模式测度理论,拓宽了信息模式相似性测度的研究领域;提出语义关联模型SAM; 提出相容粒度空间模型,描述视频图像信息感知过程。 (一)非结构化信息概念语义空间模型 (1)信息熵理论 度量有限集合划分的不确定性和不纯度的划分,熵是认知和计算机科学的重要概念。我们对划分熵的不等式定义进行了理论分析,提出了一种新的条件熵。我们用一系列不等式假定和对称性、可扩充性来刻画划分熵。由于条件熵可定义于划分熵之上,则条件熵所需满足的性质实际是对划分熵的额外限制。形式化了条件熵的单调性性质,并将其引入划分熵的更严格的定义,并给出新定义的划分熵的检验定理。这些定理揭示了隐藏于划分熵和条件熵直观理解背后的数学本质。 在现有模式测度理论基础上,基于信息理论,提出了对称交互熵(SCE)、关联信息系数(RIC)、离散量(DC)、对称模糊交互熵(SFCE)等基本概念,以此为基础,建立了交互距离测度(CDM)、关联信息测度(AIM)、信息距离测度(IDM)、信息增量测度(MID)以及模糊交互熵测度(FCEM)等理论。所有这些理论与方法,拓宽了信息模式相似性测度的研究领域。 代表论文: [1]Ping Luo, Hui Xiong, Guoxing Zhan, Junjie Wu, Zhongzhi Shi. Information-Theoretic Distance Measures for Clustering Validation: Generalization and Normalization. IEEE Transactions on Knowledge and Data Engineering,21(9): 1249-1262, 2009 (SCI、EI). [2]Ping Luo, Guoxing Zhan, Qing He, Zhongzhi Shi, and Kevin Lü. On Defining Partition Entropy by Inequalities, IEEE TRANSACTIONS ON INFORMATION THEORY, VOL. 53, NO. 9, SEPTEMBER 2007, 3233-3239. (2)语义关联模型SAM 在潜在语义索引(LSI)模型的基础上提出语义关联模型(Semantic Association Model),通过引入词典、本体和大众分类法中的明确的语义单元,将LSI 的潜在语义空间中的语义明确地表示出来,构造明确的语义空间,以支持对语义的管理和应用。融合现有Web和Web 2.0中的多种语义模型,支持异构的非结构化信息之间的语义互操作,包括LSI、词典、分类法、本体和基于本体的语义标注、以及大众分类法和基于大众分类法的社会标注。语义关联模型SAM建立在现有语义模型基础之上,可以表达不同语义之间及其与文本之间的语义关联,从而支持对异构语义信息和语义知识的管理,以及在语义层面同时处理拥有语义标注的Web信息和没有语义标注的Web信息。 代表论文: [1]Rui Huang, Zhongzhi Shi. Multi-Agent Based Web Search with Heterogeneous Semantics.In Proceedings of PRIMA2007, 2007, v5044,LNCS. Bangkok. [2]Kun Yang, Zhongzhi Shi: An Ontology-Based Semantic Web Service Space Organization and Management Model. KSEM 2010: 543-548. (3)扩展的RDF模型 为了表示非结构化信息的语义信息,我们将基本的RDF模型扩展为五元组< S, P, O, NG, T>,其中,S表示主体(Subject),P表示谓词(Predicate),O表示客体(Object),NG表示命名图(named graph) ,T表示时间。在基本的RDF表示方法中,使用资源来表示个体,使用称之为断言的三元组(主体,谓词,客体),来表示资源之间的关系。利用命名图(named graph)来标识RDF图中来自不同数据源的节点。根据Allen's Interval Algebra,定义两个客体在不同时间段的关系。 (4)扩展的动态描述逻辑EDDL 我们提出了动态描述逻辑DDL。为了进一步增强动态描述逻辑中对动作的描述和推理能力,将动作构造符Kleene star引入动态描述逻辑,使得在动态描述逻辑中可以刻画动作的任意次迭代执行,进而可以对while、repeat等复杂的控制结构进行刻画和推理。设计了适用于开放环境的基于tableau的判定算法;应用该算法,可以在信息不完全的情况下对静态的知识、关于动作的知识、以及具有动态内涵的知识进行推理。 实现开放环境中允许局部闭世界假设下的动态推理,从而改进了现有描述逻辑开放世界语义。此外,认知符号的引入,也使得该形式系统具有自省性,支持对知识库内容的推理,为刻画Web环境中具有部分完全知识的主体提供了一种语言。 代表论文: [1]Limin Chen, Zhongzhi Shi. A Behavior Strategy for Agents in the Semantic Web Using Dynamic Description Logics. Information-An International Journal,(accepted, SCI-E)2011 [2]Chen Limin, Hu hong, Shi Zhong-Zhi. Reasoning about Web Services with Local Closed World Assumption. Web Intelligence, 2009. [3]史忠植, 常亮. 基于动态描述逻辑的语义Web服务推理. 计算机学报, 31(9): 1599-1611, 2008. (EI) (二)相容粒度空间模型 提出相容粒度空间模型,该模型是基于相容关系构建的粒度计算模型,它由四个部分组成:对象集系统,相容关系系统,转换函数和嵌套覆盖系统,主要特点在于对粒的定义以及通过粒度空间的层次嵌套结构进行问题求解的方法。在本部分工作中,我们主要研究了相容粒的定义、关系及其合成和分解技术,以及相容粒度空间形式化模型、构建方法和模型的主要特点等。相容粒度空间模型是目前国际上重要的粒度计算模型之一。2007年出版的《粒计算:过去、现在与展望》一书第3章:"相容粒度空间模型及其应用研究"介绍该模型。史忠植应邀在2008 IEEE GrC国际会议上作主题报告。在相容粒度空间模型的基础上,研究复杂环境中信息粒度化采样、基于粒度系统的感知过程中模式辨识的信息变换, 建立了感知信息粒度计算模型。该模型已应用在信息分类、双层决策模型、图像处理、故障诊断等方面。 代表论文: [1]Meng Zuqiang, Shi Zhongzhi. A fast approach to attribute reduction in incomplete decision systems with tolerance relation-based rough sets. Information Sciences, 179(16): 2774-2793, 2009 (SCI、EI). [2]Niu, Wenjia; Li, Gang; Zhao, Zhijun; Tang, Hui; Shi, Zhongzhi. Multi-granularity context model for dynamic Web service composition, Journal of Network and Computer Applications, 34(1): 312-326, January 2011(SCI、EI). [3]Zhongzhi Shi. Nonstructured Information Retrieval based on Tolerance Granular Space Model. Keynote Speaker, IEEE GrC 08, Aug. 25-28, 2008. (EI源) 二、基于认知的图像特征提取和语义理解 (一)提出了心智模型CAM 提出了心智模型CAM。该模型在意识的控制下不仅能处理基于语义记忆的信息, 而且能处理基于情景记忆的信息。利用动态描述逻辑表示和处理语义记忆的信息,利用基于案例的推理和特征捆绑模型处理情景记忆的信息。在此基础上,提出图像语义理解的新思路。 代表论文: [1]Zhongzhi Shi. AGI Research Progress in Intelligence Science Lab at Chinese Academy of Sciences. Keynotes Speaker, The Fourth Conference on Artificial General Intelligence (AGI2011) , Mountain View, USA, 2011. [2]Zhongzhi Shi. Image Semantic Analysis and Understanding. Keynotes speaker, Intelligent Information Processing 2010: 4-5, Manchester, UK. [3]Zhongzhi Shi. A Mind Model CAM: Consciousness and Memory Model. Intelligence Science. Keynotes speaker, Cognitive Science and Information Sciences,The 7th International Conference on Cognitive Science, Aug. 17-20, 2010, Beijing, China. [4]Xiaofeng Wang, Liang Chang, Zhongzhi Shi. A Dynamic Description Logic based System for Video Event Detection. Frontiers of Electrical and Electronic Engineering in China, 5(2): 137-142, 2010 (二)提出了特征捆绑的计算模型 通过将Eckhorn的Linking Field Network模型与噪声神经元模型的思想和贝叶斯方法相结合,并引入竞争机制,我们提出一个特征捆绑的计算模型 Bayesian Linking Field Network模型。通过利用该模型对一个视觉感知实例的感知过程的模拟,我们证实了该模型能够在完成感知任务的同时实现了感知对象的特征捆绑,很好地解决了当感知场景对应于多种特征捆绑方案时的方案选择问题。 代表论文: [1]Xishun Wang, Xi Liu, Zhongzhi Shi and Honjian Sui "A feature binding computational model for multi-class object categorization and recognition" Accepted by Neural Computing and Applications(SCI检索). Online published by Springer. [2]Zhiwei Shi, Hong Hu and Zhongzhi Shi. A Computational Cognitive Model for the Brain. Int'l Journal of Cognitive Informatics and Natural Intelligence, 2(4), 85-99, 2008. [3]Zhiwei Shi, Zhongzhi Shi and Hong Hu. A Novel Plausible Model for Visual Perception. Int'l Journal of Cognitive Informatics and Natural Intelligence, 2(1), 44-57, 2008 (三)视频图像信息的语义生成和自动标注 图像理解是一个高层的感知任务,其内容具有模糊性、复杂性、抽象性等特点,需要利用高层语义对图像的抽象属性进行描述。图像语义大致可分为特征语义、对象语义、场景语义、行为语义和情感语义等,用以对不同层次的图像内容进行描述。怎样从低级视觉特征映射到高级语义是重要的科学问题。 为了准确地对训练图像数据建模, 我们提出了图像自动标注PLSA-FUSION方法、连续视觉特征的图像语义标注模型GM-PLSA、混合生成式和判别式模型的图像语义标注方法HGDM;我们提出了一种拓扑排序分类器链方法来对多标签图像分类;提出了一种结合外观及空域特征的半监督物体识别方法。 (1)图像自动标注PLSA-FUSION方法 为了更准确地对训练图像数据建模,将每幅图像的视觉特征表示为一个"视觉词袋";然后设计一个概率模型分别从视觉模态和文本模态中捕获潜在语义主题,并提出一个自适应的不对称学习方法融合两种语义主题。对于每个图像文档,它在各个模态上的主题分布通过加权进行融合,而权值由该文档的视觉词分布的熵值确定。融合语义主题的图像概率模型能很好地关联视觉模态和文本模态的信息,故能准确地预测未知图像的语义标注。实验结果表明,PLSA-FUSION比几种前沿的图像自动标注方法具有更好的标注和检索性能。 (2)连续视觉特征的图像语义标注模型GM-PLSA 为了根据不同模态数据各自的特点而对其分别进行处理,提出了建模连续视觉特征的图像语义标注模型GM-PLSA。该模型采用连续PLSA建模图像的视觉特征,采用传统的PLSA建模文本关键词,通过共享相同的潜在主题分布进行关联。由于GM-PLSA结合连续PLSA和传统PLSA建模图像训练集的视觉和文本信息,并采用不对称学习方法估计模型参数,故能更准确地获取未知图像的语义信息。 (3)混合生成式和判别式模型的图像语义标注方法HGDM 为克服训练图像关键词较少的问题,提出混合生成式和判别式模型的图像语义标注方法HGDM。该模型采用连续PLSA建模图像特征,并利用图像的主题分布作为一个中间表示向量,于是图像标注问题可以转化为一个多标记学习(multi-label learning, MLL)的问题。HGDM使用集群分类器链的方法进行多标记学习,在构造一个集群分类器链的过程中能同时学习标记之间的关联信息。于是,HGDM能获取各个语义关键词在每幅未知图像中的置信度。HGDM同时具有生成式模型和判别式模型的优点,标注和检索精度高且具有可扩展性。图像语义表征 (4)多标记图像分类 多标记图像分类旨在对图像进行分类预测,输出多个可能的标签。通过挖掘类与类之间的关联以及不同图像之间的相似度,以克服当前物体识别方法的一些不足,从而实现多标记图像分类。 我们提出了一种拓扑排序分类器链方法来学习多标签图像。首先,我们根据先验的标签之间的相关联强度建立一个标签链接有向图;然后,利用有向图的拓扑排序方法对标签链接有向图进行排序得到若干具有拓扑序的标签链;最后借助于分类器链方法构建一组链分类器对图像进行多标签分类。我们在Corel数据集和Pascal数据集上实验,得到令人满意的结果。 (5)外观及空域特征相结合的半监督物体识别方法 在外观及空域特征相结合的半监督物体识别方法中,将一种外观特征一阶特征和一种空域特征二阶特征融合到协同推举CoBoost算法中以从噪声图像中学习物体类别。一阶特征表征物体外观,二阶特征表征物体局部之间的空域关系,它们相互互补且近似独立,因此能很好的表征物体。方法主要有两个特点:(a) 本方法很好地利用CoBoost算法的理论框架以及一阶、二阶特征的丰富的表征能力;(b) Boosting框架具有特征选择的能力,因此能选择出最具分辨能力的一阶和二阶特征。此外,针对高维的二阶特征,它们是基于选择出来的一阶特征动态生成的,从而避免高维特征所带来的巨大计算量和存储量。 (6)基于结构相似度的稀疏编码模型 提出了基于结构相似度的稀疏编码模型SS_SC。SS_SC模型探索了什么信息应该被编码的问题,也就是What-问题。针对误差平方和评价图像感知质量的局限性,为了更好地保持原图像中的结构信息,我们引入了结构相似度图像质量评价方法,结合标准稀疏编码的约束条件形成新的代价函数,通过训练学习后得到结构信息保持性能良好的编码结构;通过图像特征提取和图像重构的实验,我们验证了结构相似度稀疏编码模型更好地反映了生物视觉系统特性。 (7)从图像中同时提取多条目标曲线 在继承传统蚁群算法状态转移规则、信息素更新规则的基础上,特别针对曲线提取问题设计了搜索终止函数和路径翻转算子。所提出的方法能够有效地从充斥噪声的二值图像中提取出含有断点的非参数目标曲线。在此基础上对算法进行了进一步扩展,能够从图像中同时提取出多条目标曲线。 实验结果表明我们的方法得到了很好的提取效果,而且优越于所比较的算法。更为重要的是,这样的提取方法打破了传统经典算法--Hough变换算法,需要预知曲线形状或曲线方程的约束,扩展了算法的实际应用范围。该项成果发表在人工智能领域顶级国际会议AAAI2010。 (8)感知数据挖掘算法 提出了基于超曲面的分类学习算法(hyper surface classification, HSC)、聚类和样本选择方法。基于超曲面分类法发展出了基于超曲面的聚类算法、分类规则提取算法、孤立点发现算法以及相应的并行分类算法,还提出了极小样本集抽样方法用于基于超曲面分类算法,并以极小样本集作为代表子集在理论上指出了极小样本集有多少种表达方式,给出了样本缺失情况下准确率的精确估计,还对算法复杂度进行了详细分析。我们还将最小支撑树与超曲面相结合提出了基于超曲面的聚类算法。 分析了基于摄动的模糊聚类方法(Fuzzy Clustering Method Based on Perturbation,简称FCMBP),指出指数复杂度的遍历过程是目前PC计算环境下难以处理十阶以上较高阶数模糊相似矩阵的原因。把寻求具有最小"失真"的最优模糊等价矩阵看作优化问题来求解,提出了一种基于进化规划的FCMBP模糊聚类改进方法。与FCMBP相比,该方法通过引入基于进化规划的优化技术避免了遍历过程,使其能够对高阶模糊相似矩阵进行处理。得到的等价矩阵"失真"小于传递闭包法所得结果,从而获得更为精确可靠的聚类效果,将FCMBP模糊聚类方法推广到能够处理高阶模糊相似矩阵的情形,满足应用需要。该项成果发表在国际刊物IJCMA。 现有的对多模型合并问题的研究,主要集中于多个分类模型的合并或多个聚类模型的合并。随着研究的进展,人们发现在进行分类模型合并的时候包含聚类模型的信息往往能得到很好的效果,但是,在此基础上开发的算法往往都需要访问原始数据集,这在一些涉及隐私控制的领域难以应用。为此,研究了如何在输出层面上对多个分类模型和聚类模型进行合并的问题,针对多模型合并问题提出了基于概率潜在语义分析(PLSA)模型的合并算法和无约束概率嵌入(Unconstrained Probabilistic Embedding)算法UPE。前者将数据对象看作是文档,将分类模型产生的类别(class)和聚类模型产生的划分(cluster)看做是单词,应用PLSA对模型进行训练,根据得到的条件概率――在特定文档下生成单词的概率进行分类。UPE算法假设每一个对象和类别/划分都可以嵌入到一个D维的欧式空间中,将嵌入空间到多个模型产生的结果间的映射看做是一个概率生成模型,嵌入空间中的坐标通过拟牛顿法求得,然后根据对象和类别在嵌入空间中的距离进行分类。 代表论文: [1]Li Zhixin, Shi Zhiping, Liu Xi, Li Zhiqing, Shi Zhongzhi. Fusing semantic aspects for image annotation and retrieval. Journal of Visual Communication and Image Representation, 21(8): 798-805, 2010. [2]Xi Liu, Zhiping Shi, Zhixin Li, Xishun Wang, Zhongzhi Shi. Sorted label classifier chains for learning images with multi-label. ACM Multimedia 2010: 951-954 [3]Li Zhixin, Shi Zhiping, Liu Xi, Shi Zhongzhi. Modeling continuous visual features for semantic image annotation and retrieval. Pattern Recognition Letters, accepted, 2010. [4]Qing Tan, Qing He, Zhongzhi Shi. Nonparametric Curve Extraction Based on Ant Colony System, Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10), pp.599-604, July 10-15, 2010, Atlanta, USA. (EI) [5]He Qing, Zhao Xiurong, Shi Zhongzhi. Minimal consistent subset for Hyper Surface Classification method. International Jounal of Pattern Recognition and Artificial Intelligence, 2008, 22(1): 95-108. [6]Qing He, Weizhong Zhao, Zhongzhi Shi: CHSMST: a clustering algorithm based on hyper surface and minimum spanning tree. Soft Comput. 15(6): 1097-1103 (2011) [7]Qing Tan, Qing He, Weizhong Zhao, Zhongzhi Shi, An Improved FCMBP Fuzzy Clustering Method based on Evolutionary Programming, Computers and Mathematics with Applications 61 (2011) 1129-1144. [8]Ping Luo, Fen Lin, Yuhong Xiong, Yong Zhao, Zhongzhi Shi Towards Combining Web Classification and Web Information Extraction: a Case Study, KDD'09, June 28-July 1, 2009, Paris, France [9]Ma Xudong, Luo Ping, Zhuang Fuzhen, He Qing, Shi Zhongzhi, Shen Zhiyong. Combining Supervised and Unsupervised Models via Unconstrained Probabilistic Embedding [C]. In: Proceedings of the 22nd International Joint Conferences on Artificial Intelligence (IJCAI'11), 2011. (EI) (四)非结构化信息分类中的迁移学习 课题组在非结构化信息分类中的迁移学习问题进行了深入研究,取得一系列突出的创新成果,在数据挖掘和机器学习领域国际一流学术刊物和高水平的国际会议上发表系列论文。主要研究成果包括:首先,提出基于混合正则化的无标签跨领域归纳迁移学习方法,该方法加入类别先验提高了算法的性能;第二,提出基于一致性正则化的多源跨领域学习框架,并从理论上证明了其有效性,该项工作发表在IEEETKDE2010,被他引9 次;第三,提出一种有效挖掘词特征聚类与文档类别关联关系的迁移学习算法,该项工作在SDM2010上被推荐为大会12 篇最佳论文提名之一。最后提出基于生成模型的挖掘多领域之间共性与特性的跨领域分类方法,能够有效地发现领域之间的共性和特性,该工作发表在CIKM2010,且被推荐为大会8篇最佳论文提名之一,其扩展工作已被IEEETKDE录用。取得的具体成果内容如下: (1)提出基于混合正则化的无标签领域归纳迁移学习方法 该方法解决目标领域无标签数据以及源领域数据是不同分布的分类问题,且建立一个归纳分类模型对新来的目标数据进行预测。研究学习了几种半监督学习技术,并把它们应用到迁移学习中,提出一种基于混合正则化框架的归纳迁移学习算法。其中包括目标领域分布结构的流形正则化,预测概率的熵正则化,以及类别比例的期望正则化。这个框架被用于从源领域到目标领域学习的归纳模型中。实验表明,加入类别先验可以避免类别比例漂移问题,其提高算法的准确率,且我们提出的算法比所比较的算法优越。 (2)提出一种有效挖掘词特征聚类与文档类别关联关系的迁移学习算法 跨领域分类学习的目标是在源领域数据与目标领域数据具有不同数据分布的情况下,把从有标签源领域学习到的知识适应到无标签目标领域中。我们发现,虽然在原始词特征上,源领域与目标领域的数据分布不同,但是不同领域词特征聚类(词概念)与文档类别之间的关联关系可能是一样的。因此,开发可以这种与领域独立的关联关系,并且作为源领域与目标领域之间知识迁移的桥梁。即我们提出了同时分解源领域与目标领域数据矩阵的联合优化框架,其中共享词特征聚类(词概念)与文档类别之间的关联关系。为了求解该优化框架,我们提出一个迭代算法,并从理论上分析了其收敛性。实验结果表明本文提出的算法,a) 可以很好地解决迁移学习问题,并且优越于所有比较的算法。b) 更能处理学习问题较难的情况,具有更强的迁移学习能力。 (3)提出基于一致性正则化的多源跨领域学习框架 在该框架下,局部的子分类器不仅考虑了在源领域上的可利用的局部数据,而且考虑了这些由源领域知识得到的子分类器在目标领域上的预测的一致性。更进一步,我们理论上分析了一致性正则化的有效性。最后,为了处理各个源领域数据在地理上分布的情况,提出了一致性正则化的分布式实现,可避免收集各个领域数据到中心节点,而只是传递一些统计变量,一定程度上减轻了数据信息的隐私性担忧。在实验中,我们a) 验证了一致性正则化方法的有效性;b) 分析了一致性正则化方法可以提高分类性能的来源;c) 考察了算法的收敛性等。 (4)给出基于生成模型的挖掘多领域共性与特性的跨领域分类方法 从生成模型的角度研究多领域学习,有效挖掘多领域间的共性与特性。区别于概率隐性语义分析模型(PLSA),只有一个隐性变量,我们提出的CD-PLSA 模型有两个隐性变量y 和z,分别表示词特征概念和文档类别。不同领域间的共性把它们的特性联系起来,并且作为知识迁移的桥梁。提出一个EM 算法来求解CD-PLSA 模型,并实现了处理领域数据分布在不同节点的分布式算法。实验结果表明CD-PLSA 算法优于所有比较的算法,且具有较强的迁移学习能力,可以处理迁移学习比较难的分类问题。还有可以同时处理多源领域与目标领域的分类问题。 (5)系统地对提出的几种多源领域跨领域学习算法进行比较 首先扩展基于非负矩阵的跨领域方法MTrick,使之能同时处理多源领域。然后,对CD-PLSA 方法进行改进。实验表明多种多源跨领域学习算法各有优缺点,但都比传统监督学习算法性能优越。本文提出的多源领域学习算法也比以往的跨领域学习算法CoCC,LWE 表现得好,且能处理迁移学习问题比较难的情况,具有较强的迁移学习能力。对迁移学习中文本分类算法进行了深入研究。对所提出的算法都给出了详细的算法思想,并给出了详细的算法流程,最后都用系统、丰富的实验验证了所提出算法的有效性。 代表论文: [1]Zhuang Fuzhen, Luo Ping, Xiong Hui, Xiong Yuhong, He Qing, Shi Zhongzhi. Cross-domain Learning from Multiple Sources: A Consensus Regularization Perspective [J].IEEE Transactions on Knowledge and Data Engineering (TKDE), 2010, 22(12): 1664-1678. (impact factor (2009): 2.285) (SCI, EI ) [2]Zhuang Fuzhen, Luo Ping, Shen Zhiyong, Xiong Yuhong, He Qing, Shi Zhongzhi, Xiong Hui. Mining Distinction and Commonality across Multiple Domains using Generative Model for Text Classification [J]. IEEE Transactions on Knowledge and Data Engineering (TKDE), 2011, Accepted. (SCI, EI Source) [3]Fuzhen Zhuang, Ping Luo, Qing He, Zhongzhi Shi. Inductive Transfer Learning for Unlabeled Target-domain via Hybrid Regularization [J]. Chinese Science Bulletin, 2009, 54(14): 2470-2478. (impact factor (2009): 0.917) (SCI) [4]Zhuang Fuzhen, Luo Ping, Shen Zhiyong, He Qing, Xiong Yuhong, Shi Zhongzhi, Xiong Hui. Collaborative Dual-PLSA: Mining Distinction and Commonality across Multiple Domains for Text Classification [C]. In: Proceedings of the ACM 19th Conference on Information and Knowledge Management (CIKM'10). 2010: 359-368. (among the 8 best paper candidates, student travel award) (EI) [5]Zhuang Fuzhen, Luo Ping, Shen Zhiyong, He Qing, Xiong Yuhong, Shi Zhongzhi. D-LDA: A Topic Modeling Approach without Constraint Generation for Semi-Defined Classification [C]. In: Proceedings of the 10th IEEE International Conference on Data Mining (ICDM'10). 2010: 709-718. (EI) [6]Zhuang Fuzhen, Luo Ping, Xiong Hui, He Qing, Xiong Yuhong, Shi Zhongzhi. Exploiting Associations between Word Clusters and Document Classes for Cross-domain Text Categorization [C]. In: Proceedings of the SIAM International Conference on Data Mining (SDM'10). 2010: 13-24. (among the 12 best paper candidates) (EI Source) [7]Luo Ping, Zhuang Fuzhen, Xiong Hui, Xiong Yuhong, He Qing. Transfer Learning From Multiple Source Domains via Consensus Regularization [C]. In: Proceedings of the ACM 17th Conference on Information and Knowledge Management (CIKM'08), 2008: 103-112.(EI) 三、非结构化信息的快速检索技术 本课题在非结构化信息的快速检索技术方面取得重要进展,包括图像语义自动标注、基于子镜头关键帧序列查询的视频片段检索方法、网络新闻内容热点话题提取模型和自动摘要生成、跨媒体检索与本体知识管理密切结合等都取得了创新的成果。在此基础上,研制了跨媒体智能检索系统CMIRS(Cross-Media Intelligent Retrieval System), 并得到初步应用。 (一)图像语义自动标注 本课题重点研究基于语义的非结构化信息的快速检索技术,提出了图像语义自动标注方法:图像自动标注PLSA-FUSION方法、连续视觉特征的图像语义标注模型GM-PLSA、混合生成式和判别式模型的图像语义标注方法HGDM;拓扑排序分类器链方法来对多标签图像分类;结合外观及空域特征的半监督物体识别方法等。 (二)基于子镜头关键帧序列查询的视频片段检索方法 视频片段首先分割为内容一致的子镜头,子镜头用关键帧表示。对查询片段的每个子镜头查询相似的视频库子镜头,视频库子镜头依照时间连续性融合为视频片段,视频片段的相似性以子镜头的相似性为基础,并受到顺序因子、粒度因子、干扰因子等的影响,我们提出了快速的相似计算模型。 代表论文: [1]Zhiping Shi, Qing He, Zhongzhi Shi. An Index and Retrieval Framework Integrating Perceptive Features and Semantics for Multimedia Database. Multimedia Tools and Application(2009) 42:207-231 Springer (SCI) . (三)网络新闻内容热点话题提取模型和自动摘要 以突发与时序特征为基础的新闻信息提取,提出了一种基于时序窗口的动态热点话题提取模型。该模型整合了热点话题的两个特点。一方面关注主题词在新闻文本中的广泛性,衡量标准为多频道播报特征项的频率综合,词频越高其广泛性越高;另一方面考虑新闻流主题词的突发性,表现为特定时间段内主题词出现频率显著异常于其它时间段。按照时间顺序将报道排序并按照一定的时间间隔将报道分成若干组。将频繁出现的特征主题词与具有突发性的特征主题词结合作为模型构建的基础。 以基于回归的自动摘要技术为基础,采用线性回归和ELM回归,对从文章中提取的特征进行训练,包括:熵、相关度、句子位置、句子长度、句子的似然值、句子主题词个数、句子中低频词的个数、句子中2项关键词个数以及句子和其它句子共有的词数。特别地,熵和相关度是我们抽取的两组用以定义句子的信息量和与其它句子关系的特征。这两个特征分别从句子自身的重要性角度以及句子之间重要性角度对句子进行评价,通过不同的回归方法对这两组特征进行权衡。实验结果表明,我们提取的两组特征有助于提高生成摘要的质量,优质摘要是熵和相关度的完美权衡。 代表论文: [1]马慧芳,尹旻,何清,史忠植. 一种基于时序窗口的动态热点话题提取模型. 高技术通讯,2010(6):590-595. [2]Wenjuan Luo, Fuzhen Zhuang, Qing He, Zhongzhi Shi. Effectively Leveraing Entropy and Relevance for Summarization. AIRS2010, 241-250. (四)跨媒体检索与本体知识系统的有机结合 本体知识系统KMSphere提供面向语义级的知识管理。该系统采用半自动化的本体获取方法,从Web页面、文本数据、图像、视频等多种源数据中获取本体,在领域专家和用户干预、修改和确认的情况下,以得到符合应用需求的领域概念模型。 利用KMSphere对本体管理、知识获取、知识管理的强大优势,实现对图像标注本体的可视化编辑、高效的知识存储和查询机制,并且在应用级提供面向语义的知识服务。因此,本软件不仅可以实现基于语义概念的图像检索,同时根据图像生成的标注结果进行本体展示,从而实现图像与语义概念的良好交互。 软件著作权 [1]知识管理系统KMSphere软件,2007年6月30日获得软件著作权,登记号:2007SR17047. (五)跨媒体智能检索系统CMIRS 跨媒体智能检索系统CMIRS分为五层,即资源库、数据分析、信息分析、检索引擎和用户界面。资源层包括视频库、图像库、本体库、文本库、网页库等。数据分析包括视频预处理、图像分析、自动语义标注,以及文本和网页的处理。信息分析包括本体管理、信息摘要、专题生成、信息关联。本体管理采用本体知识管理系统KMSphere。在此基础上,检索引擎提供按语义检索、按内容检索、按专题检索三种方式,为用户方便使用。用户界面提供用户检索信息、反馈信息的输入,将检索结果以多媒体形式输出给用户。 跨媒体智能检索系统CMIRS已初步应用在中国科学院地理科学与资源研究所、中国兵器工业集团第207研究所、中国农业科学院农业信息研究所等单位。 四、基于视觉感知和认知机理的图像模式识别 图像的视觉感知和认知机理中,图像的模式识别居于核心地位。基于模式识别,才可以实现图像中目标的检测、目标的识别、目标的语义理解,以及才能解决自然景物的理解,图像非结构信息的认知。 (一)模式识别信息熵理论 模式识别是智能认知的基础,也是人类一切智能活动的基础。模式识别的研究具有重要的理论和实际意义。模式识别研究中,除了大家关心和熟知的特征的提取和分类器的设计问题以外,更重要需要研究和揭示的是特征提取与分类性能存在着何种潜在的紧密关系及其对性能的影响。我们提出的模式识别信息熵理论,在对模式信息过程和信息系统的分析中,明确的揭示了利用表示特征与类别间统计相关的互信息表征着模式识别中类别的鉴别信息,并潜在地限了定模式识别性能的极限。也就是说,一旦确定抽取何种样的特征,就决定了这种特征与分类模式类别间的统计相关特性互信息,从而就决限定了识别的性能。在此基础上,进而提出了基于互信息的最大鉴别分析,此最大鉴别分析恰好和为广泛应用有效的线性鉴别分析LDA的结果相一致。从而,基于互信息的最大鉴别分析为通常的LDA分析的最优化提供了坚实的理论基础,解决了特征提取、选择和特征维数压缩等关键问题,并在实际中得到广泛应用。 (二)LDA鉴别分析 LDA线性鉴别分析的限制条件是满足类内相同高斯分布,以及全局/类间高斯分布。对于不满足类内同高斯分布,类间高斯分布限制的条件下,优化的线性鉴别分析LDA的研究,首先提出了近邻LDA线性鉴别分析、和相似字LDA鉴别分析,提高最容易产生类间混淆的近邻类别和相似类别之间的差异,以达到提高识别性能的目的。实验验证了所提方法的有效性;为解决非相同协方差高斯分布的鉴别分析问题,研究及提出非均匀方差分布条件下的异方差HLDA线性鉴别分析方法,以及基于改进Boosting算法的级联的鉴别分析,提高鉴别分析的性能。 (三)非高斯分布图像数据引入高斯化变换 对于非高斯分布图像数据引入高斯化变换(Box-Cox变换)对提高识别系统的识别性能,在实际的大规模手写汉字识别系统、人脸识别取得良好结果。 (四)基于分段切分识别的中文手写文本行识别算法 提出基于分段切分识别的中文手写文本行识别算法,建立了一个完整的中文手写文本行识别系统。该系统在过切分合并的基础上,集成了几何信息、识别信息和语义信息,利用提出的改进的文本行切分识别评价模型,增加了候选字符的位置信息和局部几何信息,根据评价模型,对各种信息进行了加权匹配。新的评价算法使得系统在识别性能上有很大的提升。由于文本行中字符较多,候选切分路径,提出了分段的切分识别模型,大大提高了识别性能的同学降低了算法复杂度,在ICDAR2011的中文手写文本行识别竞赛中取得第一名。 五、发展图像中层目标辩识与识别的有效方法 在对自然景物的三级认知理解模型中,图像中层目标的辨识和识别起着核心的作用,检测和识别自然景物中的目标是我们认知自然景物的基础,也成为我们对非结构化信息(图像)的内容理解与语义表征研究的中心内容。 复杂多彩、千变万化的自然景物中,对人类最为重要的经常遇到的目标是文字和人类自己。因此,我们选择对人类文化传承关键的文字识别和人类社会交往最关键的人脸识别作为对非结构化图像信息内容理解的研究对象和研究基础。即集中研究大规模多变化手写汉字和汉字字符串识别的进一步研究和大规模实用人脸检测和识别的进一步研究。 (一)大姿态变化的人脸识别 提高大姿态变化人脸识别性能是严重挑战。近年来人脸识别技术获得了飞速的发展。以衡量认证性能的误识率(FNMR)为例,从FRVT2002到MBE2010,在虚警率(FMR)为千分之一时的误识率已经降低了近2个数量级[1]。性能的提高促进了人脸识别在监控、证件比对、出入境查验、大库查询等场景的应用范围,但是人脸识别技术还面临着许多挑战:识别的可靠性与指纹等稳定的生物特征相比还有较大差距,识别算法的性能受姿态、光照、饰物、遮挡、年龄等因素的影响较大。本课题积极应对这些实际应用中的挑战,以更好的识别性能来推进人脸识别技术的大规模应用。 (1)从特征层次提高识别的可靠性 特征中蕴含的鉴别信息是进行分类的基础,我们采用了多种特征融合方式,取长补短,最大限度利用原始图像的信息,从特征层次提高识别的可靠性。在特征类型上,选用了Gabor、LBP、HOG三种特征,并进行了改进,使其更适应于人脸识别的需要,并提高了计算的速度。研究表明,三种特征具有较强的互补性,三种特征的融合的识别性能大大优于单个特征,能够适应更复杂的场景变化。 (2)提高对姿态变化的鲁棒性 MBE测试结果表明,当模板图象和测试图象姿态存在差距时,各种识别算法的错误率都会上升,姿态差别越大识别性能越差。我们将姿态空间可以根据角度参数划分为若干个子空间,这些交迭或不交迭的子空间内模式的变化相对较小,有利于进行较为鲁棒的特征提取和识别。由于人脸本质上是三维物体,三维模型的利用对于克服姿态变化具有特殊重要的意义。 结合姿态分类和三维人脸重建,我们提出了三类基于姿态空间划分的统计识别方法:(a)基于姿态划分的变化限制分类器方法,这种方法是测试姿态图象和正面模板图象产生的一组虚姿态图象之间的匹配,根据分类器的不同有DV-MQDF和DV-MDC两种。(b)基于姿态划分的鉴别特征提取和分类方法,这种方法是测试姿态图象和真实正面模板图象之间的匹配,简写为PC-OFLDA- MAP方法。(c)基于姿态划分的虚真图像鲁棒鉴别特征提取和分类方法,这种方法是同一姿态类型下测试姿态图象和正面模板图象产生的虚姿态图象之间的匹配,简写为PC-OFVTLDA-MAP方法。 三种方法在大姿态测试上的优势尤其明显,特别是b)和c)融合后的性能基本上在各个姿态上都优于文献中的算法,证明了我们提出的方法的姿态鲁棒性。对于姿态估计方法和姿态虚图象的生成方法,我们提出的基于分类的姿态估计算法框图,该算法在b)、c)两类方法中具有重要作用。根据模型来生成姿态虚图象的方法分为两个步骤。第一步是根据二维正面模板图重建三维脸。我们先后提出了基于正面图象纹理的稠密重建方法和基于二维特征点检测的稀疏重建方法,后一种方法具有更快的重建速度,前一种方法具有更好的重建效果。在稀疏重建中,我们提出了新的优化准则,获得了比文献方法更鲁棒的重建效果。第二步是根据三维脸合成虚图象。 总之,本课题研究采用多种手段,提高了人脸识别的整体可靠性和对姿态变化的鲁棒性。进一步的研究将充分利用不同空间布局的互补性、高清晰度图象的细节信息等,提高人脸识别的水平。 (二)基于统计模型的多姿态人脸定位和跟踪 人脸特征点定位可以应用于人脸面部运动分析、卡通生成以及三维建模等领域,基于统计模型的人脸定位算法对人脸上的信息有更鲁棒的描述。我们提出利用ASM模型,结合随机森林分类器的人脸特征点自动定位算法,具有定位能力强和满足实时性需求等特点。 对于多姿态的人脸形状估计,我们采取了结合随机森林和LDA的姿态估计算法,主要利用LDA来提高单棵决策树的分类能力,同时兼顾随机森林分类的鲁棒性。该姿态估计算法与国际上主流的姿态估计算法相比精确度大大提高,同时也满足了实时处理的要求。在姿态估计算法的基础上对人脸进行定位,使多姿态人脸定位研究也取得了成功。 我们提出了一种结合改进的多视角AAM和帧间匹配的跟踪算法,来解决人脸跟踪研究问题。该算法的优点在于:AAM模型利用全局表象信息,对人脸描述能力强;加入了帧间信息来增强跟踪的鲁棒性;能应对人脸快速运动的姿态变化。对于当前帧,由事先训练好的随机森林分类器,采用类似视网膜采样的非均匀局部搜索方式=来得到新的特征点;最后利用AAM模型对当前帧进行迭代,使得特征点收敛到正确的位置。另外,我们提出了一种基于卡尔曼滤波的姿态矫正算法,使得当前帧所携带的姿态信息更加准确。得到当前帧的AAM参数,通过我们提出的新的帧间视角模型,预测得到下一帧的视角,以此来继续进行跟踪。在姿态和表情变化较大的情况下,算法的鲁棒性得到了验证,该算法与现有的普通人脸跟踪算法相比有一定的优势。 (三)基于图像和视频的自动人体检测 基于图像和视频的自动人体检测是计算机视觉领域很多相关应用的关键步骤,如智能视频监控、车辆辅助驾驶和视频检索等。广阔的应用需求和人体自身的特点使得人体检测成为目标检测方面研究的热点课题。我们主要研究了基于统计学习的人体检测方法中特征提取和分类方法对检测准确性和速度的影响,主要包括以下方面: 第一,针对人体变化和多样性的特点,分析对比了Haar小波(类Haar)特征、梯度方向直方图(HOG)特征和LBP直方图特征对人体的描述能力,并以后验熵为准则系统地比较了人体和非人体模式在不同特征空间中的可分性,进而分析了几种特征的运算复杂度,为基于统计学习方法的检测算法研究打下了基础。 第二,针对人体检测中用到的直方图类型特征,提出了一种新的Boosted MQDF(改进的二次分类函数)算法和对应的增量学习方法,Boosted MQDF将基于产生式学习得到的二次分类器融合到AdaBoost算法框架中,使用鉴别性学习挑选区分能力强的特征进行分类。用于Boosted MQDF的增量学习算法,可以快速的调整分类器参数使离线学习得到的检测器适应一些特殊的应用环境。实验结果证明了B


| 联系我们 | 网站地图 | 版权声明 |

版权:中国科学院 主办:中国科学院科技促进发展局 承办:中国科学院成都文献情报中心 蜀ICP备05003827号-12

建议使用1024×768 分辨率 IE6.0以上版本浏览器