专利名称 ---【 动态多模态视频描述生成方法 】

基本信息
申请号
CN201711433810.6
申请日
20171226
公开(公告)号
CN108200483B
公开(公告)日
20180622
申请(专利权)人
中国科学院自动化研究所
申请人地址
100190 北京市海淀区中关村东路95号
发明人
张兆翔;郝王丽;关赫; 专利类型 发明专利
摘要
本发明属于视频描述领域,具体涉及一种动态多模态视频描述生成方法。旨在捕捉视听模态的共振信息以产生理想视频描述,另外,解决视频中的听觉模态受损或者缺失的情况。本发明提出的多模态视频描述生成系统通过视听觉模态的特征编码阶段共享LSTM内部记忆单元的权值或者共享外部记忆单元,对视听觉之间的时域依赖性进行建模,捕捉视听模态的共振信息;另外,本发明基于听觉推理系统根据已知视觉模态信息推理出对应的听觉模态信息。通过本发明可以快速有效的生成视频描述。
主权项
1.一种动态多模态视频描述生成方法,其特征在于,包括以下步骤:步骤S1:提取视频中所对应的视觉CNN特征和听觉MFCC特征,并判断听觉MFCC特征是否受损或者消失;如损失或消失执行步骤S2,否则执行步骤S3;步骤S2:将所述视觉CNN特征通过基于编码-解码方式的听觉推理模型进行推理得到完整的听觉MFCC特征;步骤S3:利用所述视觉CNN特征和听觉MFCC特征,基于视听觉之间的时域依赖性,通过多模态编码器进行编码以及视听两个模态的交互融合,得到融合特征,将融合特征通过解码器迭代地解码后生成视频描述;其中,所述多模态编码器为基于共享权值的多模态LSTM编码器,所述基于共享权值的多模态LSTM编码器中包含两个LSTM神经网络,分别用于对视觉特征CNN和听觉特征MFCC进行编码,两个LSTM神经网络的内部记忆单元之间权值共享;或者所述多模态编码器为基于共享记忆单元的多模态记忆单元编码器,所述基于共享记忆单元的多模态记忆单元编码器包含两个LSTM神经网络,分别用于对视觉CNN特征和听觉MFCC特征进行编码,两个LSTM神经网络的内部记忆单元通过外部记忆单元进行信息更新。

 

IPC信息
IPC主分类号
H04N21/84

 

法律状态信息
法律状态公告日
20200228
法律状态
授权 法律状态信息
CN201711433810 20200228 授权 授权
法律状态公告日
20180717
法律状态
实质审查的生效 法律状态信息
CN201711433810 20180717 实质审查的生效 实质审查的生效IPC(主分类):H04N 21/84
法律状态公告日
20180622
法律状态
公开 法律状态信息
CN201711433810 20180622 公开 公开

 

代理信息
代理机构名称
北京瀚仁知识产权代理事务所(普通合伙) 11482
代理人姓名
郭文浩;陈晓鹏

 

被引专利信息
引用阶段 被引时间 专利号 申请人 公开时间

 

被引非专利信息
引用阶段 被引时间 被引文档类型 被引文档信息


| 联系我们 | 网站地图 | 版权声明 |

版权:中国科学院 主办:中国科学院科技促进发展局 承办:中国科学院成都文献情报中心 蜀ICP备05003827号-12

建议使用1024×768 分辨率 IE6.0以上版本浏览器