专利名称 ---【 一种基于多粒度主题模型的短文本哈希学习方法 】

基本信息
申请号
CN201410729347.X
申请日
2014.12.03
公开(公告)号
CN104408153A
公开(公告)日
2015.03.11
申请(专利权)人
中国科学院自动化研究所
申请人地址
100190 北京市海淀区中关村东路95号
发明人
郝红卫;许家铭;徐博;田冠华;王方圆; 专利类型 发明专利
摘要
本发明公开了一种基于多粒度主题模型的短文本哈希学习方法,采用外部大规模语料库训练候选主题模型,可依据数据集类型选择最优的多粒度主题特征,并赋予权重,由该方法选择出来的多粒度主题模型有较好的区分度,在构建稀疏短文本间相似语义关联的同时有助于哈希函数学习;本发明方法采用了两种基于多主题模型的哈希学习策略,分别为多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法,以及多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法,较基于单粒度主题特征方法,在精度和召回率等多项测评指标上均有大幅度提升。
主权项
一种基于多粒度主题模型的短文本哈希离线训练方法,包括以下步骤:步骤1,利用大规模语料库训练N个候选主题模型T={T1,T2,...,TN},其中所述大规模语料库为外部通用的大规模语料库,N为训练得到的候选主题模型的数目,为一个正整数;步骤2,从训练集X中随即抽取一部分带有标签信息的样本选择M个最优多粒度主题模型集合及对应权重μ={μ(T1),μ(T2),...,μ(TN)},其中,M为预先设定的最优多粒度主题模型的数目,为一个正整数;步骤3,计算训练集原始特征的TF?IDF特征w,并进行归一化;步骤4,从最优的M个主题模型中抽取多粒度主题特征{θ1,θ2,...,θM};步骤5,通过两种学习策略融合多粒度主题特征及标签信息进行哈希学习,得到训练集哈希码和哈希函数。

 

IPC信息
IPC主分类号
G06F17/30(2006.01)I
IPC分类号
G06F17/30(2006.01)I

 

法律状态信息
法律状态公告日
2018.07.31
法律状态
授权 法律状态信息
授权
法律状态公告日
2015.04.08
法律状态
实质审查的生效 法律状态信息
实质审查的生效 IPC(主分类):G06F 17/30 申请日:20141203
法律状态公告日
2015.03.11
法律状态
公开 法律状态信息
公开

 

代理信息
代理机构名称
中科专利商标代理有限责任公司 11021
代理人姓名
宋焰琴
相似专利

[发明专利] 一种多粒度并行解速率匹配方法和装置
发明人:赵旭莹;王晓琴;林啸 申请日:2015-09-24

[发明专利] 一种LTE系统资源映射的向量化实现方法和装置
发明人:郭晓龙;王晓琴;吴军宁;郭璟;王伟康;林啸;赵旭莹;张森 申请日:2014-04-10

[发明专利] 一种面向可编程代数处理器的矩阵乘法计算装置及方法
发明人:郭晓龙;王晓琴;王伟康;吴军宁;林啸;郭璟;张森;赵旭莹 申请日:2014-03-28

[发明专利] 一种应用于并行滤波运算的数据缓存装置
发明人:王东琳;尹磊祖;杨勇勇;谢少林;汪涛 申请日:2013-04-19

[发明专利] 一种并行滤波方法及相应的装置
发明人:王东琳;尹磊祖;杨勇勇;谢少林;汪涛 申请日:2013-04-19

点击次数: 106      分享到:0


| 联系我们 | 网站地图 | 版权声明 |

版权:中国科学院 主办:中国科学院科技促进发展局 承办:中国科学院成都文献情报中心 蜀ICP备05003827号-12

建议使用1024×768 分辨率 IE6.0以上版本浏览器