专利名称 ---【 一种新词发现方法和系统 】

基本信息
申请号
CN200710175229.9
申请日
2007.09.27
公开(公告)号
CN101131705
公开(公告)日
2008.02.27
申请(专利权)人
中国科学院计算技术研究所
申请人地址
100080北京市海淀区中关村科学院南路6号
发明人
龚才春;黄玉兰; 专利类型 发明专利
摘要
本发明公开了一种发现新词的方法,包括以下步骤:查找语料中所有出现 频次大于一定阈值的字符串;统计每一个字符串在语料中所有出现位置的左侧 和右侧各有多少个不同的字符或词语;若字符串左右侧不同字符或词语数量均 大于某个预先设定的阈值,则将该字符串作为新词输出;否则在搜索引擎网站 对字符串进行精确搜索和模糊搜索,若精确搜索返回结果数量大于一定阈值, 和/或精确搜索和模糊搜索返回的结果数量之比大于一定阈值,和/或精确搜索 返回结果网页中字符串的左右侧字符或词语种类数大于一定阈值,则将该字符 串作为新词输出。本发明既能够发现在语料中出现频次较高的新词,也能够发 现在语料中出现频次较低的新词,同时新词发现的准确率较高。
主权项
1、一种新词发现方法,其特征在于,包括以下步骤: 步骤A,获取语料中出现频次大于第一预设阈值的所有字符串; 步骤B,确定符合预先设定规则的字符串; 步骤C,对剩余的字符串,计算每个字符串在语料中所有位置的左右侧不 同字符或词语的数量; 步骤D,将所述剩余的字符串中左右侧不同字符或词语数大于第二预设阈 值的字符串,作为新词输出; 步骤E,将剩下的字符串作为查询关键词,在搜索引擎中进行搜索,统计 返回的搜索结果数量、以及搜索结果记录; 步骤F,根据返回的搜索结果数量和搜索结果记录与预设阈值的比较结 果,判断并确定最终新词。

 

IPC信息
IPC主分类号
G06F17/30(2006.01)I
IPC分类号
G06F17/30(2006.01)I

 

法律状态信息
法律状态公告日
2011.09.21
法律状态
著录事项变更 法律状态信息
著录事项变更 IPC(主分类):G06F 17/30 变更事项:发明人 变更前:龚才春 黄玉兰 变更后:龚才春 黄玉兰 程学旗
法律状态公告日
2009.05.20
法律状态
授权 法律状态信息
授权
法律状态公告日
2008.04.23
法律状态
实质审查的生效 法律状态信息
实质审查的生效
法律状态公告日
2008.02.27
法律状态
公开 法律状态信息
公开

 

代理信息
代理机构名称
北京律诚同业知识产权代理有限公司
代理人姓名
梁 挥;陈 振

 

被引专利信息
引用阶段 被引时间 专利号 申请人 公开时间

 

被引非专利信息
引用阶段 被引时间 被引文档类型 被引文档信息
相似专利

[发明专利] 一种eMule网络上关联资源的发现方法
发明人:程学旗;冯凯;刘备;田红志;王元卓;陈雷;刘悦 申请日:2013-05-28

[发明专利] 一种短文本的新词发现方法和系统
发明人:龚才春;黄玉兰 申请日:2007-09-17

相似软件著作权

新词发现软件系统 V1.0[简称: 新词发现系统]
软件登记号:2007SR06548 软件著作权人:中国科学院研究生院

     分享到:0


| 联系我们 | 网站地图 | 版权声明 |

版权:中国科学院 主办:中国科学院科技促进发展局 承办:中国科学院成都文献情报中心 蜀ICP备05003827号-12

建议使用1024×768 分辨率 IE6.0以上版本浏览器