专利名称 ---【 一种新词发现方法和系统 】

基本信息
申请号
CN200710175229.9
申请日
20070927
公开(公告)号
CN100489863C
公开(公告)日
20080227
申请(专利权)人
中国科学院计算技术研究所
申请人地址
100080北京市海淀区中关村科学院南路6号
发明人
龚才春;黄玉兰; 专利类型 发明专利
摘要
本发明公开了一种发现新词的方法,包括以下步骤:查找语料中所有出现 频次大于一定阈值的字符串;统计每一个字符串在语料中所有出现位置的左侧 和右侧各有多少个不同的字符或词语;若字符串左右侧不同字符或词语数量均 大于某个预先设定的阈值,则将该字符串作为新词输出;否则在搜索引擎网站 对字符串进行精确搜索和模糊搜索,若精确搜索返回结果数量大于一定阈值, 和/或精确搜索和模糊搜索返回的结果数量之比大于一定阈值,和/或精确搜索 返回结果网页中字符串的左右侧字符或词语种类数大于一定阈值,则将该字符 串作为新词输出。本发明既能够发现在语料中出现频次较高的新词,也能够发 现在语料中出现频次较低的新词,同时新词发现的准确率较高。
主权项
1、一种新词发现方法,其特征在于,包括以下步骤: 步骤A,获取语料中出现频次大于第一预设阈值的所有字符串; 步骤B,确定符合预先设定规则的字符串; 步骤C,对剩余的字符串,计算每个字符串在语料中所有位置的左侧不同 字符或词语的数量以及每个字符串在语料中所有位置的右侧不同字符或词语 的数量;所述剩余的字符串为符合预先设定规则的字符串; 步骤D,将所述剩余的字符串中左侧不同字符或词语的数量以及右侧不同 字符或词语的数量均大于第二预设阈值的字符串,作为新词输出; 步骤E,将剩下的字符串作为查询关键词,在搜索引擎中进行搜索,统计 返回的搜索结果数量、以及搜索结果记录;所述剩下的字符串为剩余的字符串 除去作为新词输出的字符串之后剩下的字符串; 步骤F,根据返回的搜索结果数量和搜索结果记录与预设阈值的比较结 果,判断并确定最终新词。

 

IPC信息
IPC主分类号
G06F17/30

 

法律状态信息
法律状态公告日
20110921
法律状态
著录事项变更 法律状态信息
CN200710175229 20110921 著录事项变更 著录事项变更IPC(主分类):G06F 17/30变更事项:发明人变更前:龚才春 黄玉兰变更后:龚才春 黄玉兰 程学旗
法律状态公告日
20080227
法律状态
公开 法律状态信息
CN200710175229 20080227 公开 公开
法律状态公告日
20080423
法律状态
实质审查的生效 法律状态信息
CN200710175229 20080423 实质审查的生效 实质审查的生效
法律状态公告日
20090520
法律状态
授权 法律状态信息
CN200710175229 20090520 授权 授权

 

代理信息
代理机构名称
北京律诚同业知识产权代理有限公司 11006
代理人姓名
梁挥;陈振

 

被引专利信息
引用阶段 被引时间 专利号 申请人 公开时间

 

被引非专利信息
引用阶段 被引时间 被引文档类型 被引文档信息


| 联系我们 | 网站地图 | 版权声明 |

版权:中国科学院 主办:中国科学院科技促进发展局 承办:中国科学院成都文献情报中心 蜀ICP备05003827号-12

建议使用1024×768 分辨率 IE6.0以上版本浏览器