专利名称 ---【 一种基于机器学习的网页代理发现方法 】

基本信息
申请号
CN201710858063.4
申请日
20170921
公开(公告)号
CN107818132A
公开(公告)日
20180320
申请(专利权)人
中国科学院信息工程研究所
申请人地址
100093 北京市海淀区闵庄路甲89号
发明人
张鹏;陈志鹏;郭莉;刘庆云; 专利类型 发明专利
摘要
本发明提供一种基于机器学习的网页代理发现方法,步骤包括:通过爬虫主动获取代理及非代理的网页数据集;从所述网页数据集中分别抽取URL特征和DOM特征,根据该URL特征和/或DOM特征构建一含有多维特征的向量作为训练集;利用机器学习方法在所述训练集上构建模型并进行训练,通过训练出的模型进行网页代理识别。本发明基于爬虫捕获的URL和网页内容抽取特征,并构建模型进行训练,根据训练的模型识别出网页代理,识别的准确率、召回率及F1‑score高。
主权项
1.一种基于机器学习的网页代理发现方法,步骤包括:通过爬虫主动获取代理及非代理的网页数据集;从所述网页数据集中分别抽取URL特征和DOM特征,根据该URL特征和/或DOM特征构建一含有多维特征的向量作为训练集;利用机器学习方法在所述训练集上构建模型并进行训练,通过训练出的模型进行网页代理识别。

 

IPC信息
IPC主分类号
G06F17/30

 

法律状态信息
法律状态公告日
20180413
法律状态
实质审查的生效 法律状态信息
CN201710858063 20180413 实质审查的生效 实质审查的生效IPC(主分类):G06F 17/30
法律状态公告日
20180320
法律状态
公开 法律状态信息
CN201710858063 20180320 公开 公开

 

代理信息
代理机构名称
北京君尚知识产权代理事务所(普通合伙) 11200
代理人姓名
余长江

 

被引专利信息
引用阶段 被引时间 专利号 申请人 公开时间

 

被引非专利信息
引用阶段 被引时间 被引文档类型 被引文档信息


| 联系我们 | 网站地图 | 版权声明 |

版权:中国科学院 主办:中国科学院科技促进发展局 承办:中国科学院成都文献情报中心 蜀ICP备05003827号-12

建议使用1024×768 分辨率 IE6.0以上版本浏览器