基本信息 | |||
---|---|---|---|
申请号 |
CN201710858063.4 | 申请日 |
20170921 |
公开(公告)号
|
CN107818132A | 公开(公告)日
|
20180320 |
申请(专利权)人
|
中国科学院信息工程研究所
|
||
申请人地址
|
100093 北京市海淀区闵庄路甲89号 | ||
发明人
|
张鹏;陈志鹏;郭莉;刘庆云; | 专利类型 | 发明专利 |
摘要
|
本发明提供一种基于机器学习的网页代理发现方法,步骤包括:通过爬虫主动获取代理及非代理的网页数据集;从所述网页数据集中分别抽取URL特征和DOM特征,根据该URL特征和/或DOM特征构建一含有多维特征的向量作为训练集;利用机器学习方法在所述训练集上构建模型并进行训练,通过训练出的模型进行网页代理识别。本发明基于爬虫捕获的URL和网页内容抽取特征,并构建模型进行训练,根据训练的模型识别出网页代理,识别的准确率、召回率及F1‑score高。
|
||
主权项
|
1.一种基于机器学习的网页代理发现方法,步骤包括:通过爬虫主动获取代理及非代理的网页数据集;从所述网页数据集中分别抽取URL特征和DOM特征,根据该URL特征和/或DOM特征构建一含有多维特征的向量作为训练集;利用机器学习方法在所述训练集上构建模型并进行训练,通过训练出的模型进行网页代理识别。
|
IPC信息 |
|||
---|---|---|---|
IPC主分类号
|
G06F17/30 | ||
|
法律状态信息 |
|||||
---|---|---|---|---|---|
法律状态公告日
|
20180320 | 法律状态
|
公开 | 法律状态信息 | CN201710858063 20180320 公开 公开 |
法律状态公告日
|
20180413 | 法律状态
|
实质审查的生效 | 法律状态信息 | CN201710858063 20180413 实质审查的生效 实质审查的生效IPC(主分类):G06F 17/30 |
代理信息 |
|||
---|---|---|---|
代理机构名称
|
北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人姓名
|
余长江 |