专利名称 ---【 文本校对模型训练方法及装置、计算设备 】 全文链接

基本信息
申请号
CN202210577416.4
申请日
20220525
公开(公告)号
CN114925170A
公开(公告)日
20220819
科技资源标识
CSTR:32117.16.20220525.CN202210577416.4
申请(专利权)人
人民网股份有限公司;中国科学技术大学
申请人地址
100026 北京市西城区新街口外大街28号B座234号
发明人
张勇东;毛震东;郭俊波;朱池苇 专利类型 发明专利
摘要
本发明公开了一种文本校对模型训练方法,基于已标注错误类型标注数据集,训练得到数据增强模型;数据增强模型训练输入数据包含错误位置的文本被替换为掩码标记第一向量以及被赋值为错误类型第二向量;基于各个错误类型特征分布和一部分未标注文本数据构建指定错误类型的预测输入数据;将预测输入数据输入给训练得到的数据增强模型,得到预测输出数据;对另一部分未标注文本数据进行随机删除操作;将预测输出数据和随机删除操作所得数据加入到标注数据集中,得到拓展数据集;利用拓展数据集,训练得到文本校对模型。本发明将错误类型作为额外的输入生成指定类型错误文本拓展数据集,减少了训练数据生成的随机性,解决了训练数据数量少的问题。
主权项
NULL

 

IPC信息
IPC主分类号
G06F16/33

 

法律状态信息
法律状态公告日
20220819
法律状态
公开 法律状态信息
CN202210577416 20220819 公开 公开

 

代理信息
代理机构名称
北京市浩天知识产权代理事务所(普通合伙) 11276
代理人姓名
宋菲


| 联系我们 | 网站地图 | 版权声明 |

版权:中国科学院 主办:中国科学院科技促进发展局 承办:中国科学院成都文献情报中心 蜀ICP备05003827号-12

建议使用1024×768 分辨率 IE6.0以上版本浏览器