[发明专利]用于生成信息的方法和装置有效
申请号: | 201810088687.7 | 申请日: | 2018-01-30 |
公开(公告)号: | CN108182180B | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 竺晨曦 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标信息 电话号码识别 方法和装置 生成信息 电话号码提取 表征信息 获取目标 结果指示 指示目标 准确率 覆盖率 响应 记录 申请 | ||
1.一种用于生成信息的方法,包括:
获取目标信息,以及确定所述目标信息所属的类别,其中,所述目标信息来源于目标网站;
将所述目标信息输入到预先训练的电话号码识别模型中,得到所述目标信息的识别结果,其中,所述识别结果用于指示所述目标信息中是否包含电话号码,所述电话号码识别模型用于表征信息与识别结果之间的对应关系;
响应于确定出所述识别结果指示所述目标信息中包含电话号码,从所述目标信息中提取电话号码,生成包括提取出的电话号码和所述类别的记录;
确定提取出的电话号码的置信度;
所述确定提取出的电话号码的置信度,包括:统计在所述目标网站中发表所述目标信息的用户在所述目标网站发表的包含电话号码的信息的数目作为第一数目;统计所述用户在所述目标网站发表的包含提取出的电话号码的信息的数目作为第二数目;统计在所述目标网站发表包含电话号码的信息最多的用户所发表的包含电话号码的信息的数目作为第三数目;求取预设数值与所述第一数目之和的对数作为第一对数,求取所述预设数值与所述第三数目之和的对数作为第二对数;将所述第一对数与所述第二对数的比值乘以所述第一数目与所述第二数目的比值的乘积确定为所述提取出的电话号码的置信度,或将所述第二数目与第一数目的比值确定为所述提取出的电话号码的置信度。
2.根据权利要求1所述的方法,其中,所述方法还包括:
获取在所述目标网站中发表所述目标信息的用户的用户名。
3.根据权利要求2所述的方法,其中,所述生成包括提取出的电话号码和所述类别的记录,包括:
生成包括所述用户名、所述提取出的电话号码、所述目标信息、所述类别和所述置信度的记录。
4.根据权利要求3所述的方法,其中,所述方法还包括:
响应于接收到包括类别的搜索请求,获取所搜索的类别对应的至少一条记录;
从所述至少一条记录中按照置信度由大到小的顺序选取预设数目个记录,输出选取出的记录。
5.根据权利要求1所述的方法,其中,所述电话号码识别模型是通过如下步骤训练得到的:
获取样本数据集合,其中,所述样本数据集合中的每个样本数据包括样本信息和识别结果,样本信息包括包含电话号码的样本信息和不包含电话号码的样本信息,识别结果包括表征样本信息包含电话号码的标识和表征样本信息不包含电话号码的标识;
利用机器学习方法,将所述样本数据集合中的每个样本数据中的样本信息作为输入,将该样本数据中的识别结果作为输出,对预设的初始模型进行训练得到电话号码识别模型。
6.根据权利要求5所述的方法,其中,所述包含电话号码的样本信息是通过如下步骤得到的:
在目标网站中获取至少一个用户发表的用户发表信息;
利用预设的正则表达式对所述用户发表信息进行过滤,得到包含电话号码的样本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810088687.7/1.html,转载请声明来源钻瓜专利网。