[发明专利]一种语句分析方法、装置及终端设备、存储介质有效
申请号: | 201711195450.0 | 申请日: | 2017-11-24 |
公开(公告)号: | CN107943792B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 甘骏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06F16/35 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语句 分析 方法 装置 终端设备 存储 介质 | ||
1.一种语句分析方法,其特征在于,包括:
获取待分析语句;
利用语句分类模型对所述待分析语句进行分类处理,得到所述待分析语句所属的至少一个分类类别,所述语句分类模型为基于搜索记录数据训练得到,所述搜索记录数据包括搜索关键句和所述搜索关键句的标注类别,所述搜索关键句的标注类别根据以所述搜索关键句搜索得到的网页页面中被选择的目标网页页面的类型确定;
利用实体词识别模型对所述待分析语句进行识别处理,从所述待分析语句中提取至少一个实体词;
根据所述提取的至少一个实体词和所述至少一个分类类别,获取每个实体词的类别统计信息。
2.如权利要求1所述的方法,其特征在于,所述利用语句分类模型对所述待分析语句进行分类处理,得到所述待分析语句所属的至少一个分类类别之前,还包括:
获取搜索记录数据,所述搜索记录数据包括:搜索关键句和搜索关联信息;
通过初始语句分类模型对所述搜索关键句进行分类处理,得到分类结果;
如果所述分类结果与所述搜索关联信息之间满足更新条件,则对所述初始语句分类模型进行更新,得到语句分类模型。
3.如权利要求2所述的方法,其特征在于,所述搜索关联信息包括:在以所述搜索关键句搜索得到的网页页面中,被选择的目标网页页面上包括的标题信息;所述分类结果与所述搜索关联信息之间满足更新条件是指:所述分类结果所指示的类别与所述标题信息所表示的类别不相同。
4.如权利要求2所述的方法,其特征在于,所述搜索关联信息包括:在以所述搜索关键句搜索得到的网页页面中,被选择的目标网页页面的网址信息;所述分类结果与所述搜索关联信息之间满足更新条件是指:所述分类结果所指示的类别与所述网址信息所表示的类别不相同。
5.如权利要求2所述的方法,其特征在于,所述获取搜索记录数据,包括:
根据筛选条件对搜索记录集合中的数据进行筛选,得到搜索记录数据;
所述筛选条件中包括指定网址信息,每一个指定网址信息与一个类别相匹配,筛选得到的搜索记录数据中包括的网址信息与所述筛选条件中包括的指定网址信息相匹配。
6.如权利要求1所述的方法,其特征在于,所述利用实体词识别模型对所述待分析语句进行识别处理,从所述待分析语句中提取至少一个实体词之前,包括:
生成一个或者多个实体词库,每个实体词库中包括多个实体词、且不存在相同的实体词;
根据生成的实体词库构建实体词识别模型。
7.如权利要求6所述的方法,其特征在于,所述利用实体词识别模型对所述待分析语句进行识别处理,从所述待分析语句中提取至少一个实体词,包括:
对所述待分析语句进行词语拆分,得到初始词;
利用所述实体词识别模型从所述得到的初始词中确定出实体词,其中,确定出的实体词为得到的初始词中存在于所述实体词库中,且没有包含关系、词长度满足长度条件的词。
8.如权利要求1所述的方法,其特征在于,所述根据所述提取的至少一个实体词和所述至少一个分类类别,获取每个实体词的类别统计信息,包括:
根据所述提取的至少一个实体词和所述至少一个分类类别,统计得到每个实体词属于每个分类类别的概率信息。
9.一种语句分析装置,其特征在于,包括:
获取模块,用于获取待分析语句;
第一确定模块,用于利用语句分类模型对所述待分析语句进行分类处理,得到所述待分析语句所属的至少一个分类类别,所述语句分类模型为基于搜索记录数据训练得到,所述搜索记录数据包括搜索关键句和所述搜索关键句的标注类别,所述搜索关键句的标注类别根据以所述搜索关键句搜索得到的网页页面中被选择的目标网页页面的类型确定;
第二确定模块,用于利用实体词识别模型对所述待分析语句进行识别处理,从所述待分析语句中提取至少一个实体词;
处理模块,用于根据所述提取的至少一个实体词和所述至少一个分类类别,获取每个实体词的类别统计信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711195450.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种垃圾短信的识别方法、装置和移动终端
- 下一篇:一种翻译方法及系统