[发明专利]用于确定主题的方法和装置有效
| 申请号: | 201811624901.2 | 申请日: | 2018-12-28 |
| 公开(公告)号: | CN109710939B | 公开(公告)日: | 2023-06-09 |
| 发明(设计)人: | 王经委;张傲;刘佳祥;孙宇;李芝 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 确定 主题 方法 装置 | ||
1.一种用于确定主题的方法,包括:
确定待识别语句序列;
计算所述待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度,其中,所述主题模板集合中的每个主题模板对应所述目标领域内至少一个主题中的主题,主题模板包括主题阶段序列,主题阶段包括主题语句序列;
根据关联参数确定所述待识别语句序列的主题,其中,所述关联参数包括所述待识别语句序列与所述主题模板集合中每个主题模板的相似度;
其中,所述计算所述待识别语句序列与所述主题模板集合中每个主题模板的相似度,包括:
对于所述主题模板集合中的每个主题模板,执行以下第一相似度计算步骤:对于所述待识别语句序列中每个待识别语句,计算该待识别语句与该主题模板所包括的每个主题语句的相似度;利用动态规划算法,在至少一种映射方式中,以按照该种映射方式计算得到的所述待识别语句序列与该主题模板的相似度最大化为目标,确定最优映射方式,其中,映射方式用于将所述待识别语句序列中每个待识别语句对应到该主题模板中的主题阶段;将按照所确定的最优映射方式计算得到的所述待识别语句序列与该主题模板的相似度确定为所述待识别语句序列与该主题模板的相似度;
其中,所述按照该种映射方式计算得到的所述待识别语句序列与该主题模板的相似度是通过第二相似度计算步骤计算得到的,所述第二相似度计算步骤包括:
对于所述待识别语句序列中的每个待识别语句,根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度,确定该待识别语句与对应的映射主题阶段的相似度,所述与该待识别语句对应的映射主题阶段为按照该种映射方式,将该待识别语句映射至的该主题模板所包括的主题阶段;
将所述待识别语句序列中各个待识别语句与对应的映射主题阶段的相似度的平均值确定为按照该种映射方式该待识别语句与该主题模板的相似度。
2.根据权利要求1所述的方法,其中,所述按照该种映射方式计算得到的所述待识别语句序列与该主题模板的相似度是通过第三相似度计算步骤计算得到的,所述第三相似度计算步骤包括:
对于所述待识别语句序列中的每个待识别语句,确定与该待识别语句对应的映射主题阶段,所述与该待识别语句对应的映射主题阶段为按照该种映射方式将该待识别语句映射至的该主题模板所包括的主题阶段;
对于该主题模板所包括的每个主题阶段,根据该主题阶段所包括的主题语句序列中各主题语句与映射至该主题阶段的各待识别语句之间的相似度,确定所述待识别语句序列与该主题阶段对应的相似度;
将所述待识别语句序列与该主题模板所包括的各主题阶段对应的相似度的平均值确定为所述待识别语句序列与该主题模板的相似度。
3.根据权利要求1所述的方法,其中,所述根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度,确定该待识别语句与对应的映射主题阶段的相似度,包括:
将与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度中的最大值,确定为该待识别语句与对应的映射主题阶段的相似度。
4.根据权利要求1所述的方法,其中,所述根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度,确定该待识别语句与对应的映射主题阶段的相似度,包括:
将与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度的加权平均值,确定为该待识别语句与对应的映射主题阶段的相似度。
5.根据权利要求1所述的方法,其中,所述根据关联参数确定所述待识别语句序列的主题,包括:
将所述主题模板集合中与所述待识别语句序列的相似度最大的主题模板对应的主题确定为所述待识别语句序列的主题。
6.根据权利要求1-5中任一所述的方法,其中,所述确定待识别语句序列,包括:
实时获取用户使用终端设备输入的当前对话语句以及历史上一主题对话语句序列;
将在所述历史上一主题对话语句序列的末尾添加所述当前对话语句后所得到的新的语句序列确定为所述待识别语句序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811624901.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:依存句法树构建系统
- 下一篇:一种文章立意的分析及文章评分方法、装置





