[发明专利]一种文本类型确定方法及装置有效
申请号: | 201911414826.1 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111125337B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 秦艳婷;李思雯;陈健 | 申请(专利权)人: | 慧择保险经纪有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F40/289;G06N20/00;G10L15/26 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 常忠良 |
地址: | 518000 广东省深圳市南山区粤*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 类型 确定 方法 装置 | ||
1.一种文本类型确定方法,其特征在于,包括:
获得待检测对话文本;
通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;
对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量,将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型,在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;
将确定的预设文本类型确定为该文本的文本类型。
2.根据权利要求1所述的方法,其特征在于,所述获得待检测对话文本包括:
获得对话语音;
对所述对话语音进行语音识别,获得语音识别结果;
将所述语音识别结果转化为待检测对话文本。
3.根据权利要求1所述的方法,其特征在于,所述获得该文本对应的词组向量,包括:
对该文本进行结巴分词处理,获得分词结果向量;
对所述分词结果向量进行停用词过滤处理,获得词组向量。
4.根据权利要求1所述的方法,其特征在于,所述场景分类模型的训练过程可以包括:
获得携带有场景类别标记的训练对话文本;
对所述训练对话文本进行结巴分词处理,获得训练分词结果向量;
对所述训练分词结果向量进行停用词过滤处理,获得训练词组向量;
对所述训练词组向量进行机器学习,获得场景分类模型,其中,所述场景分类模型的输入为:文本对应的词组向量,输出为:与该文本对应的场景类型。
5.根据权利要求1所述的方法,其特征在于,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:
在所述场景类型对应的每种预设文本类型的词库:确定该文本是否包含该词库中的词汇,如果是,则确定该文本与该预设文本类型匹配。
6.根据权利要求1所述的方法,其特征在于,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:
在所述场景类型对应的每种预设文本类型的文本模板库:确定该文本与该文本模板库中各文本模板的相似度,当该文本与该文本模板库中至少一个文本模板的相似度大于预设阈值时,则确定该文本与该预设文本类型匹配。
7.根据权利要求1所述的方法,其特征在于,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:
将该文本输入该文本对应的场景类型的文本类型识别模型中,获得文本类型识别模型输出的文本类型。
8.一种文本类型确定装置,其特征在于,包括:对话文本获得单元、指定角色文本获得单元、词组向量获得单元、场景类型获得单元、文本类型匹配单元和文本类型确定单元,
所述对话文本获得单元,用于获得待检测对话文本;
所述指定角色文本获得单元,用于通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;
所述词组向量获得单元,用于对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量;
所述场景类型获得单元,用于将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型;
所述文本类型匹配单元,用于在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;
所述文本类型确定单元,用于将确定的预设文本类型确定为该文本的文本类型。
9.根据权利要求8所述的装置,其特征在于,所述对话文本获得单元包括:对话语音获得子单元、语音识别结果获得子单元和对话文本转化子单元,
所述对话语音获得子单元,用于获得对话语音;
所述语音识别结果获得子单元,用于对所述对话语音进行语音识别,获得语音识别结果;
所述对话文本转化子单元,用于将所述语音识别结果转化为待检测对话文本。
10.根据权利要求8所述的装置,其特征在于,所述词组向量获得单元包括:分词结果向量获得子单元和词组向量获得子单元,
所述分词结果向量获得子单元,用于对该文本进行结巴分词处理,获得分词结果向量;
所述词组向量获得子单元,用于对所述分词结果向量进行停用词过滤处理,获得词组向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧择保险经纪有限公司,未经慧择保险经纪有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911414826.1/1.html,转载请声明来源钻瓜专利网。