[发明专利]对领域评价短文本生成层级化类别标签的方法、介质及电子设备在审
申请号: | 202110212431.4 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112883159A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 司学峰 | 申请(专利权)人: | 北京精准沟通传媒科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/216;G06F40/289;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 领域 评价 文本 生成 层级 类别 标签 方法 介质 电子设备 | ||
1.一种对领域评价短文本生成层级化类别标签的方法,其特征在于,包括:
对领域评价短文本进行分词以生成包含多个第一特征词的第一特征向量;
将所生成的第一特征向量分别输入至训练好的至少一个领域短文本相似度模型中,以相应输出与所述领域评价短文本相似的至少一个相似训练短文本;
基于所述至少一个相似训练短文本与其各自的层级化类别标签之间的对应关系,生成所述领域评价短文本的层级化类别标签。
2.根据权利要求1所述的方法,其特征在于,所述领域评价短文本的层级化类别标签包括由下至上的三个层级以上的类别标签,下一层级的类别标签从属于其相邻上一层级的类别标签,最下层类别标签为所述相似训练短文本;并且在生成所述领域评价短文本的层级化类别标签之后,还包括:
根据接收到的对于其中一个层级的类别标签的请求,输出该层级的类别标签作为所述领域评价短文本的展示用类别标签。
3.根据权利要求1所述的方法,其特征在于,所述至少一个领域短文本相似度模型利用以下步骤得到:
获取作为与所述领域评价短文本同一领域内的海量评价短文本;
从所述海量评价短文本中,筛选出满足预定条件的训练样本,以构建训练样本集;
对所述训练样本集的各个训练样本进行分词,以生成所述训练样本集的包含多个第二特征词的第二特征向量,并且获取所述训练样本集的各个训练样本的层级化类别标签;
利用所述训练样本集和各个训练样本的层级化类别标签,训练得到所述至少一个领域短文本相似度模型,所述至少一个领域短文本相似度模型包括表征所述第二特征词与训练样本的相关程度的相关性矩阵。
4.根据权利要求3所述的方法,其特征在于,所述至少一个领域短文本相似度模型为BM25OKAPI模型。
5.根据权利要求4所述的方法,其特征在于,具有多个训练好的BM25OKAPI模型,所述BM25OKAPI模型是利用所述训练样本集内的交叉训练而得到的。
6.根据权利要求3所述的方法,其特征在于,所述预定条件包括:训练样本的长度处于第一长度阈值与第二长度阈值之间,且该训练样本在所述海量训练样本中重复出现了第三预定次数。
7.根据权利要求3所述的方法,其特征在于,所述分词的过程以领域黑名单和领域白名单为约束条件。
8.根据权利要求3所述的方法,其特征在于,利用至少两种分词方式进行所述分词,分别获得至少两种分词结果;对所述至少两种分词结果进行合并和去重操作,以得到所述多个第一特征词、所述多个第二特征词。
9.一种非临时性计算机可读介质,其上存储有计算机可执行代码,其特征在于,所述计算机可执行代码在被处理器执行时实现根据权利要求1~8中任一项所述的方法。
10.一种电子设备,包括处理器、存储器以及其上存储的计算机可执行代码,其特征在于,当所述处理器执行所述计算机可执行代码时实现如权利要求1~8中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京精准沟通传媒科技股份有限公司,未经北京精准沟通传媒科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110212431.4/1.html,转载请声明来源钻瓜专利网。