[发明专利]对领域评价短文本生成层级化类别标签的方法、介质及电子设备在审
申请号: | 202110212431.4 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112883159A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 司学峰 | 申请(专利权)人: | 北京精准沟通传媒科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/216;G06F40/289;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 领域 评价 文本 生成 层级 类别 标签 方法 介质 电子设备 | ||
本发明涉及对领域评价短文本生成层级化类别标签的方法、介质及电子设备。对领域评价短文本生成层级化类别标签的方法包括:对领域评价短文本进行分词以生成包含多个第一特征词的第一特征向量;将所生成的第一特征向量分别输入至训练好的至少一个领域短文本相似度模型中,以相应输出与所述领域评价短文本相似的至少一个相似训练短文本;基于所述至少一个相似训练短文本与其各自的层级化类别标签之间的对应关系,生成所述领域评价短文本的层级化类别标签。根据本发明的方案,生成了领域评价短文本的层级化类别标签,在对领域评价短文本进行分类时,节省了时间、提高了分类效率、满足了实际应用中的需要,并且分类精度可以进一步提高。
技术领域
本发明涉及自然语言处理领域,具体涉及对领域评价短文本生成层级化类别标签的方法、介质及电子设备。
背景技术
短文本,一般在数个字到数十个字之间,典型地,作为口碑数据、评论数据等包含的短句,通常用逗号或者句号将两个短文本相间隔。当前在网络上,可以获取到某个专有领域的海量评价短文本,诸如口碑数据等。例如,在汽车领域、房产领域等,有很多专业的网站上提供了用户上传其口碑评价的接口。由于口碑数据的量是巨大的,通过对其进行分析和挖掘,可以获得关于某一商品(例如,某一品牌车型)的诸如动力、操控、外观等各个方面的评价趋势,因此需要对构成车辆口碑数据的短文本进行分类,然而针对不同的业务需求和不同厂商的要求,所需要的分类粒度可能并不一样,例如,有的情况下,分类只需要粗略地分成大类,比如该短文本属于“舒适性”一类,而有的情况下,分类的粒度比前述大类更细,比如该短文本属于具体的“座椅舒适性”或者“振动噪音”类别,而有些情况下,分类需要保留语义信息,例如“这车座位舒服”、或者“不过座椅有点偏硬”。常规来说,针对不同粒度的分类体系,需要利用不同的分类器来单独预测,这种方式是费力和耗时的。
发明内容
发明人发现,当面对短文本的多分类问题时,如果采用深度学习的方式,由于短文本特征量不足,会是一个巨大的挑战而导致方案不可行;另一方面,如果采用常规贝叶斯多分类方案又会遇到语义反转的问题。
本发明的目的在于,提供一种对领域评价短文本生成层级化类别标签的方法、介质及电子设备,实现仅需一次预测就可生成领域评价短文本的层级化类别标签,无需针对不同分类粒度的需求构建不同的分类器,节省了时间、提高了分类效率。
根据本发明的一个方案,提供了一种对领域评价短文本生成层级化类别标签的方法,包括:对领域评价短文本进行分词以生成包含多个第一特征词的第一特征向量;将所生成的第一特征向量分别输入至训练好的至少一个领域短文本相似度模型中,以相应输出与所述领域评价短文本相似的至少一个相似训练短文本;基于所述至少一个相似训练短文本与其各自的层级化类别标签之间的对应关系,生成所述领域评价短文本的层级化类别标签。
根据本发明的另一个方案,提供了一种一时性计算机可读介质,其上存储有计算机可执行代码,所述计算机可执行代码在被处理器执行时实现所述的方法。
根据本发明的再一个方案,提供了一种电子设备,包括处理器、存储器以及其上存储的计算机可执行代码,所述处理器执行所述计算机可执行代码时实现所述的方法。
根据本发明的方案,利用至少一个领域短文本相似度模型,确定与领域评价短文本相似的至少一个训练短文本,从而依据至少一个相似训练短文本与其各自的层级化类别标签之间的对应关系,生成了领域评价短文本的层级化类别标签,在对领域评价短文本进行分类时,无需针对不同分类粒度的需求构建不同的分类器,节省了时间、提高了分类效率、满足了实际应用中的需要,并且由于使用的是领域内的短文本相似度模型而不是通用的短文本相似度模型,分类精度可以进一步提高。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京精准沟通传媒科技股份有限公司,未经北京精准沟通传媒科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110212431.4/2.html,转载请声明来源钻瓜专利网。