[发明专利]分类标签的核心语句提取方法、系统、设备及存储介质在审
申请号: | 202111234433.X | 申请日: | 2021-10-22 |
公开(公告)号: | CN113987174A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 吴宇皓;周震卿;鞠剑勋;李健 | 申请(专利权)人: | 上海携旅信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F40/211;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 钟宗 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 标签 核心 语句 提取 方法 系统 设备 存储 介质 | ||
本发明提供了分类标签的核心语句提取方法、系统、设备及存储介质,该方法包括:提供具有文本预设标签的语句训练文本,对语句训练文本转化为数字序列并复制扩充一次,在转化为字词向量矩阵,并通过字词向量矩阵获得语句编码向量;根据文本预设标签和神经网络获取的模型预测标签获得总损失,经过迭代训练获得总损失最小时的神经网络分类模型和训练语句对应的语句编码向量;根据标签对应的语句编码向量的平均值获得中心向量;以及根据中心向量和语句编码向量的相似排序,选出核心语句。本发明能够通过深度学习的方式去除了部分冗余数据,大幅提升神经网络分类模型中选取核心语句的准确性,大幅度降低模型计算成本。
技术领域
本发明涉及用自然语言处理领域,具体地说,涉及分类标签的核心语句提取方法、系统、设备及存储介质。
背景技术
中国互联网旅游行业近年来增速发展,同时大数据和人工智能技术近年来更是飞速发展。大数据和人工智能技术已经被成功运用在互联网旅游行业。同时针对旅游领域的海量数据,传统的人工方法已经落后,需要人工智能来代替人工,提升处理效率。现如今随着深度学习的兴起,自然语言处理迎来了蓬勃的发展。在自然语言处理的任务之中基本可以分为三个小的模块,文本数据搜集和预处理,将文本进行编码和表征,设计模型解决具体任务。当然在部分问题中将文本进行编码和表征与设计模型解决具体任务的界限不是特别的清晰。
目前对于将文本进行编码和表征已经有了很优秀的进展,从N-Gram,word2vec,慢慢的到Transformer,bert等。对于将文本进行编码和表征的技术有了长足的进步,不限于仅仅统计词频,开始更加深入的挖掘语义、逻辑等深层的文本的含义。但是目前公司应用的语料库与学术上所作比较的语料库存在着差异,公司应用的语料库库中有着大量的冗余数据、乃至错误数据。而这些冗余或不好的数据在一定程度上制约着,现有模型的精度,我们使用的模型效果往往不能达到在学术领域使用的语料库的效果。当然在目前深度学习之中,也一直在探寻可以抗高噪声,高冗余的模型方式。
在目前使用的语料之中,存在这一定的冗余数据,冗余数据大大提高了模型的计算量,本文提出的提取核心句模型通过深度学习的方式去除了部分冗余数据,使模型在保证效果的前提下,显著减少了计算量。
因此,本发明提供了一种分类标签的核心语句提取方法、系统、设备及存储介质。
发明内容
针对现有技术中的问题,本发明的目的在于提供分类标签的核心语句提取方法、系统、设备及存储介质,克服了现有技术的困难,能够通过深度学习的方式去除了部分冗余数据,大幅提升神经网络分类模型中选取核心语句的准确性,大幅度降低模型计算成本。
本发明的实施例提供一种分类标签的核心语句提取方法,包括以下步骤:
S110、提供语句训练文本,所述语句训练文本中的每个训练语句具有至少一文本预设标签;
S120、对所述语句训练文本进行中文分词获得字词,根据预设索引字典将所述训练语句中字词的文本依次转化为对应的数字,获得所述训练语句的数字序列并复制扩充一次;
S130、将所述数字序列转化为对应的字词向量矩阵,该向量矩阵分别输入神经网络分类模型进行预训练,获得所述训练语句的语句编码向量;
S140、通过所述神经网络分类模型来获取所述训练语句的模型预测标签,根据所述文本预设标签和模型预测标签的标签类别概率分布获得交叉熵损失值和两个相同语句的KL散度计算损失值,根据所述交叉熵损失值和KL散度计算损失值获得总损失值;
S150、经过迭代训练获得总损失最小时的神经网络分类模型作为训练后的神经网络分类模型;
S170、将所述语句训练文本输入训练后的神经网络分类模型中的特征提取器,获得所述训练语句对应的语句编码向量;
S180、根据各个所述标签对应的所有所述语句编码向量的平均值获得每个所述标签对应的中心向量;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携旅信息技术有限公司,未经上海携旅信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111234433.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:资产证券化管理方法及装置
- 下一篇:一种电机驱动系统的开机初始化电路