[发明专利]文本分类模型训练方法、诉讼状分类方法及装置有效
申请号: | 202110600977.7 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113344060B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 王文博;刘秉权;孙承杰;刘远超;单丽莉;林磊 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京隆源天恒知识产权代理有限公司 11473 | 代理人: | 鞠永帅 |
地址: | 150000 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 训练 方法 诉讼状 装置 | ||
本发明提供了一种文本分类模型训练方法、诉讼状分类方法及装置,训练方法包括:获取预先根据文本信息建立的多个人物事件关系图和文本信息的标签;将各个所述人物事件关系图输入预先建立的文本分类模型,分别对各个所述人物事件关系图进行编码,获得各个所述人物事件关系图的编码结果;基于注意力机制,分别确定各个所述编码结果的权重值,根据所述权重值对各个所述编码结果进行加权求和,获得文本表征结果;根据所述文本表征结果进行分类预测,获得预测结果;根据所述文本表征结果、所述预测结果和所述标签迭代优化所述文本分类模型至收敛。本发明的技术方案能够提高文本分类准确率,获得更好的分类效果。
技术领域
本发明涉及文本分类技术领域,具体而言,涉及一种文本分类模型训练方法、诉讼状分类方法及装置。
背景技术
文本分类是对文本集按照一定的分类规则进行自动分类标记。目前,常用的文本分类方法主要是对文本中涉及到的词语进行嵌入操作,得到各个词语的向量表示,然后按照文本中词语出现的顺序对词语的嵌入向量进行特征学习,得到整个文本的表征结果,最后根据得到的文本的表征结果进行分类。
现有的文本分类方法对简单的文本具有不错的效果,但是在面对包含了大量人物事件关系等词语间联系较复杂文本时,例如诉讼状等文本,诉讼状中包括了大量人物与人物之间关系、人物与事件之间关系和事件与事件之间关系等人物事件关系,由于现有的文本方法仅通过捕获的词语出现的顺序关系特征、词语本身的语义特征和词语出现的频率分布特征等进行分类,进行分类时依据的特征比较单一,无法体现词语间的联系,分类效果较差,分类准确率较低。
发明内容
本发明解决的问题是如何提高文本的分类准确率,获得更好的分类效果。
为解决上述问题,本发明提供一种文本分类模型训练方法、诉讼状分类方法、装置及存储介质。
第一方面,本发明提供了一种文本分类模型训练方法,包括:
获取预先根据文本信息建立的多个人物事件关系图和文本信息的标签;
将各个所述人物事件关系图输入预先建立的文本分类模型,分别对各个所述人物事件关系图进行编码,获得各个所述人物事件关系图的编码结果;
基于注意力机制,分别确定各个所述编码结果的权重值,根据所述权重值对各个所述编码结果进行加权求和,获得文本表征结果;
根据所述文本表征结果进行分类预测,获得预测结果;
根据所述文本表征结果、所述预测结果和所述标签迭代优化所述文本分类模型至收敛。
可选地,所述文本分类模型包括解码器,所述根据所述文本表征结果、所述预测结果和所述标签迭代训练所述文本分类模型至收敛包括:
采用所述解码器对所述文本表征结果进行恢复,获得恢复出的邻接矩阵;
根据所述恢复出的邻接矩阵和所述人物事件关系图对应的真实邻接矩阵确定L2范数损失;
根据所述文本表征结果和所述标签确定交叉熵损失,并根据所述L2范数损失和所述交叉熵损失确定联合损失;
根据所述联合损失迭代优化所述文本分类模型至收敛。
可选地,所述人物事件关系图包括人物与人物关系图、人物与事件关系图和事件与事件关系图。
可选地,所述文本分类模型包括图卷积神经网络,所述将各个所述人物事件关系图输入预先建立的文本分类模型,分别对各个所述人物事件关系图进行编码包括:
确定各个所述人物事件关系图对应的真实邻接矩阵,并将各个所述真实邻接矩阵输入所述图卷积神经网络,采用第一公式分别对各个所述人物事件关系图进行编码,所述第一公式包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110600977.7/2.html,转载请声明来源钻瓜专利网。