[发明专利]情感三元组抽取方法及装置在审
申请号: | 202210773096.X | 申请日: | 2022-06-30 |
公开(公告)号: | CN115017881A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 孙东红;刘武;时子威;黄永峰 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/284;G06F40/30;G06F16/35;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 赵娜 |
地址: | 100084 北京市海淀区双清路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感 三元 抽取 方法 装置 | ||
1.一种情感三元组抽取方法,其特征在于,包括:
获取待评价文本;
将所述待评价文本输入至抽取模型,获得所述抽取模型输出的情感三元组;
其中,所述抽取模型是基于片段文本样本、由所述片段文本样本构成的文本组合以及所述文本组合对应的情感标签训练得到的,所述情感标签是根据所述文本组合预先确定的;
所述抽取模型,用于基于所述待评价文本的语义特征和中文分词特征对所述待评价文本进行情感三元组抽取。
2.根据权利要求1所述的情感三元组抽取方法,其特征在于,所述将所述待评价文本输入至抽取模型,获得所述抽取模型输出的情感三元组,包括:
对所述待评价文本进行片段分割,获得所述待评价文本中的所有的文本片段;
对每个所述文本片段进行语义特征提取和结构信息提取,获得每个所述文本片段对应的文本片段特征表示;
对每个所述文本片段特征表示进行片段分类,获得片段分类结果,所述片段分类结果包括评价对象特征、观点表达特征或非情感三元组元素特征;
基于所述评价对象特征、所述观点表达特征和所述待评价文本,确定上下文特征;
基于所述评价对象特征、所述观点表达特征和所述上下文特征,确定文本片段组合特征表示;
对所述文本片段组合特征表示进行类型分类和情感极性分类,获得类型分类结果和情感极性分类结果;
基于所述类型分类结果和情感极性分类结果,获得情感三元组。
3.根据权利要求2所述的情感三元组抽取方法,其特征在于,所述对每个所述文本片段进行语义特征提取和结构信息提取,获得每个所述文本片段对应的文本片段特征表示,包括:
对所述待评价文本进行文本编码,获得所述待评价文本中每个字对应的字级语义表示;
对所述待评价文本进行中文分词,获得分词结果;
基于所述字级语义表示,获得每个所述文本片段对应的片段语义表示;
将每个所述文本片段与所述分词结果进行对比,确定每个所述文本片段包含的分词数量;
基于每个所述文本片段对应的片段语义表示和每个所述文本片段对应的分词数量,确定每个所述文本片段的文本片段特征表示。
4.根据权利要求3所述的情感三元组抽取方法,其特征在于,所述基于所述字级语义表示,获得每个所述文本片段对应的片段语义表示,包括:
聚合每个所述文本片段对应的字级语义表示,获得每个所述文本片段对应的片段语义表示。
5.根据权利要求3所述的情感三元组抽取方法,其特征在于,所述基于每个所述文本片段对应的片段语义表示和每个所述文本片段对应的分词数量,确定每个所述文本片段的文本片段特征表示,包括:
对所述每个所述文本片段对应的片段语义表示和每个所述文本片段对应的分词数量进行拼接,获得每个所述文本片段的文本片段特征表示。
6.根据权利要求2所述的情感三元组抽取方法,其特征在于,所述基于所述评价对象特征、所述观点表达特征和所述待评价文本,确定上下文特征,包括:
获取评价对象文本和观点表达文本之间的间隔文本片段,所述评价对象文本为所述评价对象特征对应的文本片段,所述观点表达文本为所述观点表达特征对应的文本片段;
对所述间隔文本片段进行语义特征提取,获得所述上下文特征。
7.根据权利要求2所述的情感三元组抽取方法,其特征在于,所述抽取模型在训练过程中的优化目标为:最小化损失函数的值;
其中,所述损失函数为片段分类的交叉熵损失、类型分类的交叉熵损失、情感极性分类的交叉熵损失以及所述抽取模型的L2正则化损失之和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210773096.X/1.html,转载请声明来源钻瓜专利网。