[发明专利]情感三元组抽取方法及装置在审
申请号: | 202210773096.X | 申请日: | 2022-06-30 |
公开(公告)号: | CN115017881A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 孙东红;刘武;时子威;黄永峰 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/284;G06F40/30;G06F16/35;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 赵娜 |
地址: | 100084 北京市海淀区双清路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感 三元 抽取 方法 装置 | ||
本发明提供一种情感三元组抽取方法及装置,其中方法包括:获取待评价文本;将待评价文本输入至抽取模型,获得抽取模型输出的情感三元组;其中,抽取模型是基于片段文本样本、由片段文本样本构成的文本组合以及文本组合对应的搭配标签训练得到的,搭配标签是根据文本组合预先确定的;抽取模型,用于基于待评价文本的语义特征和中文分词特征对待评价文本进行情感三元组抽取。本发明实施例提供的情感三元组抽取方法及装置,可以结合待评价文本的语义特征和中文分词特征,提高了对中文文本情感三元组抽取的准确率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种情感三元组抽取方法及装置。
背景技术
情感三元组能够更好地表征观点表达在不同语义环境或不同评价对象下的情感极性,从而更好地辅助情感分析模型得到更全面而精准的情感分析结果。
现有的情感三元组抽取模型研究目前仍然局限于英文数据集,在对文本特征设计上未考虑到中文的语言特征,因此在中文文本情感分析场景下,现有的情感三元组抽取模型的效果并不理想。
发明内容
本发明提供一种情感三元组抽取方法及装置,用以解决现有技术中对中文情感三元组抽取准确率低的缺陷,提高中文情感三元组抽取准确率。
第一方面,本发明提供一种情感三元组抽取方法,包括:
获取待评价文本;
将所述待评价文本输入至抽取模型,获得所述抽取模型输出的情感三元组;
其中,所述抽取模型是基于片段文本样本、由所述片段文本样本构成的文本组合以及所述文本组合对应的情感标签训练得到的,所述情感标签是根据所述文本组合预先确定的;
所述抽取模型,用于基于所述待评价文本的语义特征和中文分词特征对所述待评价文本进行情感三元组抽取。
可选地,所述将所述待评价文本输入至抽取模型,获得所述抽取模型输出的情感三元组,包括:
对所述待评价文本进行片段分割,获得所述待评价文本中的所有的文本片段;
对每个所述文本片段进行语义特征提取和结构信息提取,获得每个所述文本片段对应的文本片段特征表示;
对每个所述文本片段特征表示进行片段分类,获得片段分类结果,所述片段分类结果包括评价对象特征、观点表达特征或非情感三元组元素特征;
基于所述评价对象特征、所述观点表达特征和所述待评价文本,确定上下文特征;
基于所述评价对象特征、所述观点表达特征和所述上下文特征,确定文本片段组合特征表示;
对所述文本片段组合特征表示进行类型分类和情感极性分类,获得类型分类结果和情感极性分类结果;
基于所述类型分类结果和情感极性分类结果,获得情感三元组。
可选地,所述对每个所述文本片段进行语义特征提取和结构信息提取,获得每个所述文本片段对应的文本片段特征表示,包括:
对所述待评价文本进行文本编码,获得所述待评价文本中每个字对应的字级语义表示;
对所述待评价文本进行中文分词,获得分词结果;
基于所述字级语义表示,获得每个所述文本片段对应的片段语义表示;
将每个所述文本片段与所述分词结果进行对比,确定每个所述文本片段包含的分词数量;
基于每个所述文本片段对应的片段语义表示和每个所述文本片段对应的分词数量,确定每个所述文本片段的文本片段特征表示。
可选地,所述基于所述字级语义表示,获得每个所述文本片段对应的片段语义表示,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210773096.X/2.html,转载请声明来源钻瓜专利网。