[发明专利]一种基于义原的自然语言情感分类方法在审
申请号: | 202110272643.1 | 申请日: | 2021-03-13 |
公开(公告)号: | CN112966514A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 辛欣;王艳平 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/289 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 情感 分类 方法 | ||
1.一种基于义原的自然语言情感分类方法,其特征在于:包括义原正负向极性的标注和文本情感分类,具体包括以下步骤:
步骤1:提取义原的极性特征;
步骤1.1:对HowNet知识库中所有义原标注其属于正向极性还是负向极性,输出标注后的义原列表L:Si→Yi;
其中Yi的取值为0或1,分别表示该词极性为负向和正向;
步骤1.2:将步骤1.1输出的义原列表L与HowNet知识库中每个词的中心义原Si进行匹配,输出将词映射到正负向极性的字典D:Ci→Yi;
步骤2:将数据集中的文本进行分词;
步骤2.1:使用Stanford分词开源工具将句子进行分词;
步骤2.2:将分词后的句子进行正负向情感标注,从而构建训练集样本,具体为:如果句子中只有一个分词后的词能与字典D中的某个词Ci匹配,则将该文本标记为当前Ci对应的Yi;如果句子中有多个分词后的词能与字典中的某个词Ci匹配,则将该文本标记为占比更高的Yi;如果句子中没有分词后的词能与字典中的某个词Ci匹配,则将当前文本从训练集中移至测试集中;
步骤2.3:获取训练集输入,具体为:将训练集中的每个样本(Xi,Yi)中的Xi使用BERT的预训练词向量对整个文本进行编码,得到的句子向量作为模型的输入;
步骤3:进行模型训练;
步骤3.1:将步骤1.5中获取到的输入句子向量ei联合对应文本的标签Yi输入到机器学习模型中进行特征提取和目标标签的学习;
步骤3.2:对训练集中的所有训练样本进行N次迭代训练,输出被训练好的基于义原的自然语言情感分类模型;
步骤4:使用步骤3.2输出的自然语言情感分类模型识别句子中两个实体之间的关系;任意输入一句自然语言的句子到被训练好的情感分类模型中,输出该自然语言是属于正向情感还是负向情感。
2.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法,其特征在于:步骤1.2具体包括以下子步骤:
步骤1.2.1:从HowNet知识库中取出一个词Ci与其对应的中心义原Si,在标注后的义原列表L中查找的当前词的中心义原Si,若Si=0,Yi=0;若Si=1,Yi=1,,从而得到字典D。
3.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法,其特征在于:步骤1.2中i的取值范围是1到N,N是训练集中样本的总数。
4.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法,其特征在于:步骤3.1中,ei经过sigmoid(·)函数将值映射到(0,1)区间。
5.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法,其特征在于:步骤4中,任意输入一句自然语言的句子经过训练好的逻辑回归模型后的阈值为0.5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110272643.1/1.html,转载请声明来源钻瓜专利网。