[发明专利]一种基于义原的自然语言情感分类方法在审

申请号：	202110272643.1	申请日：	2021-03-13
公开（公告）号：	CN112966514A	公开（公告）日：	2021-06-15
发明（设计）人：	辛欣;王艳平	申请（专利权）人：	北京理工大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06F40/289
代理公司：	北京正阳理工知识产权代理事务所(普通合伙) 11639	代理人：	张利萍
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于自然语言情感分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于义原的自然语言情感分类方法，其特征在于：包括义原正负向极性的标注和文本情感分类，具体包括以下步骤：

步骤1：提取义原的极性特征；

步骤1.1：对HowNet知识库中所有义原标注其属于正向极性还是负向极性，输出标注后的义原列表L：S_i→Y_i；

其中Y_i的取值为0或1，分别表示该词极性为负向和正向；

步骤1.2：将步骤1.1输出的义原列表L与HowNet知识库中每个词的中心义原S_i进行匹配，输出将词映射到正负向极性的字典D：C_i→Y_i；

步骤2：将数据集中的文本进行分词；

步骤2.1：使用Stanford分词开源工具将句子进行分词；

步骤2.2：将分词后的句子进行正负向情感标注，从而构建训练集样本，具体为：如果句子中只有一个分词后的词能与字典D中的某个词C_i匹配，则将该文本标记为当前C_i对应的Y_i；如果句子中有多个分词后的词能与字典中的某个词C_i匹配，则将该文本标记为占比更高的Y_i；如果句子中没有分词后的词能与字典中的某个词C_i匹配，则将当前文本从训练集中移至测试集中；

步骤2.3：获取训练集输入，具体为：将训练集中的每个样本(X_i,Y_i)中的X_i使用BERT的预训练词向量对整个文本进行编码，得到的句子向量作为模型的输入；

步骤3：进行模型训练；

步骤3.1：将步骤1.5中获取到的输入句子向量eⁱ联合对应文本的标签Y_i输入到机器学习模型中进行特征提取和目标标签的学习；

步骤3.2：对训练集中的所有训练样本进行N次迭代训练，输出被训练好的基于义原的自然语言情感分类模型；

步骤4：使用步骤3.2输出的自然语言情感分类模型识别句子中两个实体之间的关系；任意输入一句自然语言的句子到被训练好的情感分类模型中，输出该自然语言是属于正向情感还是负向情感。

2.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法，其特征在于：步骤1.2具体包括以下子步骤：

步骤1.2.1：从HowNet知识库中取出一个词C_i与其对应的中心义原S_i，在标注后的义原列表L中查找的当前词的中心义原S_i，若S_i＝0，Y_i＝0；若S_i＝1，Y_i＝1，,从而得到字典D。

3.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法，其特征在于：步骤1.2中i的取值范围是1到N，N是训练集中样本的总数。

4.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法，其特征在于：步骤3.1中，eⁱ经过sigmoid(·)函数将值映射到(0,1)区间。

5.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法，其特征在于：步骤4中，任意输入一句自然语言的句子经过训练好的逻辑回归模型后的阈值为0.5。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110272643.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种屏蔽连接组件、线缆组件和线缆组件的制备方法
下一篇：一种多层混合半导体封装

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于义原的自然语言情感分类方法在审

专利文献下载