[发明专利]基于自注意力机制方面术语提取系统、方法、介质、终端有效
申请号: | 202110949000.6 | 申请日: | 2021-08-18 |
公开(公告)号: | CN113743099B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 石俊杰;王茜 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/211;G06F40/30;G06F18/2415;G06N3/0442;G06N3/08 |
代理公司: | 重庆立信达知识产权代理有限公司 50286 | 代理人: | 刘竹 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 方面 术语 提取 系统 方法 介质 终端 | ||
1.一种基于自注意力机制方面术语提取系统,其特征在于,所述基于自注意力机制方面术语提取系统包括:
词嵌入层,用于利用词性标注工具进行语句中各个单词的词性,并输出句中每一个词的词性词向量表示;
第一BiReGU层,用于对句子每一个单词的前文信息和后文信息进行处理,挖掘输入序列的上下文信息,深入地训练获得有用的文本特征,并计算隐藏状态;
单词注意力计算层,用于基于计算得到的隐藏状态分配不同的权重,为句子的每个单词生成不同的权重向量,并加权求和得到上下文向量;
第二BiReGU层,用于基于得到的权重向量与词嵌入相结合进行全局特征信息的提取;
全连接层,用于对提取信息进行处理;
CRF层,用于进行方面术语的标记,提取得到相应的方面术语。
2.一种运行权利要求1所述基于自注意力机制方面术语提取系统的基于自注意力机制方面术语提取方法,其特征在于,所述基于自注意力机制方面术语提取方法包括:
首先,利用词性标注工具进行语句中各个单词的词性,并输出句中每一个词的词性词向量表示;同时学习词在内容和词性方面的长期依赖关系;
其次,通过自注意力机制为文本中的每个词语赋予不同的权重;将得到的权重向量再次与词嵌入相结合,学习全局的文本特征表示;
最后,考虑邻居标签之间的相关性,进行全局选择,计算得到每一个单词的标签;用IOB2格式标记句子中的每个单词,提取标签为B、I的单词作为方面术语。
3.如权利要求2所述基于自注意力机制方面术语提取方法,其特征在于,所述基于自注意力机制方面术语提取系统包括以下步骤:
步骤一,进行文本数据表示形式的转换;并利用词嵌入层预训练模型得到词向量,再通过词性标注模型确定词性向量;
步骤二,将得到的词性向量通过第一BiReGU层对句子每一个单词的前文信息和后文信息进行处理,挖掘输入序列的上下文信息,深入训练得到有用的文本特征,计算隐藏状态;
步骤三,注意力计算层基于自注意机制根据BiReGU层的输出的隐藏状态分配不同的权重,并为句子的每个单词生成不同的权重向量,同时加权求和得到上下文向量;
步骤四,将注意力计算层的权输出与词性词向量信息进行拼接,并将拼接结果输入第二BiReGU层,得到全局的特征信息;
步骤五,将第二BiReGU层输出的向量送入全连接层进行处理并通过添加的CRF层得到预测的标签序列Y即对应语句中方面术语的标记,提取得到方面术语。
4.如权利要求3所述基于自注意力机制方面术语提取方法,其特征在于,步骤一中,所述利用词嵌入层预训练模型得到词向量,再通过词性标注模型确定词性向量包括:
输入词嵌入层得到词性词向量的表示形式:将输入句子X划分为n个词,将输入语句表示为其中Xi(1≤i≤n)表示X中第i个词,表示词之间的串联操作;
词Xi相应的采用Glove模型进行预训练,得到词向量用表示,其中表示训练词向量集,|V|表示词汇表V的大小,d表示词向量维度;
利用词性标注工具得到Xi的词性,用表示,得到每一个词Xi的词性词向量表示为
5.如权利要求3所述基于自注意力机制方面术语提取方法,其特征在于,步骤二中,所述隐藏状态计算公式如下:
其中,ht表示t时刻隐藏状态,表示前向ReGU的隐藏状态输出结果,表示后向ReGU的隐藏状态输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110949000.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于辅助炼钢用的金属废渣冷却分离设备
- 下一篇:一种整机自动测试方法