[发明专利]一种中文专词抽取方法、系统、电子设备及存储介质在审
| 申请号: | 202111257220.9 | 申请日: | 2021-10-27 |
| 公开(公告)号: | CN114004231A | 公开(公告)日: | 2022-02-01 |
| 发明(设计)人: | 王梦婷 | 申请(专利权)人: | 浙江诺诺网络科技有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06F40/237;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘珂 |
| 地址: | 310000 浙江省杭州市西*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 中文 抽取 方法 系统 电子设备 存储 介质 | ||
1.一种中文专词抽取方法,其特征在于,包括:
获取中文文档数据,并对所述中文文档数据进行预处理和专词标注得到训练语料数据集;
分别提取所述中文文档数据的嵌入层特征、词汇层特征和句子层特征,拼接所述嵌入层特征、所述词汇层特征和所述句子层特征得到所述中文文档数据的词汇特征表示;
根据所述词汇特征表示构建BiLSTM模型和文档图;
利用所述BiLSTM模型和所述文档图构建专词抽取框架模型;其中,所述专词抽取框架模型的编辑器为所述文档图,解码器为CRF;
将所述训练语料数据集输入所述专词抽取框架模型进行训练;
若接收到未知中文文档数据,则利用训练后的所述专词抽取框架模型抽取所述未知中文文档数据中的中文专词。
2.根据权利要求1所述中文专词抽取方法,其特征在于,对所述中文文档数据进行预处理和专词标注得到训练语料数据集,包括:
对所述中文文档数据进行预处理;
采用BIO标注方式对预处理后的所述中文文档数据进行专词标注;
按照预设比例将专词标注后的中文文档数据划分为所述训练语料数据集和测试语料数据集。
3.根据权利要求2所述中文专词抽取方法,其特征在于,在将所述训练语料数据集输入所述专词抽取框架模型进行训练之后,还包括:
利用所述测试数据对训练后的专词抽取框架模型进行校验,得到模型评估结果。
4.根据权利要求1所述中文专词抽取方法,其特征在于,提取所述中文文档数据的嵌入层特征,包括:
构建词嵌入概率模型,利用所述词嵌入概率模型获取所述中文文档数据的嵌入层特征。
5.根据权利要求1所述中文专词抽取方法,其特征在于,提取所述中文文档数据的词汇层特征,包括:
基于专词词表构建flat_lattice结构,并建立所述flat_lattice结构对应的词汇相对位置编码矩阵;
根据所述词汇相对位置编码矩阵构建XLNet注意力网络层;
利用所述XLNet注意力网络层提取所述中文文档数据的词汇层特征。
6.根据权利要求1所述中文专词抽取方法,其特征在于,提取所述中文文档数据的句子层特征,包括:
在所述中文文档数据中按照预设句子窗口融合上下文句子信息的特征,得到所述中文文档数据的句子层特征。
7.根据权利要求1至6任一项所述中文专词抽取方法,其特征在于,根据所述词汇特征表示构建BiLSTM模型和文档图,包括:
根据所述词汇特征表示构建BiLSTM模型,以便得到局部信息增强后的词汇特征表示;
以词汇为节点、句子间是否出现实体作为建立邻边的判断标准,构建所述中文文档数据对应的初始文档图,利用所述词汇特征表示训练所述初始文档图得到所述文档图,以便得到全局信息增强后的词汇特征表示。
8.一种中文专词抽取装置,其特征在于,包括:
标注模块,用于获取中文文档数据,并对所述中文文档数据进行预处理和专词标注得到训练语料数据集;
特征提取模块,用于分别提取所述中文文档数据的嵌入层特征、词汇层特征和句子层特征,拼接所述嵌入层特征、所述词汇层特征和所述句子层特征得到所述中文文档数据的词汇特征表示;
模型构建模块,用于根据所述词汇特征表示构建BiLSTM模型和文档图;还用于利用所述BiLSTM模型和所述文档图构建专词抽取框架模型;其中,所述专词抽取框架模型的编辑器为所述文档图,解码器为CRF;
训练模块,用于将所述训练语料数据集输入所述专词抽取框架模型进行训练;
专词抽取模块,用于若接收到未知中文文档数据,则利用训练后的所述专词抽取框架模型抽取所述未知中文文档数据中的中文专词。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至7任一项所述中文专词抽取方法的步骤。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述中文专词抽取方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江诺诺网络科技有限公司,未经浙江诺诺网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111257220.9/1.html,转载请声明来源钻瓜专利网。





