首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种领域词抽取方法、装置、终端及计算机可读存储介质在审

申请号：	202210870993.2	申请日：	2022-07-22
公开（公告）号：	CN115422350A	公开（公告）日：	2022-12-02
发明（设计）人：	孙向欣;魏书法;谢育涛	申请（专利权）人：	粤港澳大湾区数字经济研究院（福田）
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/335;G06F16/338
代理公司：	深圳市君胜知识产权代理事务所(普通合伙) 44268	代理人：	李晓凤
地址：	518045 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种领域抽取方法装置终端计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种领域词抽取方法，其特征在于，包括：

将目标文本输入已训练的领域词抽取模型，抽取所述目标文本中所有的原始领域词；

将所有所述原始领域词输入已训练的领域词分类模型，获得每个所述原始领域词对应的分类结果；

根据所述分类结果，按照预设关联规则将所述原始领域词关联到标准层级关系表中的标准领域词，并输出所述标准领域词。

2.根据权利要求1所述的领域词抽取方法，其特征在于，所述将目标文本输入已训练的领域词抽取模型，抽取所述目标文本中所有的原始领域词，包括：

将目标文本输入已训练的领域词抽取模型，得到与所述目标文本对应的向量序列，所述向量序列中的每个向量与所述目标文本中的每个单词一一对应；

利用全连接层对每个向量进行分类，输出分类结果序列，所述分类结果序列中包括与每个单词一一对应的标签，所述标签包括：领域词起始位置、领域词非起始位置以及非领域词；

以标签为领域词起始位置对应的单词和领域词非起始位置对应的单词抽取为原始领域词。

3.根据权利要求1或2所述的领域词抽取方法，其特征在于，将所有所述原始领域词输入已训练的领域词分类模型，获得每个所述原始领域词对应的分类结果，包括：

将所有所述原始领域词输入已训练的领域词分类模型；

按照所述领域词分类模型中的分类模型特征，对所有所述原始领域词进行分类，类别包括：已知领域词、新领域词、全新领域词以及噪音。

4.根据权利要求3所述的领域词抽取方法，其特征在于，根据所述分类结果，按照预设关联规则将所述领域词关联到标准层级关系表中的标准领域词，并输出所述标准领域词，包括：

当所述原始领域词的类别为噪音时，将所述原始领域词删除；

当所述原始领域词的类别为已知领域词时，按照第一预设关联规则将所述原始领域词关联到所述标准层级关系表中的标准领域词，并输出所述标准领域词；

当所述原始领域词的类别为新领域词或全新领域词时，按照第二预设关联规则将所述原始领域词关联至标准层级关系表中的标准领域词，并输出所述标准领域词；

其中，所述标准层级关系表中包括：标准领域词以及标准领域词之间的层级关系。

5.根据权利要求4所述的领域词抽取方法，其特征在于，所述第一预设关联规则为根据语义和字形关联；所述第二预设关联规则为根据层级匹配公式、字形和语义关联；

所述层级匹配公式为

其中，所述I和J均为领域词，所述∑_k∈(I∩J)I表示I和J同时出现的次数，所述∑_k∈II表示I出现的次数，所述∑_k∈JI表示J出现的次数；

当所述RC(i,j)大于预设阈值时，I为J的一个子类。

6.根据权利要求2所述的领域词抽取方法，其特征在于，所述领域词抽取模型和所述领域词分类模型的训练步骤包括：

获取第一训练数据集，对初始领域词抽取模型进行训练，得到第一训练领域词；

对所述第一训练领域词进行标注，并根据标注的所述第一训练领域词构建初始层级关系表；

根据标注的所述第一训练领域词，按照分类模型特征对所述初始领域词分类模型进行训练；

获取第二训练数据集，将所述第二训练数据集输入所述初始领域词抽取模型，得到所述第二训练数据集中的所有第二训练领域词；

将所有所述第二训练领域词进行分类处理，类别包括：已知领域词、新领域词、全新领域词以及噪音；

根据所述第二训练领域词的类别，按照分类模型特征训练所述初始领域词分类模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于粤港澳大湾区数字经济研究院（福田），未经粤港澳大湾区数字经济研究院（福田）许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210870993.2/1.html，转载请声明来源钻瓜专利网。

上一篇：可更换加热片的水烟电磁加热装置
下一篇：一种利用扫描电化学显微镜（SECM）检测不可逆电穿孔程度的方法

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top