[发明专利]一种面向机械化工领域的中文实体识别方法和系统在审

专利信息
申请号: 202110588878.1 申请日: 2021-05-28
公开(公告)号: CN113408286A 公开(公告)日: 2021-09-17
发明(设计)人: 高楠;朱象宇 申请(专利权)人: 浙江工业大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/216
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵
地址: 310014 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 机械 化工 领域 中文 实体 识别 方法 系统
【权利要求书】:

1.一种面向机械化工领域的中文实体识别方法,包含如下步骤:

(1)采取短文本预处理来提取有效内容;

(2)采用经过词典优化的中文分词器进行中文分词和词性标注筛选出名词;

(3)利用词频与类优先级函数所构成的权重函数用作权重计算同时基于规则式优化加权提取短文本最高权重关键词;

(4)搜索权重最高关键词的上下文同时基于构建的有向概率状态转化图来进行关键词的上下文扩展从而形成目标实体。

2.如权利要求1所述的一种面向机械化工领域的中文实体识别方法,其特征在于:步骤(1)所述的短文本预处理具体包括:

(1-1)文本正则;为了处理脏数据,文本正则包括纯中文的提取并且无视短文本所有括号中的内容,其中括号内容为特殊注释,对实体识别无明显作用故舍去;

(1-2)特殊词的处理;机械化工类短文本含有包含了产品名称和产品型号的独有的特征,“型号”、“规格”、“规格型号”的词能帮助快速直接定位目标产品实体所在的位置,在定位型号的位置后只需在上下文寻找产品名称即可,即直接将上下文作为候选关键词,能减少在关键词提取步骤中的消耗,无需将短文本中的全部名词当作候选关键词去使用权重公式,或者直接当作步骤(3)中的规则式,能提高识别准确率。

3.如权利要求1所述的一种面向机械化工领域的中文实体识别方法,其特征在于:步骤(2)所述的词典优化是对于中文分词器的词典优化,包括添加停止词和自定义词典、根据识别结果统计更新语料库。

4.如权利要求1所述的一种面向机械化工领域的中文实体识别方法,其特征在于:步骤(3)所述的提取关键词所使用的权重函数,提取关键词策略为基于TF-IDF关键词提取策略的增强改进版,TF-IDF策略为常用文本分类统计方法,词频*逆向文件频率作为加权即tfi,j*idfi;其中:

因为逆向文件频率idfi在短文本中的提取识别效率极低,故用类优先级函数

作为替代,权重函数则优化为tfi,j*f(t),其中

t=实体为最终关键词个数/该实体在全部短文本中作为候选关键词个数,即

t代表了候选关键词成为最终词的强度,理想范围为[0,1],当t→0时,代表该词不可能成为最终词,当t→1时代表了该词出现必然为最终词,因而利用函数变化通过f(t)在不影响函数实际作用凹凸性的情况下将范围放大,使权重差距变大从而更利于体现t的作用,其核心目标为提高最终关键词命中概率,常数1.01是为了防止实际运行中出现除数为0的情况;

在实际运行中当出现t1的情况,进行范围修正,范围修正为将所有t除以tmax从而保证范围t=1。

5.如权利要求1所述的一种面向机械化工领域的中文实体识别方法,其特征在于:步骤(3)所述的规则式优化加权具体包括:

因为f(t)为全监督学习,当训练集太过紊乱导致f(t)存在明显误差,实际情况一个短文本可能包含多个最终关键词,或t不存在时,即代表了该词未曾出现,此时类优先级函数无效;此时采取规则式优化加权,其中规则式包含但不仅限于利用结果集聚类产生的某一特征,包括产品实体占据短文本的相对位置、产品实体的字符大小范围;

设有n个规则式,结果集符合规则式的占取百分比分别为x1,x2,x3,……x1,当xn0.5时,则认为该规则式具有较大实用性,在权重函数的基础上增加权重

其中C为常数,实际上代表了规则式在总权重的占比,默认置为1/n,在资源足够时为了达到较优的常数C,使用部分运行结果基于梯度下降求得较优解,特征值为两部分分别为权重函数和加权函数;加权函数本质上为sigmoid激活函数的逆函数,故实际上当xn0.5也可参与优化加权但影响不佳,可发现当xn0.5也时加权函数为负,为减少运行成本考虑舍去。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110588878.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top