[发明专利]一种语义短语抽取方法及相关装置在审
| 申请号: | 202111236111.9 | 申请日: | 2021-10-22 |
| 公开(公告)号: | CN113886530A | 公开(公告)日: | 2022-01-04 |
| 发明(设计)人: | 徐林海;孟超;葛天艺;欧红飞 | 申请(专利权)人: | 南京奥派信息产业股份公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35;G06F40/194;G06F40/242;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 张晓 |
| 地址: | 210015 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语义 短语 抽取 方法 相关 装置 | ||
本申请实施例公开了一种语义短语抽取方法,包括:对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息,输入文本信息为用于训练的信息;将所述待处理文本信息进行转换得到文本向量矩阵;基于激活函数,根据所述文本向量矩阵计算文本向量;对所述文本向量进行聚类得到第一正则表达式;根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语,所述第一目标语义短语包括名词实体和动词加名词实体的短语。
技术领域
本申请实施例涉及人工智能领域,尤其涉及一种语义短语抽取方法及相关装置。
背景技术
随着技术的不断发展,尤其是互联网技术的应用与普及,信息能够以更高的速度传递,这使得人们能够接收到越来越多的信息。基于这些接收信息,人们可以进行适当的处理,从而使得工作和生活的效率不断提高。
然而,大量信息会使用户应接不暇,分散注意力,信息的处理难度也较大,从而使得用户需花费不必要的时间和精力去识别出真正需要的信息,这导致用户的体验较差,效率受到限制。
发明内容
本申请实施例提供了一种语义短语抽取方法及语义短语抽取装置。
一种语义短语抽取方法,包括:
对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息,所述输入文本信息为用于训练的信息;
将所述待处理文本信息进行转换得到文本向量矩阵;
基于激活函数,根据所述文本向量矩阵计算文本向量;
对所述文本向量进行聚类得到第一正则表达式;
根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语,所述第一目标语义短语包括名词实体和动词加名词实体的短语。
可选的,基于激活函数,根据所述文本向量矩阵计算文本向量包括:
根据以下公式计算所述文本向量:
yi=f(∑ωi·xi,i+m-1+β);
yi表示第i维的文本向量;
f表示所述激活函数;
ωi表示第i维的权重矩阵;
β表示偏置值;
m表示每层卷积核的步长;
xi,i+m-1表示根据卷积核从第i行向量到第i+m-1行向量形成的矩阵。
可选的,对所述文本向量进行聚类得到第一正则表达式之后,根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语之前,所述方法还包括:
识别所述输入文本信息中的输入语义短语之间的候选依存关系;
根据所述候选依存关系确定目标依存关系;
通过所述目标依存关系得到第二正则表达式;
根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语包括:
根据所述第一正则表达式和所述第二正则表达式对所述目标文本信息进行抽取,得到所述第一目标语义短语,所述第一目标语义短语包括所述第一正则表达式的抽取结果和所述第二正则表达式的抽取结果。
可选的,通过所述目标依存关系得到第二正则表达式之后,根据所述第一正则表达式和所述第二正则表达式对所述目标文本信息进行抽取,得到所述第一目标语义短语之前,所述方法还包括:
识别所述输入文本信息中的名词模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京奥派信息产业股份公司,未经南京奥派信息产业股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111236111.9/2.html,转载请声明来源钻瓜专利网。





