[发明专利]一种关键词抽取方法及装置和编码器和解码器在审

专利信息
申请号: 202011593468.8 申请日: 2020-12-29
公开(公告)号: CN114692613A 公开(公告)日: 2022-07-01
发明(设计)人: 张浩宇;龙定坤;徐光伟;王潇斌;谢朋峻;黄非 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F40/258 分类号: G06F40/258;G06F40/211;G06F16/35;G06F40/126;G06F40/216;G06F40/284
代理公司: 北京安信方达知识产权代理有限公司 11262 代理人: 李丹;栗若木
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 关键词 抽取 方法 装置 编码器 解码器
【说明书】:

本申请公开了一种关键词抽取方法及装置和编码器和解码器,通过利用已经生成的关键词信息动态修改原始文档的句法图结构的方式,将关键词生成过程即解码信息传递到了编码处理部分,从而同时解决了建模关键词关系和获得更好地语义表示这两个问题,提升了文档编码的效果。进一步地,通过配合多样性推断过程,获得了更加准确和多样的关键词序列。也就是说,提高了关键词生成的准确率,减少了产生的重复关键词、增多了产生的关键词总数。

技术领域

本申请涉及但不限于信息处理技术,尤指一种关键词抽取方法及装置和编码器和解码器。

背景技术

关键词抽取是在给定一段较长文本的情况下,通过某些手段提取出文本所要表达的核心内容,从而在大量信息中准确、快速地提取出关键信息。这些关键词可以是具有特定意义的实体、也可以是一些基础概念或者事件。抽取出的关键词可以采用关键词序列来表示,关键词序列可以按照置信度依次列出,置信度越高其排序越靠前。抽取出的关键词序列可以被应用到如游记、笔记、新闻等不同领域文章的主题标签标注,以及文献检索、推荐系统中。

相关技术中,一种方式是采用词频-逆向文件频率(TF-IDF,Term Frequency-Inverse Document Frequency)、用于文本的基于图的排序算法(TextRank)等方法来抽取关键词。这种方式大致包括:从原文中依据一定的规则选择部分短语作为关键词候选,而后通过有监督或无监督的方法训练一个短语排序模型来进行关键词选择。这种方式过于依赖人工编写的规则,而且总体效果不够好。

另一种方式是基于序列到序列模型抽取关键词,但是,这种方式面临着两个问题:1)如何产生一个足够好的文档表示,以反映出原始文档中对关键词抽取最重要的关键语义信息;2)如何建模关键词集合中关键词间的关系,即如何更好地学习条件概率P(yn|yn),其中,yn是当前需要产生的关键词,yn是已经生成的关键词序列。其中,序列到序列模型是一种起源于神经机器翻译领域的神经网络生成模型框架,适用于输入和输出都是文本序列的问题场景,包括编码器和解码器两个部分;编码器用于将输入文本序列编码为向量语义表示(本文中也称为文档表示),解码器则通过注意力机制等方式与编码器输出进行交互,依次产生输出序列的每个词。

发明内容

本申请提供一种关键词抽取方法及装置,能够提升文档编码效果,从而产生准确的关键词。

本发明实施例提供了一种关键词抽取方法,包括:

根据待处理文档的句法信息和当前时刻已生成的关键词信息进行编码处理,获取当前时刻的文档表示信息;

根据所述当前时刻的文档表示信息和所述当前时刻已生成的关键词信息进行解码处理,获取下一时刻的关键词信息。

在一种示例性实例中,所述待处理文档的句法信息通过如下方式获得:

从所述待处理文档中抽取出一个或多个句法树以构成句法树集合;

根据所述句法树集合,为所述待处理文档构建句法图,所述句法图的节点为所述待处理文档中的词,所述句法图的有向边为所述待处理文档中词与词之间的依赖边。

在一种示例性实例中,所述根据待处理文档的句法信息和当前时刻已生成的关键词信息进行编码处理,获取当前时刻的文档表示信息,包括:

根据所述当前时刻已生成的关键词信息更新所述待处理文档的句法图信息,获得当前时刻所述句法图中有向边的边权重;

根据原始文档中每个词的词表示向量更新所述句法图中节点表示向量;

根据所述节点表示向量和有向边的边权重得到当前时刻的文档表示信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011593468.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top