[发明专利]一种关键词提取方法和提取系统有效
申请号: | 201611186254.2 | 申请日: | 2016-12-20 |
公开(公告)号: | CN106776562B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 贾祯;白杨;朱频频 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F40/30;G06N3/04 |
代理公司: | 北京布瑞知识产权代理有限公司 11505 | 代理人: | 孟潭 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 提取 方法 系统 | ||
一种关键词提取方法和提取系统。本发明的关键词提取方法和提取系统,用于解决无法准确获得正确语义表达的关键词汇的技术问题,包括:对问题文本进行向量化处理,形成包含关键词的向量特征的问题语料;利用BLSTM RNN对问题语料中的关键词进行抽取。
技术领域
本发明涉及自然语言处理方法和系统,特别涉及一种关键词提取方法和提取系统。
背景技术
在对知识库的人工智能构建过程中,需要对以语言为载体的问题进行确定,获取提问问题的具体语义表达的内容含义,即需要准确抽取出用户想要问的最为核心的问题。问题的具体内容通常与问题中具体的关键词汇高度相关。
在现有技术中对语句中的关键词提取通常采用pLSA,LDA,SVD,LSA,TFIDF等技术方案,但各方案在关键词提取上存在缺陷。
TFIDF(词频逆文本频率分析)方案主要适用于区别对文档最有意义的词语,是通过那些在文档中出现频率高、而在整个语料库中的其他文档中出现频率少的词语来实现的。但无法捕捉文档内部与文档间的统计特征,更不能解决同义词/多义词问题,因此精确度不是很高。
LSA(隐性语义分析)与SVD(奇异值分解)方案利用浅语义分析模型,基于奇异值分解技术将一个比较复杂的矩阵转化几个更小、更简单矩阵的乘积,而这些小矩阵描述了矩阵的重要特征,其中的对角线元素为奇异值(特征值的平方根),用于表示这个特征的重要性程度、表示与特征值相关的特征向量组成的矩阵,用于表示有哪些特征,这类方案其实可以看做是文本关键词的一种降维算法,优点是计算速度快,但准确率不是很高。
pLSA(概率潜在语义分析)及LDA(潜在狄利克雷分布文档主题生成模型)方案是基于概率意义下的关键词抽取方法,需要先验给定主题数目,通过算法对语料抽样,统计出文档对应主题的多项分布和主题上的词语的多项分布。
现有技术方案在关键词汇提取过程中不能有效反映出提问问题的词汇间的相互影响对关键词汇的语义含义影响。
发明内容
有鉴于此,本发明实施例提供了一种关键词提取方法和提取系统,用于解决无法准确获得正确语义表达的关键词汇的技术问题。
本发明实施例的关键词提取方法,包括:
对问题文本进行向量化处理,形成包含关键词的向量特征的问题语料;
利用双向长短时效递归神经网络对问题语料中的关键词进行抽取。
本发明实施例的关键词提取系统,包括:
问题语料量化模块,用于对问题文本进行向量化处理,形成包含关键词的向量特征的问题语料;
问题关键词提取模块,用于利用双向长短时效递归神经网络对问题语料中的关键词进行抽取。
本发明实施例的关键词提取方法和系统,利用BLSTM RNN(双向长短时效递归神经网络)对问题语料的上下文隐含含义进行分析以获得问题预料中的正确语义表达的关键词。将在隐语义状态下的上下文信息的状态表达在BLSTM RNN层中得到识别,通过池化层得到这些语义与词性表达的最主要信息,形成关键词信息。问题语料的形成基于词向量和特定的词性特征数据,较好的将词汇的语义和词性相结合,强化了上下文信息与词性信息的隐形含义,完善了语义表达上的关键信息抽取,从而可以更加准确地提取关键词。
附图说明
图1为本发明一实施例一种关键词提取方法的流程示意图。
图2为本发明一实施例一种关键词提取方法中问题文本向量化的流程示意图。
图3为本发明一实施例一种关键词提取方法中利用双向长短时效循环神经网络进行关键词提取的流程示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611186254.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车联网系统新闻正文提取方法
- 下一篇:一种为待译稿件匹配译员的方法