[发明专利]一种关键词提取方法和提取系统有效
申请号: | 201611186254.2 | 申请日: | 2016-12-20 |
公开(公告)号: | CN106776562B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 贾祯;白杨;朱频频 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F40/30;G06N3/04 |
代理公司: | 北京布瑞知识产权代理有限公司 11505 | 代理人: | 孟潭 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 提取 方法 系统 | ||
1.一种关键词提取方法,其特征在于,包括:
对问题文本进行向量化处理,形成包含词向量和关键词的向量特征的问题语料,所述向量特征包括:频率特征、词性特征和类别特征,所述频率特征、所述词性特征和所述类别特征均为矩阵形式;
利用双向长短时效递归神经网络对所述词向量和所述向量特征进行处理,以实现对所述问题语料中的关键词的抽取,所述频率特征包括统计特征数据,所述词性特征包括词性特征数据,所述类别特征包括命名实体识别特征数据,
其中所述对问题文本进行向量化处理包括:
将问题文本分割形成语句的文本词汇;
将每个语句的文本词汇进行词性标注,形成相应的词性特征数据;
将每个语句的文本词汇进行命名实体识别标注,形成相应的命名实体识别特征数据;
利用词频统计,形成文本词汇的统计特征数据;
根据文本词汇的特征数据,将文本词汇索引化;
将文本词汇通过向量化训练模型向量化,形成相应的词向量,
文本词汇的词向量采用三维矩阵形式[文本词汇的索引值,词表序号,词向量维度数据],其中词表序号为所述向量化训练模型中的文本词汇的序列号。
2.如权利要求1所述的关键词提取方法,其特征在于,所述将问题文本分割形成语句的文本词汇,包括:
按标点将问题文本进行语句分割;
利用最大匹配算法或Viterbi算法进行分词,并保留文本词汇顺序;
过滤文本词汇的无效文本格式以及消除敏感词汇。
3.如权利要求1所述的关键词提取方法,其特征在于,所述将每个语句的文本词汇进行词性标注,形成相应的词性特征数据包括:
将不同的词性分别设置对应的数值;以及
将所述词的词性对应的数值作为所述词的词性标注。
4.如权利要求1所述的关键词提取方法,其特征在于,所述将每个语句的文本词汇进行命名实体识别标注,形成相应的命名实体识别特征数据包括:
获取类别词典,将词典类型和词典中的实体离散化为相应的数值;
对每个语句的文本词汇进行标注,标记文本词汇的命名实体数值。
5.如权利要求1所述的关键词提取方法,其特征在于,所述将每个语句的文本词汇进行命名实体识别标注,形成相应的命名实体识别特征数据包括:
获取类别词典,将词典类型和词典中的实体离散化为相应的数值;
获取词性类型表,将词性类型表中的类型离散化为相应的数值;
根据文本词汇的词性确定命名实体,标记文本词汇的命名实体数值。
6.如权利要求1所述的关键词提取方法,其特征在于,所述利用词频统计,形成文本词汇的统计特征数据包括:
将文本词汇的词频统计信息进行分桶操作,形成离散区间,词频统计信息通过离散区间进行离散化。
7.如权利要求1所述的关键词提取方法,其特征在于,所述根据文本词汇的特征数据,将文本词汇索引化包括:
采用文本词汇的词频特征数据的数值进行形成文本词汇的索引值;
索引值作为词汇样本序号。
8.如权利要求1所述的关键词提取方法,其特征在于,所述根据文本词汇的特征数据,将文本词汇索引化包括:
提供词索引关系库,包括词到索引的映射关系;以及
所述将文本词汇索引化的步骤,进一步包括:
将所述文本词汇和所述词索引关系库中的词执行匹配度运算,将与所述文本词汇具有最高匹配度的词索引关系库中的词所对应的索引作为所述文本词汇的索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611186254.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:车联网系统新闻正文提取方法
- 下一篇:一种为待译稿件匹配译员的方法