[发明专利]一种基于位置加权的关键词抽取方法在审
申请号: | 201810267987.1 | 申请日: | 2018-03-28 |
公开(公告)号: | CN108399165A | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 林智勇;戴玉珠;黄丽霞;马震远 | 申请(专利权)人: | 广东技术师范学院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 覃婧婵 |
地址: | 510000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 词语 权重 关键词抽取 基于位置 权重计算 分词 加权 过滤 预处理 绝对值函数 抽取规则 公式计算 位置统计 停用词 准确率 分句 文档 预设 记录 分段 输出 合并 中文 统计 | ||
1.一种基于位置加权的关键词抽取方法,其特征在于,包括如下步骤:
预处理:对每个文档进行分段并依次对每个段落编号,然后对每个段落进行分句并依次对每个句子编号,记录各个句子的段落编号和句子编号;
分词:对所述每个句子进行分词;
停用词过滤:对分词后的虚词、无意义的字序列片段,以及只能反映句子语法结构的词语和标点符号进行过滤,然后对每个句子中过滤之后的词语依次进行编号并记录各个词语的词语编号;
位置统计:统计每个词语的段落序号、句子序号、词语序号;所述段落序号、句子序号、词语序号分别为段落编号、句子编号、词语编号;
权重计算:根据权重公式计算每个词语的权重;
候选关键词合并:对于相同的词语出现在文中的不同位置的权重进行合并,然后按照权重从大到小排序,输出预设数量的关键词。
2.根据权利要求1所述的基于位置加权的关键词抽取方法,其特征在于,所述权重公式为:
其中W为每个词语的权重,x1、x2、x3分别为该词语的段落序号、句子序号、词语序号,
u1、u2、u3分别为该词语所在文档段落的中位数、该词语所在段落的句子总数的中位数、该词语所在句子总数的中位数。
3.根据权利要求2所述的基于位置加权的关键词抽取方法,其特征在于,所述σ1、σ2、σ3满足:σ1≤σ2≤σ3。
4.根据权利要求2所述的基于位置加权的关键词抽取方法,其特征在于,所述σ1、σ2、σ3满足:σ1∶σ2∶σ3=1∶(1-16)∶(1-100)。
5.根据权利要求4所述的基于位置加权的关键词抽取方法,其特征在于,所述σ1、σ2、σ3满足:σ1∶σ2∶σ3=1∶3∶9。
6.根据权利要求2所述的基于位置加权的关键词抽取方法,其特征在于,所述σ∶、σ∶、σ∶分别为该词语所在文档的段落总数、句子总数、词语总数。
7.根据权利要求2所述的基于位置加权的关键词抽取方法,其特征在于,所述σ1、σ2、σ3由经过语料训练的机器学习算法模型来确定。
8.根据权利要求2所述的基于位置加权的关键词抽取方法,其特征在于,所述机器学习算法模型为神经网络模型。
9.根据权利要求1或2任一所述的基于位置加权的关键词抽取方法,其特征在于,所述预设关键词的个数大于等于1。
10.根据权利要求9的关键词抽取方法,其特征在于,所述预设关键词的个数可自定义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范学院,未经广东技术师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810267987.1/1.html,转载请声明来源钻瓜专利网。