[发明专利]一种基于位置加权的关键词抽取方法在审
申请号: | 201810267987.1 | 申请日: | 2018-03-28 |
公开(公告)号: | CN108399165A | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 林智勇;戴玉珠;黄丽霞;马震远 | 申请(专利权)人: | 广东技术师范学院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 覃婧婵 |
地址: | 510000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 词语 权重 关键词抽取 基于位置 权重计算 分词 加权 过滤 预处理 绝对值函数 抽取规则 公式计算 位置统计 停用词 准确率 分句 文档 预设 记录 分段 输出 合并 中文 统计 | ||
本发明提供一种基于位置加权的关键词抽取方法,包括:预处理:对每个文档进行分段并对每个段落编号,然后对每个段落进行分句并对每个句子编号,记录各个句子的段落编号和句子编号;分词:对所述每个句子进行分词、停用词过滤,然后对每个句子中过滤之后的词语进行编号并记录;位置统计:统计每个词语的段落序号、句子序号、词语序号;所述段落序号、句子序号、词语序号分别为段落编号、句子编号、词语编号;权重计算:根据权重公式计算每个词语的权重,对同一个词语出现在不同位置的权重进行合并,按照权重从大到小,输出预设数量的关键词。本发明利用中文的行文的结构特点和绝对值函数对词语的位置进行权重计算,抽取规则简单高效,准确率高。
技术领域
本发明属于计算机领域,涉及一种关键词的抽取方法,特别涉及一种基于位置加权的关键词抽取方法。
背景技术
通过苏祥坤等人《基于词序统计组合的中文关键词提取技术》的研究发现,一般中文文章的行文结构的特点:首段是全文的初步概况,承载全文的主旨;末段通常是对全文的概况和总结。对于文档中的单个段落而言,文档首句常是文章的引入话题或是议论的主题,起到引出话题的铺垫作用。末句一般是该段内容的总结。对于中文句子结构而言,句子结构通常是主谓宾的结构,主语和宾语通常是名词、名词性短语、动词。通过杨凯艳《基于改进的TF-IDF关键词自动提取算法研究》的研究发现,大多数关键词的词性主要包含名词、名词性短语、动词、形容词、副词。
综上所述:文章的首段、末段、首句、末句、首词、末词涵盖文章关键词的概率比较高。
发明内容
本发明提供了一种基于位置加权的关键词抽取方法,包括:预处理:对每个文档进行分段并依次对每个段落编号,然后对每个段落进行分句并依次对每个句子编号,记录各个句子的段落编号和句子编号;分词:对所述每个句子进行分词;停用词过滤:对分词后的虚词、无意义的字序列片段或者只能反映句子语法结构的词语和标点符号进行过滤,然后对每个句子中过滤之后的词语依次进行编号并记录各个词语的词语编号;位置统计:统计每个词语的段落序号、句子序号、词语序号;所述段落序号、句子序号、词语序号分别为段落编号、句子编号、词语编号;权重计算:根据权重公式计算每个词语的权重;候选关键词合并:对于相同的词语出现在文中的不同位置的权重进行合并,然后按照权重从大到小排序,输出预设数量的关键词。
在本发明的一个实施例中,所述权重公式为:
其中W为每个词语的权重,x1、x2、x3分别为该词语的段落序号、句子序号、词语序号,u1、u2、u3分别为该词语所在文档段落的中位数、该词语所在段落的句子总数的中位数、该词语所在句子总数的中位数。
进一步地,所述σ1、σ2、σ3满足:σ1∶σ2∶σ3=1∶(1-16)∶(1-100)。
优选的,所述σ1、σ2、σ3满足:σ1∶σ2∶σ3=1∶3∶9。
在本发明的一个实施例中,所述σ1、σ2、σ3分别为该词语所在文档的段落总数、句子总数、词语总数。
在本发明的一个实施例中,所述σ1、σ2、σ3由经过语料训练的机器学习算法模型来确定。进一步的,所述机器学习算法模型为神经网络模型。
在本发明的一个实施例中,所述预设关键词的个数大于等于1。进一步的,所述预设关键词的个数可自定义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范学院,未经广东技术师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810267987.1/2.html,转载请声明来源钻瓜专利网。