[发明专利]一种基于预加载权重词性组合的中文关键短语抽取的方法在审
申请号: | 202210100205.1 | 申请日: | 2022-01-27 |
公开(公告)号: | CN114490941A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 夏立;钱柏丞;周晶;相若晨;李颜戎;杨学鑫 | 申请(专利权)人: | 南京烽火天地通信科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陆志斌 |
地址: | 211161 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 加载 权重 词性 组合 中文 关键 短语 抽取 方法 | ||
本发明公开了一种基于预加载权重词性组合的中文关键短语抽取的方法,包括建立短语抽取模型,具体步骤如下:S1、对文本预处理;S2、建立核心抽取算法,所述核心抽取算法包括短语权重计算和制定短语拼接规则。该种基于预加载权重词性组合的中文关键短语抽取的方法,通过抽取出的关键短语,不仅能有效代表整个文档的核心内容,而且给出每个关键短语的语义权重,极大增强关键词抽取的可解释性,同时,通过基于中文语言习惯,设计关键短语的短语规则,可有效避免抽取出结构和语义错乱的内容。
技术领域
本发明涉及人工智能自然语言处理技术领域,具体为一种基于预加载权重词性组合的中文关键短语抽取的方法。
背景技术
目标文本(句、段、篇)的关键词通常是几个词或者短语,作为对该文本主要内容的提要,关键词是人们快速了解文本内容、把握主题的重要方式。关键词广泛应用于人们需要高效管理和检索文档的领域,例如搜索引擎、新闻报道、学术论文等。同时,关键词抽取也是NLP领域重要的核心技术之一,是NLP多项能力的奠基技术,例如:文本检索、文本分类、文本摘要等。
当前比较常用的关键词抽取的方法有TF-IDF、Textrank、Embedding相似度等,但是上述几种方法都存在一定的缺陷,如TF-IDF简单易操作,且速度非常快,但是其只是从词频角度挖掘信息,并不能体现文本的深层语义信息;Textrank虽然可以设计词共现窗口,解决一定的上下文语义问题,但是其计算量大,速度慢,且窗口能包含的信息有限;Embedding相似度的方法虽然可以解决语义理解的问题,但是基于不同语料训练出的embedding向量不同,且需要大量语料训练,同时最为致命的是基于embedding的方法,不仅可解释性差,而且后期finetune的空间小,且计算速度慢,实用性差。因此,我们对此做出改进,提出一种基于预加载权重词性组合的中文关键短语抽取的方法。
发明内容
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种基于预加载权重词性组合的中文关键短语抽取的方法,包括建立短语抽取模型,具体步骤如下:
S1、对文本预处理,所述文本预处理具体包括如下步骤:
S1.1、针对文本数据特性,制定文本清洗规则进行数据清洗,去除文本中异常字符、冗余字符和乱码,之后对文本做出重点标记;
S1.2、对经过S1.1处理后的文本进行中文分词和词性标注,同时根据标点符号对文本自然分句,统计分词后所有词的个数total_length,然后对分词后的文本做词频统计备用,得到count;
S2、建立核心抽取算法,所述核心抽取算法包括短语权重计算和制定短语拼接规则;所述短语权重计算具体流程为:
S2.1、加载由同分布文本训练的IDF权重词典,得到每个词的权重值weight,之后找出候选短语集合,并求出短语权重;
S2.2、对短语候选集中的所有词的权重weight求和,得到sum_w;
S2.3、计算候选短语权重;
S2.4、通过训练LDA主题权重文件,得到权重调节因子,计算主题权重;
S2.5、通过基于MMR算法对overlaping的短语进行去重过滤,并按照各短语重要程度排序,推荐top_k个权重最大的短语,之后根据目标业务积累的知识,对文本后处理,得到最终结果。
作为本发明的一种优选技术方案,S2中的短语拼接规则具体包括以下规则:
a、一个短语不能超过12个token;
b、一个短语不能超过25个char,不能低于2个char;
c、如果是token长度为2的短语,优先推选动名词短语,其次是名词短语;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火天地通信科技有限公司,未经南京烽火天地通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210100205.1/2.html,转载请声明来源钻瓜专利网。