[发明专利]一种基于预加载权重词性组合的中文关键短语抽取的方法在审
申请号: | 202210100205.1 | 申请日: | 2022-01-27 |
公开(公告)号: | CN114490941A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 夏立;钱柏丞;周晶;相若晨;李颜戎;杨学鑫 | 申请(专利权)人: | 南京烽火天地通信科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陆志斌 |
地址: | 211161 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 加载 权重 词性 组合 中文 关键 短语 抽取 方法 | ||
1.一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,包括建立短语抽取模型,具体步骤如下:
S1、对文本预处理,所述文本预处理具体包括如下步骤:
S1.1、针对文本数据特性,制定文本清洗规则进行数据清洗,去除文本中异常字符、冗余字符和乱码,之后对文本做出重点标记;
S1.2、对经过S1.1处理后的文本进行中文分词和词性标注,同时根据标点符号对文本自然分句,统计分词后所有词的个数total_length,然后对分词后的文本做词频统计备用,得到count;
S2、建立核心抽取算法,所述核心抽取算法包括短语权重计算和制定短语拼接规则;所述短语权重计算具体流程为:
S2.1、加载由同分布文本训练的IDF权重词典,得到每个词的权重值weight,之后找出候选短语集合,并求出短语权重;
S2.2、对短语候选集中的所有词的权重weight求和,得到sum_w;
S2.3、计算候选短语权重;
S2.4、通过训练LDA主题权重文件,得到权重调节因子,计算主题权重;
S2.5、通过基于MMR算法对overlaping的短语进行去重过滤,并按照各短语重要程度排序,推荐top_k个权重最大的短语,之后根据目标业务积累的知识,对文本后处理,得到最终结果。
2.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,S2中的短语拼接规则具体包括以下规则:
a、一个短语不能超过12个token;
b、一个短语不能超过25个char,不能低于2个char;
c、如果是token长度为2的短语,优先推选动名词短语,其次是名词短语;
d、动名词短语的动词必须是触发词;
e、一个短语中不能出现超过一个虚词,不能出现规定个数的停用词;
f、短语的前后不可以是虚词、停用词,短语末尾不能是动词;
g、短语中不能有特殊词,短语中不能出现姓名、地址及其他特殊词性词。
3.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,S2.1中每个词的权重值weight计算公式为:
weight=count*word_idf/total_length。
4.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,S2.3中候选短语权重的计算公式为:
cpw=sum_w*length_w*pos_w
式中cpw为候选短语权重,length_w为短语长度权重,pos_w为短语词性组合权重。
5.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,S2.4中LDA主题权重cpw+的计算公式为:
cpw+=topic_w*topic_theta
式中topic_w为该词的主题权重,topic_theta为权重调节因子。
6.根据权利要求1所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,在S2之后还包括结果后处理和预训练模型,所述结果后处理包括对平通词和百搭词的处理以及对特殊规则和业务知识处理。
7.根据权利要求6所述的一种基于预加载权重词性组合的中文关键短语抽取的方法,其特征在于,所述预训练模型包括同分布文本、文本分词训练、词性标注训练、IDF权重字典、LDA主题权重和知识库积累。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火天地通信科技有限公司,未经南京烽火天地通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210100205.1/1.html,转载请声明来源钻瓜专利网。