[发明专利]短文本模板挖掘方法、装置、电子设备和可读存储介质有效
申请号: | 201710181878.3 | 申请日: | 2017-03-24 |
公开(公告)号: | CN108628906B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 李开宇 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F40/186;G06F40/247 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 模板 挖掘 方法 装置 电子设备 可读 存储 介质 | ||
本发明实施例提供一种短文本模板挖掘方法、装置、电子设备和可读存储介质,能够有效地处理模板中的同义词和语序问题,生成准确易用的短文本模板。该方法包括:从问题文本中抽取关键词,以组成分词序列;将所述关键词根据词义进行聚类,以得到关键词簇;将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列;选取最优排列方式的词簇序列作为短文本模板。
技术领域
本发明涉及计算机技术领域,特别涉及一种短文本模板挖掘方法、装置、电子设备和可读存储介质。
背景技术
在自然语言处理领域中,不管是聚类模型、分类模型、搜索rank算法等,都普遍存在特征表达能力不强,包含信息量不够。这里的特征往往指的是文本中的词特征;由于大数据的普及,导致不是所有的词都能对应足够的样本。
现有技术中,解决上述问题最常用的方式就是进行特征挖掘,对已有特征进行扩充;主流思路是通过对频繁组合词,进行挖掘,得到组合特征,来提升特征对文本的表达能力。例如,将文本转化为有序词集合,使用Fp-Growth算法,通过构造一个树结构(FP-Tree)来压缩数据记录,挖掘频繁项集,频繁项即是共现次数高的词组合,也就是模板;再如,将文本转化为有序词集合后,建立语言模型N-gram,通过概率统计的方法,生成词与词共现的概率模型,通过概率模型来判断模板的生成条件。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
一方面,现有技术的方案没有考虑同义词情况,导致模板的覆盖能力十分局限,同时在语料少时,由于统计次数不够,会导致无法生成模板;另一方面,语法结构具有多样性,不同词序的模板可能表示相同意义,而现有技术的方案无法准确识别这类情况。
发明内容
有鉴于此,本发明实施例提供一种短文本模板挖掘方法、装置、电子设备和可读存储介质,能够有效地处理模板中的同义词和语序问题,生成准确易用的短文本模板。
为实现上述目的,根据本发明实施例的一个方面,提供了一种短文本模板挖掘方法。
本发明实施例的一种短文本模板挖掘方法,包括:从问题文本中抽取关键词,以组成分词序列;将所述关键词根据词义进行聚类,以得到关键词簇;将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列;选取最优排列方式的词簇序列作为短文本模板。
可选的,从问题文本中抽取关键词,还包括:对所述问题文本进行预处理,以得到原始词;从所述原始词中抽取关键词。
可选的,从所述原始词中抽取关键词,还包括:根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比,计算各所述原始词的权重;根据所述权重从所述原始词中抽取关键词;删除除所述关键词外的其他原始词。
可选的,将所述关键词根据词义进行聚类,以得到关键词簇,还包括:使用预设语料训练所述关键词,以得到所述关键词的词向量;根据所述词向量计算所述关键词之间的相似度,将相似度满足预设条件的关键词聚类,从而生成所述关键词簇。
可选的,选取最优排列方式的词簇序列作为短文本模板,包括:计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度:
其中
n表示所述词簇序列中包含的关键词簇数量;Wi表示所述词簇序列中的第i个关键词簇,Pmax(Wi|Wi+1)表示在预设语料中,第i+1个关键词簇内的关键词出现的条件下,第i个关键词簇内的关键词出现的概率的最大值;wi表示所述词簇序列中的第i个关键词簇的词簇向量,其值为所述第i个关键词簇中各所述关键词的词向量的和;选择连接紧密度最大的所述排列方式作为所述短文本模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710181878.3/2.html,转载请声明来源钻瓜专利网。