[发明专利]短文本模板挖掘方法、装置、电子设备和可读存储介质有效
申请号: | 201710181878.3 | 申请日: | 2017-03-24 |
公开(公告)号: | CN108628906B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 李开宇 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F40/186;G06F40/247 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 模板 挖掘 方法 装置 电子设备 可读 存储 介质 | ||
1.一种短文本模板挖掘方法,其特征在于,包括:
从问题文本中抽取关键词,以组成分词序列;
将所述关键词根据词义进行聚类,以得到关键词簇;
将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列;
计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度,以选择连接紧密度最大的所述排列方式作为所述短文本模板;其中,n表示所述词簇序列中包含的关键词簇数量;Wi表示所述词簇序列中的第i个关键词簇,Pmax(Wi|Wi+1)表示在预设语料中,第i+1个关键词簇内的关键词出现的条件下,第i个关键词簇内的关键词出现的概率的最大值;wi表示所述词簇序列中的第i个关键词簇的词簇向量,其值为所述第i个关键词簇中各所述关键词的词向量的和。
2.根据权利要求1所述的方法,其特征在于,从问题文本中抽取关键词,还包括:
对所述问题文本进行预处理,以得到原始词;
从所述原始词中抽取关键词。
3.根据权利要求2所述的方法,其特征在于,从所述原始词中抽取关键词,还包括:
根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比,计算各所述原始词的权重;
根据所述权重从所述原始词中抽取关键词;
删除除所述关键词外的其他原始词。
4.根据权利要求1所述的方法,其特征在于,将所述关键词根据词义进行聚类,以得到关键词簇,还包括:
使用预设语料训练所述关键词,以得到所述关键词的词向量;
根据所述词向量计算所述关键词之间的相似度,将相似度满足预设条件的关键词聚类,从而生成所述关键词簇。
5.一种短文本模板挖掘装置,其特征在于,包括:
问题文本处理模块,用于从问题文本中抽取关键词,以组成分词序列;
关键词处理模块,用于将所述关键词根据词义进行聚类,以得到关键词簇;
模板挖掘模块,用于将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列;
模板确定模块,用于计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度,以选择连接紧密度最大的所述排列方式作为所述短文本模板;其中,n表示所述词簇序列中包含的关键词簇数量;Wi表示所述词簇序列中的第i个关键词簇,Pmax(Wi|Wi+1)表示在预设语料中,第i+1个关键词簇内的关键词出现的条件下,第i个关键词簇内的关键词出现的概率的最大值;wi表示所述词簇序列中的第i个关键词簇的词簇向量,其值为所述第i个关键词簇中各所述关键词的词向量的和。
6.根据权利要求5所述的装置,其特征在于,所述问题文本处理模块包括:
预处理模块,用于对所述问题文本进行预处理,以得到原始词;
关键词抽取模块,用于从所述原始词中抽取关键词。
7.根据权利要求6所述的装置,其特征在于,所述关键词抽取模块还用于:
根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比,计算各所述原始词的权重;
根据所述权重从所述原始词中抽取关键词,
删除除所述关键词外的其他原始词,以被抽取的所述关键词组成所述分词序列。
8.根据权利要求5所述的装置,其特征在于,所述关键词处理模块包括:
词向量训练模块,用于使用预设语料训练所述关键词,以得到所述关键词的词向量;
词聚类模块,用于根据所述词向量计算所述关键词之间的相似度,将相似度满足预设条件的关键词聚类,从而生成所述关键词簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710181878.3/1.html,转载请声明来源钻瓜专利网。