[发明专利]短文本模板挖掘方法、装置、电子设备和可读存储介质有效

申请号：	201710181878.3	申请日：	2017-03-24
公开（公告）号：	CN108628906B	公开（公告）日：	2021-01-26
发明（设计）人：	李开宇	申请（专利权）人：	北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/332;G06F40/186;G06F40/247
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	张一军;姜劲
地址：	100195 北京市海淀区杏石口路6***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本模板挖掘方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种短文本模板挖掘方法，其特征在于，包括：

从问题文本中抽取关键词，以组成分词序列；

将所述关键词根据词义进行聚类，以得到关键词簇；

将所述分词序列中的所述关键词替换为包含该关键词的关键词簇，以得到词簇序列；

计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度，以选择连接紧密度最大的所述排列方式作为所述短文本模板；其中，n表示所述词簇序列中包含的关键词簇数量；W_i表示所述词簇序列中的第i个关键词簇，P_max(W_i|W_i+1)表示在预设语料中，第i+1个关键词簇内的关键词出现的条件下，第i个关键词簇内的关键词出现的概率的最大值；w_i表示所述词簇序列中的第i个关键词簇的词簇向量，其值为所述第i个关键词簇中各所述关键词的词向量的和。

2.根据权利要求1所述的方法，其特征在于，从问题文本中抽取关键词，还包括：

对所述问题文本进行预处理，以得到原始词；

从所述原始词中抽取关键词。

3.根据权利要求2所述的方法，其特征在于，从所述原始词中抽取关键词，还包括：

根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比，计算各所述原始词的权重；

根据所述权重从所述原始词中抽取关键词；

删除除所述关键词外的其他原始词。

4.根据权利要求1所述的方法，其特征在于，将所述关键词根据词义进行聚类，以得到关键词簇，还包括：

使用预设语料训练所述关键词，以得到所述关键词的词向量；

根据所述词向量计算所述关键词之间的相似度，将相似度满足预设条件的关键词聚类，从而生成所述关键词簇。

5.一种短文本模板挖掘装置，其特征在于，包括：

问题文本处理模块，用于从问题文本中抽取关键词，以组成分词序列；

关键词处理模块，用于将所述关键词根据词义进行聚类，以得到关键词簇；

模板挖掘模块，用于将所述分词序列中的所述关键词替换为包含该关键词的关键词簇，以得到词簇序列；

模板确定模块，用于计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度，以选择连接紧密度最大的所述排列方式作为所述短文本模板；其中，n表示所述词簇序列中包含的关键词簇数量；W_i表示所述词簇序列中的第i个关键词簇，P_max(W_i|W_i+1)表示在预设语料中，第i+1个关键词簇内的关键词出现的条件下，第i个关键词簇内的关键词出现的概率的最大值；w_i表示所述词簇序列中的第i个关键词簇的词簇向量，其值为所述第i个关键词簇中各所述关键词的词向量的和。

6.根据权利要求5所述的装置，其特征在于，所述问题文本处理模块包括：

预处理模块，用于对所述问题文本进行预处理，以得到原始词；

关键词抽取模块，用于从所述原始词中抽取关键词。

7.根据权利要求6所述的装置，其特征在于，所述关键词抽取模块还用于：

根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比，计算各所述原始词的权重；

根据所述权重从所述原始词中抽取关键词，

删除除所述关键词外的其他原始词，以被抽取的所述关键词组成所述分词序列。

8.根据权利要求5所述的装置，其特征在于，所述关键词处理模块包括：

词向量训练模块，用于使用预设语料训练所述关键词，以得到所述关键词的词向量；

词聚类模块，用于根据所述词向量计算所述关键词之间的相似度，将相似度满足预设条件的关键词聚类，从而生成所述关键词簇。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载