[发明专利]基于短文本聚类技术的标签抽取方法有效

专利信息
申请号: 202010182533.1 申请日: 2020-03-16
公开(公告)号: CN111414479B 公开(公告)日: 2023-03-21
发明(设计)人: 郑赛乾;吴立楠;吴科 申请(专利权)人: 北京智齿博创科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/279
代理公司: 北京远大卓悦知识产权代理有限公司 11369 代理人: 程丽娜
地址: 100020 北京市朝阳*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 文本 技术 标签 抽取 方法
【权利要求书】:

1.一种基于短文本聚类的标签抽取方法,其中,包括:

S1、提取并获得短文本的所有有用词汇;所述有用词汇指除预定的停用词以外的所有词汇;

S2、根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度,即假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,计算每个簇心与其他所有短文本的相似度前,还需按照预先确定的标签文本的长度在所述短文本中筛选出相应于标签文本长度的短文本,并假设筛选出的所有短文本均为簇心,且各个筛选出的短文本间完全相似,即假设一个短文本中每个词汇都有另一个短文本中和它完全对应的词汇;若相似度大于预设的阈值T1则将相应短文本归于该簇心;

S3、对S2中形成的各簇进行第一次修剪;

其中,第一次修剪包括:

将S2形成的各簇按照簇的规模从大到小进行排序;

将完全相同的簇归并;

将完全包含在另一个簇内的簇删除;以及

当排名靠后的类簇的簇心出现在排名靠前的簇中时,计算两簇的交集,并将所述交集从排名靠后的簇中删除;

S4、对第一次修剪后的所有簇进行合并操作,包括:计算经第一次修剪后的各簇的关键词的相似度,并将相似度大于预设的阈值T2的簇合并为一簇,且合并后的簇的标签采用合并前规模较大的簇的标签代替;

S5、对S4合并完的各簇进行第二次修剪;

其中,第二次修剪包括:

对S4合并完的各簇按照规模从大到小进行排序后,若排名靠后的簇的簇心出现在排名靠前的簇中,则判断排名靠后的簇的簇心长度是否大于预设的长度阈值L;是,则将排名靠后的簇直接放弃;否,则计算两簇的交集,并将交集从排名靠后的簇中删除;

将经剩余的簇与预设的簇的规模阈值C进行比较,并将规模小于C的簇作为噪声点直接舍弃;

S6、提取第二次修剪后的各个簇的簇心作为各簇标签。

2.如权利要求1所述的基于短文本聚类的标签抽取方法,其中,提取并获得短文本的所有有用词汇包括:流式读取短文本的数据,删除因词汇量过少而无任何意义的句子,然后提取剩余短文本中的业务关键词与预设的相应语料领域的业务关键词词典中保存的业务关键词进行比对,并将提取的业务关键词未包含在所述业务关键词词典中的句子删除。

3.如权利要求1所述的基于短文本聚类的标签抽取方法,其中,根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度包括:利用通过Word2vec训练提供的短文本的有用词汇的单词向量代表所述短文本的文本向量后,利用平均余弦相似度表示各个短文本间的相似度。

4.如权利要求3所述的基于短文本聚类的标签抽取方法,其中,假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,包括:计算未假设为簇心的短文本的句子与各个假设的作为簇心的短文本的句子间的相似度,并把句子相似度大于T1的归为相应簇心的簇内。

5.如权利要求1所述的基于短文本聚类的标签抽取方法,其中,计算经第一次修剪后的各簇的关键词的相似度,并将相似度大于预设的阈值T2的簇合并为一簇,且合并后的簇的标签采用合并前规模较大的簇的标签代替,包括:

将经第一次修剪后的各簇的短文本分别制作成文档,利用TextRank提取每一篇文档的关键词,并取前n个关键词组成一句话作为相应簇的代表句;

将经第一次修剪后的各簇按照规模从大到小进行排序,依次计算各簇的代表句间的句相似度,若相似度大于T2则将两个簇合并成一个新簇;

其中,将两个簇合并成一个新簇具体指:将相似度大于T2的两个簇求并集后删除计算前的两个簇,将求得的并集作为新簇取代原先排名靠前位置的簇重新加入运算,新簇的标签采用原先排名靠前的簇的标签。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智齿博创科技有限公司,未经北京智齿博创科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010182533.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top