[发明专利]基于短文本聚类技术的标签抽取方法有效
申请号: | 202010182533.1 | 申请日: | 2020-03-16 |
公开(公告)号: | CN111414479B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 郑赛乾;吴立楠;吴科 | 申请(专利权)人: | 北京智齿博创科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279 |
代理公司: | 北京远大卓悦知识产权代理有限公司 11369 | 代理人: | 程丽娜 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于短文本聚类的标签抽取方法,包括:S1、提取并获得短文本的所有有用词汇;S2、根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度;S3、假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,若相似度大于预设的阈值T1则将相应短文本归于该簇心;S4、对S3中形成的各簇进行第一次修剪;S5、对第一次修剪后的所有簇进行合并操作;S6、对S5合并完的各簇进行第二次修剪;S7、提取第二次修剪后的各个簇的簇心作为各簇标签。其在短文本聚类的同时生成可以代表所有类别短文本含义的具有完整意义的标签,解决了现有聚类技术依赖中心点选取和现有标签抽取技术语义不完善以及不符合逻辑等的问题。 | ||
搜索关键词: | 基于 文本 技术 标签 抽取 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智齿博创科技有限公司,未经北京智齿博创科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010182533.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种目标检测方法和装置
- 下一篇:手势识别方法、装置、计算机设备及存储介质