[发明专利]基于短文本聚类技术的标签抽取方法有效
申请号: | 202010182533.1 | 申请日: | 2020-03-16 |
公开(公告)号: | CN111414479B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 郑赛乾;吴立楠;吴科 | 申请(专利权)人: | 北京智齿博创科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279 |
代理公司: | 北京远大卓悦知识产权代理有限公司 11369 | 代理人: | 程丽娜 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 技术 标签 抽取 方法 | ||
本发明公开了一种基于短文本聚类的标签抽取方法,包括:S1、提取并获得短文本的所有有用词汇;S2、根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度;S3、假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,若相似度大于预设的阈值T1则将相应短文本归于该簇心;S4、对S3中形成的各簇进行第一次修剪;S5、对第一次修剪后的所有簇进行合并操作;S6、对S5合并完的各簇进行第二次修剪;S7、提取第二次修剪后的各个簇的簇心作为各簇标签。其在短文本聚类的同时生成可以代表所有类别短文本含义的具有完整意义的标签,解决了现有聚类技术依赖中心点选取和现有标签抽取技术语义不完善以及不符合逻辑等的问题。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于短文本聚类的标签抽取方法。
背景技术
随着互联网和信息技术的发展各种网络信息呈现指数增长的趋势,尤其是微博等网络平台的兴起让短文本信息再次爆炸式增长。短文本数据信息稀少但却重点鲜明,无法被当成垃圾信息剔除。如何从大量短文本数据中获取有效的信息,这就需要一种有效的方法提升对短文本的聚类和热点发现的效果。目前网上很多平台对于标签的规划都采用人工的方式,不仅费时费力而且还有很大的局限性,例如,人工自定义出来的标签覆盖范围有限,只能包含固定含义的文本,若出现新含义的文本则需要重新人工定义标签。而在文本标签自动生成领域,主流的文本标签推荐方法是文本关键词抽取方法,其基本方法是假设标签为文本中的关键词,即将标签以关键词的方式抽取出来,优点很明显,替代了人工,节省时间,方便处理大批量数据。但是缺点也不可忽略,首先,分词可能出现误分等情况,即容易将正确的词切分成没有任何含义的字符串,错误字符串也可能被选成关键字作为标签呈现;其次,单个字词表达的语义太少,不能作为标签代表一个甚至几个句子文本的含义;最后,多关键字拼接又容易出现不符合逻辑等句子级的错误。
通常短文本聚类采用K-Means算法,K-means算法首先随机选取K个对象作为初始聚类中心,然后计算n个样本与各个聚类中心之间的距离,并将各个样本分配给离其最近的聚类中心。每次分配一个样本聚类中心会根据现有对象重新计算,这个过程将不断重复直到满足终止条件,即直到聚类中心不再变化且没有样本对象再分配给各个簇。
传统的K-Means存在两个问题:首先是对于K值大小的确定,不同的短文本语料包含的类别数量存在偏差,K值偏小会导致不同含义的句子聚集在一起,偏大则导致聚类过于分散,聚类效果不佳。其次对于K个聚类中心的选取,初始聚类中心可能是噪声点,这样会导致聚类结果出现巨大偏差。
另外,文本聚类也可以采用Single-Pass,Single-Pass又称单通道法或单遍法,该算法属于流式聚类。对于依次到达的文本样本数据流,该方法按输入顺序依次处理数据,第一个样本被当做第一个聚类中心点,后续的样本依次和所有聚类中心点比对,相似度超过阈值 e,则该样本归为相似度最大的聚类中心,如果相似度没有超过阈值e,则该样本作为新的聚类中心加入计算,重复以上过程直到所有样本计算完毕。
传统的Single-Pass也存在一定的问题,比如两个作为聚类中心的句子相聚很远(相似度小于阈值),但是两个簇的其他组成句子却相聚很近,导致同一含义被分成两簇,还有种可能,因为Single-Pass是流式聚类,所以聚类中心是依次确定的,某一个样本和已经存在的某一个聚类中心相似度超过阈值被归为该类,但是该样本和之后生成的新的聚类中心相似度更高,而自身类别已经确定却无法更改。
另外由于短文本的词汇过少,所以用tf-idf词袋模型的办法生成句向量会导致句向量大范围数值为0,映射到空间上,导致各短文本间相似度过低,不好进行聚类判断。利用word2vec词向量相加生成句向量的办法同样效果不佳,单纯的向量相加和语义叠加还是有很大区别的,所以最终聚类结果只能单纯的将特别形似的句子聚集起来,而语义相同外形差异较大的短文本则有很大概率被抛弃。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智齿博创科技有限公司,未经北京智齿博创科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010182533.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种目标检测方法和装置
- 下一篇:手势识别方法、装置、计算机设备及存储介质