[发明专利]一种文本资料库的智能化分群和推送方法有效
申请号: | 202310564461.0 | 申请日: | 2023-05-18 |
公开(公告)号: | CN116628201B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 李文龙;吴代君;李越君;王建炜 | 申请(专利权)人: | 浙江数洋科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 杭州中港知识产权代理有限公司 33353 | 代理人: | 施建勇 |
地址: | 311215 浙江省杭州市萧山区宁*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 资料库 智能化 分群 推送 方法 | ||
一种文本资料库的智能化分群和推送方法,属于信息检索技术领域,包括以下步骤:步骤S1,初始设定:设定分群数为m、关键词x;从包含关键词x的文本上获取所有关联关键词;步骤S2,对关键词集S是否需要分群的判断;步骤S3,关键词排序:计算各关键词的多样性凝聚值并依此将所有关键词递减排序,记录在关键词集S中;步骤S4,关键词分群;步骤S5,随机选定m个关键词作为核心点并构成m个微群;步骤S6,系统将m个微群的核心点所对应的关键词,推送给用户选择。本方案,分群时,考察了各个微群之间的关联度,优先将关联度高的微群合并,从而使得相同或者相似含义的关键词相互靠拢,避免同义词分到不同的微群中。
技术领域
本发明属于信息检索技术领域,具体涉及一种文本资料库的智能化分群和推送方法。
背景技术
文本资料库的文本需要分类归档,方便查询和匹配。传统的分类方法,是通过专家事先确定分类的类别并进行关键词标注,其结果严谨且具有专业性。但是,人工标注的方式,效率有限,并不适应于当代智能化的发展,另外,分类相对固定,无法与多变的用户需求相匹配,同时,关键词难以分类,存在两个阻碍:一个是一词多义,另一个是同义词。
对于一词多义,同一个词语关键词,在不同的语境下具有不同的含义,应该被分到不同的类别中,但是由于一词多义,导致不同含义的同一个关键词,被分到相同的类别中。
对于同义词,不同的两个关键词彼此之间具有语义相关性,应该被分到相同的类别中,但是由于同义词为两个词汇,反而被分到不同的类别中。
申请号为201610772919.1的中国发明专利公开了一种资料集的同义词识别方法,其对资料集中的每份文本提取关键词之后,先计算出资料集中每个关键词与该关键词所对应的同生词之间的同生值,以及确定出每个关键词的高值词群,其中,所谓的同生值是用来衡量任意两个关键词在同一份资料中出现的概率;然后当通过高值词群的比对发现某两个关键词很可能是同义词之后,若进一步发现这两个关键词并没有出现在同一份资料中,则将这两个关键词识别成同义词。然而,该方法对于每个关键词都计算出其高值词群,两个关键词之间的两两相似度在各自的高值词群中均单独计算了一遍,计算开销较大。
发明内容
鉴于上述现有技术的现状和不足之处,本发明的目的在于提供一种文本资料库的智能化分群和推送方法。
一种文本资料库的智能化分群和推送方法,包括以下步骤:
步骤S1,初始设定:系统或用户设定分群数为m;用户输入或点选的一个关键词x;系统从包含关键词x的文本上获取所有关联关键词,并计算关键词x和关联关键词之间的关联度;将关联关键词根据关联度降序排列并存入关键词集S中;
步骤S2,对关键词集S是否需要分群的判断:对于关键词集S,判断关键词数量n是否大于2*m:如果n>2*m,则转入步骤S3,对关键词集S中的关键词进行关键词排序和关键词分群,并将结果存入关键词集S;否则,转入步骤S5,直接指派微量关键词到已有微群;
步骤S3,关键词排序:计算各关键词的多样性凝聚值并依此将所有关键词递减排序,记录在关键词集S中;
步骤S4,关键词分群,包括:
步骤S401,产生微群:判别关键词为核心点或边界点:依序从关键词集S中取出一个关键词,若取出的关键词无法与当前微群内的任一关键词为邻居,则该取出的关键词成为新的核心点,并记录于核心点序列,否则为边界点,并记录于边界点序列;
步骤S402,微群合并前处理:如果两微群存在1对1配对关系,则将其合并;
步骤S403,微群合并:根据微群与微群之间的边界点数量和支持度,进行微群合并至所设定的分群数;然后转至步骤S6;
步骤S5,随机选定m个关键词作为核心点并构成m个微群,每个微群只有一个核心点,剩余的未被选定的关键词为微量关键词,将所有微量关键词均并入到m个微群中,因此每个微群都获得了所有微量关键词,且微量关键词为边界点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江数洋科技有限公司,未经浙江数洋科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310564461.0/2.html,转载请声明来源钻瓜专利网。