[发明专利]一种关键词关联性分析方法在审
申请号: | 202110367401.0 | 申请日: | 2021-04-06 |
公开(公告)号: | CN113434666A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 廖丽娟;林巍 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 戴媛 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 关联性 分析 方法 | ||
1.一种关键词关联性分析方法,其特征在于,具体按照以下步骤实施:
步骤1,根据用户输入的关键词k,从数据库中搜寻出含有关键词的文本资料,并判别关键词类别;
步骤2,设数据库中的全体文本资料为D={d1,…dn},每份文本资料dn={w1,n,…wm,n},其中,wm,n表示第n份文本资料中的第m个词,含有关键词的文本资料为集合Dk={d1,…,dk},计算第n份文本资料中的第m个词wm,n的权重系数θ;
将文本资料D的所有词形成关联词序列W={w1,…wi},wi∈sw,其中sw表示事先存储在数据库中的词w的关联类别集合;
步骤3,搜寻特定时间区段内与包含关联词的多篇文本资料,并根据该些文本资料,针对每个关联词重复步骤1和步骤2,获得每个关联词的关联关键词,根据关键词、关联词、关联关键词产生关联性分析图,作为分析结果。
2.根据权利要求1所述的一种关键词关联性分析方法,其特征在于,所述步骤1中,判别关键词类别的过程为:通过对数据库中的文本资料进行word2vec的预训练,训练结束后,再对关键词进行标记生成关联词,用于3层深度卷积神经网络的训练,并使用3层深度卷积神经网络模型对各个关键词进行分类,得到关键词的类别。
3.根据权利要求1所述的一种关键词关联性分析方法,其特征在于,所述步骤1中数据库通过爬虫软件获取互联网上每日更新的新闻文本。
4.根据权利要求1所述的一种关键词关联性分析方法,其特征在于,所述步骤2中,权重系数θ的表达式为:
式(1)中,Times(wm,n,Dk)表示wm,n在含有关键词的文本资料Dk中出现的次数,Times(wm,n,D)表示wm,n在全体文本资料D中出现的次数,其中
5.根据权利要求1所述的一种关键词关联性分析方法,其特征在于,所述步骤2中,关联词序列按照权重系数θ由大到小进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110367401.0/1.html,转载请声明来源钻瓜专利网。