[发明专利]基于大数据的多维属性标签提取方法、系统、终端及介质在审
申请号: | 202210385301.5 | 申请日: | 2022-04-13 |
公开(公告)号: | CN114860923A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 田俊峰;陈丁;李立现 | 申请(专利权)人: | 九江学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06K9/62 |
代理公司: | 深圳市广诺专利代理事务所(普通合伙) 44611 | 代理人: | 祝晶 |
地址: | 332005 *** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 多维 属性 标签 提取 方法 系统 终端 介质 | ||
本发明公开了基于大数据的多维属性标签提取方法、系统、终端及介质,涉及标签技术领域,其技术方案要点是:提取目标文本中的关键词;以主成分分析方法对关键词集进行降维处理,得到主关键词;依据主关键词的词概率由大到小排列,并依据属性标签的维度值选取主关键词作为属性标签的标签集;选取词概率最大的主关键词作为标签名,并剩余的主关键词作为属性名,通过标签名和属性名的标定值对相应属性名的属性进行描述,得到最终的属性标签;将不同维度的属性标签集成得到多维属性标签。本发明既考虑频率较高的关键词作为主要的标签描述,同时又考虑了不同关键词之间的关联关系,使得文本数据的标签描述更加准确与详细,利于文本数据的精准匹配。
技术领域
本发明涉及标签技术领域,更具体地说,它涉及基于大数据的多维属性标签提取方法、系统、终端及介质。
背景技术
随着互联网技术的不断发展,网络中的存在大量信息,为了方便管理一般会通过文本标签对各种数据进行标记分类。
目前,对于标签提取主要是利用专业字典对专业文献进行标签的提取。如对文本数据进行分词得到的多个关键词,以出现频率较高的一个或多个作为相应文本数据的标签,并通过标签的属性对文本数据进行分类标签。然而,随着智能化技术的不断发展,人们对标签的属性对文本数据进行描述的精确度提出了更高的要求,而传统的仅以频率相对高的关键词作为文本数据的标签,容易存在标签不能体现出文本数据的真实情况,从而导致数据匹配、信息搜索等过程存在一定误差,在一定程度上不利于网络信息的精准推送和详细刻画。
因此,如何研究设计一种能够克服上述缺陷的基于大数据的多维属性标签提取方法、系统、终端及介质是我们目前急需解决的问题。
发明内容
为解决现有技术中的不足,本发明的目的是提供基于大数据的多维属性标签提取方法、系统、终端及介质,既考虑频率较高的关键词作为主要的标签描述,同时又考虑了不同关键词之间的关联关系,使得文本数据的标签描述更加准确与详细,利于文本数据的精准匹配,可应用于数据匹配、信息搜索等操作过程。
本发明的上述技术目的是通过以下技术方案得以实现的:
第一方面,提供了基于大数据的多维属性标签提取方法,包括以下步骤:
提取目标文本中的关键词,得到包含多类的关键词集;
以主成分分析方法对关键词集进行降维处理,得到至少两个主关键词;
依据各个主关键词的词概率由大到小排列,并依据属性标签的维度值从排序最后的主关键词开始选取对应数量的主关键词作为相应属性标签的标签集;
从标签集中选取词概率最大的主关键词作为标签名,并选取剩余的主关键词作为属性名,以及通过标签名和属性名的标定值对相应属性名的属性进行描述,得到最终的属性标签;
将不同维度的属性标签集成得到多维属性标签。
进一步的,若多维属性标签的总维度为K,则多维属性标签的表达式具体为:
其中,A1、A2...AK表示词概率由大到小排列的主关键词;a1、a2...aK表示不同关键词所对应的标定值;{·}外的主关键词为标签名,{·}内的主关键词为属性名。
进一步的,所述属性名的属性以标签名的标定值和属性名的标定值乘积进行描述。
进一步的,所述标定值为对应主关键词的词概率。
进一步的,所述词概率为相应主关键词的频次数与所有主关键词的频次数之和的比值。
进一步的,所述词概率为相应主关键词的频次数与所有关键词的频次数之和的比值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于九江学院,未经九江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210385301.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种功能性T恤面料及其制造方法
- 下一篇:一种角度可自动调节的钻孔装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置