[发明专利]页面标签添加方法、装置、设备及存储介质在审
申请号: | 202110728171.6 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113486266A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 陈倩 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06K9/20 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面 标签 添加 方法 装置 设备 存储 介质 | ||
本发明涉及数据分析技术,揭露了一种页面标签添加方法,包括:获取页面的图像,提取所述图像包含的文本,将所述文本投影到低维空间,使同一类的字词聚集,不同类的字词分散,从所述聚集的字词中选择特征词,将所述特征词与预构建的标签体系库进行匹配,确定所述标签体系库中与所述特征词相关的词为匹配特征词,计算所述匹配特征词的权重,得到匹配特征词的匹配权重,确定所述匹配权重大于预设阈值的匹配特征词为所述页面的标签。此外,本发明还涉及区块链技术,所述页面的标签可存储在区块链的节点中。本发明还提出一种页面标签添加装置、电子设备以及计算机可读存储介质。本发明可以提高所添加的页面标签的效率和准确率。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种页面标签添加方法、装置、电子设备及计算机可读存储介质。
背景技术
页面标签添加方法是对页面进行打标签,在对页面打标签之后可以进一步进行数据挖掘、用户推荐等技术操作。现有技术中,对页面打标签的方法主要是通过工作人员在页面文字阅读之后,进行人工打标签,这种方法的工作量大,并且存在因人为错误理解导致所添加的标签不符合页面的问题,因此,现有技术中页面标签添加方法的准确度也不高。
发明内容
本发明提供一种页面标签添加方法、装置及计算机可读存储介质,其主要目的在于提高页面标签的添加效率和准确率。
为实现上述目的,本发明提供的一种页面标签添加方法,包括:
获取页面的图像,利用光学字符识别技术识别所述图像包含的文本;
将所述文本投影到低维空间,使同一类的字词聚集,不同类的字词分散,从所述聚集的字词中选择特征词;
将所述特征词与预构建的标签体系库进行匹配,确定所述标签体系库中与所述特征词相关的词为匹配特征词;
根据所述匹配特征词出现的位置及次数计算所述匹配特征词的权重,得到匹配特征词的匹配权重;
确定所述匹配权重大于预设阈值的匹配特征词为所述页面的标签。
可选地,所述将所述文本投影到低维空间,使同一类的字词聚集,不同类的字词分散,从所述聚集的字词中选择特征词,包括:
对所述聚集的字词进行主题提取,得到第一候选词集;
对所述聚集的字词进行实体提取,得到第二候选词集;
对所述聚集的字词进行关键词提取,得到第三候选词集;
确定同时存在于所述第一候选词集、所述第二候选词集以及所述第三候选词集中的候选词为特征词。
可选地,所述根据所述匹配特征词出现的位置及次数计算所述匹配特征词的权重,得到匹配特征词的匹配,包括:
将所述文本划分为标题部分、摘要部分及正文部分,以及获取所述标题部分的预设的第一权重、所述摘要部分的第二权重及所述正文部分的第三权重;
统计所述匹配特征词在所述标题部分的出现次数,得到第一次数,根据所述第一次数乘以所述第一权重,得到第一特征值;
统计所述匹配特征词在所述摘要部分的出现次数,得到第二次数,根据所述第二次数乘以所述第二权重,得到第二特征值;
统计所述匹配特征词在所述正文部分的出现次数,得到第三次数,根据所述第三次数乘以所述第三权重,得到第三特征值;
根据将所述第一次数、所述第二次数、所述第三次数及所述第一特征值、所述第二特征值及所述第三特征值,计算得到所述匹配特征词的匹配权重。
可选地,所述根据将所述第一次数、所述第二次数、所述第三次数及所述第一特征值、所述第二特征值及所述第三特征值,计算得到所述匹配特征词的匹配权重,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110728171.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于三轴天线的指向精度修正方法
- 下一篇:一种超低温放电单元