[发明专利]短文本批量匹配方法及装置在审
申请号: | 202010057007.2 | 申请日: | 2020-01-16 |
公开(公告)号: | CN111259117A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 广州拉卡拉信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F9/50 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 董李欣 |
地址: | 510555 广东省广州市黄*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 批量 匹配 方法 装置 | ||
本公开实施例公开了一种短文本批量匹配方法及装置。其中,该方法包括:根据至少一个关键项对待匹配的全量短文本信息进行分类和排序;根据所述分类切分所述全量短文本信息,将切分后数据集通过Spark分布式容器RDD分布到多个不同的处理设备中;在各个所述处理设备中并发计算所述切分后数据集中短文本信息的相似度,其中,对于每条短文本信息,只根据所述排序计算与其相邻的预设数量条短文本信息的相似度。
技术领域
本公开涉及文本批量处理技术领域,具体涉及一种短文本批量匹配方法、装置、电子设备及存储介质。
背景技术
互联网技术尤其是移动互联网技术的发展为人们的日常生活带来了极大的便利,在电子化生活成为常态的同时,互联网服务提供方也面临着海量电子信息处理的挑战。典型地,当前我国移动通信开户量已达16亿,对于通用性较强的互联网应用来说,拥有上亿甚至上十亿的用户规模已经成为越来越常见的现象,而这动辄亿级的用户数量也使系统后台的信息处理能力承受了极大的压力。
举例来说,用户信息中有大量项目是短文本信息,比如地址、工作单位、学校、兴趣爱好、搜索记录或是其他一些描述信息等,由于用户经常会采用缩写、省略或合并等一些不规范的表述方式,使得系统在利用这些信息为用户提供个性化服务时常常需要先对短文本信息进行识别和匹配。
然而,发明人在实现本公开实施例相关技术方案的过程中发现,现有技术的短文本匹配至少存在以下问题:短文本信息虽然单条信息量不大,即便进行复杂处理也不会占用太多系统资源,但由于短文本匹配需要对多条信息进行两两匹配计算,实际属于时间复杂度O(n2)级别的算法,当信息量提升到一定级别之后,算法占用的计算资源将难以想象。例如,对于100万(106)条短文本信息,如果直接进行两两匹配进行计算,预计需要(106+1)*106/2次的匹配计算,即需进行O(1012)级别的计算,近万亿量级的相似度计算通常要以天为单位才能完成,这严重影响了大数据量的互联网应用系统的服务效率。
发明内容
针对现有技术中的上述技术问题,本公开实施例提出了一种短文本批量匹配方法、装置、电子设备及计算机可读存储介质,以解决现有技术中海量短文本信息匹配计算量大、系统响应效率低的问题。
本公开实施例的第一方面提供了一种短文本批量匹配方法,包括:
根据至少一个关键项对待匹配的全量短文本信息进行分类和排序;
根据所述分类切分所述全量短文本信息,将切分后数据集通过Spark分布式容器RDD分布到多个不同的处理设备中;
在各个所述处理设备中并发计算所述切分后数据集中短文本信息的相似度,其中,对于每条短文本信息,只根据所述排序计算与其相邻的预设数量条短文本信息的相似度。
在一些实施例中,所述至少一个关键项包括用户属性项、地名项、名称项、缩写项和专用表述项中的至少一种;所述进行分类和排序包括:
采用词典搜索匹配的方式确定各条短文本信息中关键项的命中情况;
根据所述命中情况对各条短文本信息进行分类和排序。
在一些实施例中,所述根据所述分类切分所述全量短文本信息包括:
根据所述处理设备的规模或数据相关性来选取适用的分类结果。
在一些实施例中,所述计算包括:
采用Jaccard相似度算法和文本编辑距离算法进行综合匹配。
在一些实施例中,所述方法还包括:
对多个所述关键项分别设置不同的权重后再进行所述分类和排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州拉卡拉信息技术有限公司,未经广州拉卡拉信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010057007.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于近场通讯技术的微型电化学系统和检测方法
- 下一篇:一种卧式工业洗衣机