[发明专利]短文本批量匹配方法及装置在审

申请号：	202010057007.2	申请日：	2020-01-16
公开（公告）号：	CN111259117A	公开（公告）日：	2020-06-09
发明（设计）人：	不公告发明人	申请（专利权）人：	广州拉卡拉信息技术有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F9/50
代理公司：	北京辰权知识产权代理有限公司 11619	代理人：	董李欣
地址：	510555 广东省广州市黄***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本批量匹配方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开实施例公开了一种短文本批量匹配方法及装置。其中，该方法包括：根据至少一个关键项对待匹配的全量短文本信息进行分类和排序；根据所述分类切分所述全量短文本信息，将切分后数据集通过Spark分布式容器RDD分布到多个不同的处理设备中；在各个所述处理设备中并发计算所述切分后数据集中短文本信息的相似度，其中，对于每条短文本信息，只根据所述排序计算与其相邻的预设数量条短文本信息的相似度。

技术领域

本公开涉及文本批量处理技术领域，具体涉及一种短文本批量匹配方法、装置、电子设备及存储介质。

背景技术

互联网技术尤其是移动互联网技术的发展为人们的日常生活带来了极大的便利，在电子化生活成为常态的同时，互联网服务提供方也面临着海量电子信息处理的挑战。典型地，当前我国移动通信开户量已达16亿，对于通用性较强的互联网应用来说，拥有上亿甚至上十亿的用户规模已经成为越来越常见的现象，而这动辄亿级的用户数量也使系统后台的信息处理能力承受了极大的压力。

举例来说，用户信息中有大量项目是短文本信息，比如地址、工作单位、学校、兴趣爱好、搜索记录或是其他一些描述信息等，由于用户经常会采用缩写、省略或合并等一些不规范的表述方式，使得系统在利用这些信息为用户提供个性化服务时常常需要先对短文本信息进行识别和匹配。

然而，发明人在实现本公开实施例相关技术方案的过程中发现，现有技术的短文本匹配至少存在以下问题：短文本信息虽然单条信息量不大，即便进行复杂处理也不会占用太多系统资源，但由于短文本匹配需要对多条信息进行两两匹配计算，实际属于时间复杂度O(n²)级别的算法，当信息量提升到一定级别之后，算法占用的计算资源将难以想象。例如，对于100万(10⁶)条短文本信息，如果直接进行两两匹配进行计算，预计需要(10⁶+1)*10⁶/2次的匹配计算，即需进行O(10¹²)级别的计算，近万亿量级的相似度计算通常要以天为单位才能完成，这严重影响了大数据量的互联网应用系统的服务效率。

发明内容

针对现有技术中的上述技术问题，本公开实施例提出了一种短文本批量匹配方法、装置、电子设备及计算机可读存储介质，以解决现有技术中海量短文本信息匹配计算量大、系统响应效率低的问题。

本公开实施例的第一方面提供了一种短文本批量匹配方法，包括：

根据至少一个关键项对待匹配的全量短文本信息进行分类和排序；

根据所述分类切分所述全量短文本信息，将切分后数据集通过Spark分布式容器RDD分布到多个不同的处理设备中；

在各个所述处理设备中并发计算所述切分后数据集中短文本信息的相似度，其中，对于每条短文本信息，只根据所述排序计算与其相邻的预设数量条短文本信息的相似度。

在一些实施例中，所述至少一个关键项包括用户属性项、地名项、名称项、缩写项和专用表述项中的至少一种；所述进行分类和排序包括：

采用词典搜索匹配的方式确定各条短文本信息中关键项的命中情况；

根据所述命中情况对各条短文本信息进行分类和排序。

在一些实施例中，所述根据所述分类切分所述全量短文本信息包括：

根据所述处理设备的规模或数据相关性来选取适用的分类结果。

在一些实施例中，所述计算包括：