[发明专利]基于主题词和语句主旨的自动匹配方法、系统及存储介质有效
申请号: | 202010720583.0 | 申请日: | 2020-07-24 |
公开(公告)号: | CN111881257B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 彭凌西;蒋镇鸿;施磊 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/126;G06F40/30;G06N3/04;G06Q10/10 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 胡辉 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题词 语句 主旨 自动 匹配 方法 系统 存储 介质 | ||
本发明的提供了基于主题词和语句主旨的自动匹配方法、系统及存储介质,方法包括以下步骤:获取第一文本,从第一文本中提取得到第二文本;切分第二文本,并将切分后得到文字进行编码,得到编码后的序列信息,根据编码后的序列信息对第一文本进行bert编码,对bert编码后的第一文本进行信息提取,得到主题词以及主旨要义向量,根据主题词以及主旨要义向量得到匹配相关性;根据主题词、主旨要义向量以及匹配相关性训练第一预测模型,并得到待筛选文本和目标文本的匹配分数;方法执行的过程中占用较少的计算资源具有更强的内容感知能力,过程所涉及的数据量少,能够更为快速地完成匹配处理,可广泛应用于自然语言处理技术领域。
技术领域
本发明属于自然语言处理技术领域,尤其是基于主题词和语句主旨的自动匹配方法、系统及存储介质。
背景技术
如何高效利用信息搜索、信息匹配来增强社会生产和人员之间交流的方式,是许多科研人员都在探讨的问题。特别是在人力资源行业当中,即便有诸多的互联网信息整合平台,但由于受限于其信息匹配和运用技术能力,导致大量沉没简历和招聘需求的出现。企业在招聘过程中不仅要交高额费用且效率较低,而求职者更是呈现片面的求职过程。而在招聘过程中,人与岗位的匹配是人力资源行业最重要的应用需求,也是涉及知识和领域最多的研究点。因此,虽然得益于深度学习、自然语言处理技术和语言信息技术的发展,人与岗位的匹配技术有了许多突破,但仍存在许多尚待研究的困难点。
现有的基于单一的CNN卷积神经网络或循环神经网络的方法,首先是将简历和招聘要求通过word2vec方式表示后,进行CNN卷积神经网络或循环神经网络进行信息提取,最后对两者特征进行匹配。该方法会因过于单一特征提取器和粗提取的方法导致提取的信息不全面,对复杂专业词特别多的领域匹配效果不佳。
又或者基于充分发掘词信息的方法,首先需要用大量数据,预训练一个skip-gram模型,得出每一个字的信息表示,但要完整的表达整份简历几千字的内容,这对计算资源要求特别大。
另外,使用推荐系统的方法作为在线招聘系统的算法模型,需要输入庞大数目历史招聘记录简历,使得模型计算量特别庞大,特征提取能力不足时候,影响匹配准确性。
发明内容
有鉴于此,为至少部分解决上述技术问题之一,本发明实施例目的在于提供一种轻量,快速同时能够保证较高的匹配准确度的基于主题词和语句主旨的自动匹配方法,以及可以对应实现基于主题词和语句主旨的自动匹配方法的系统以及存储介质。
第一方面,本发明的提供了基于主题词和语句主旨的自动匹配方法,其包括以下步骤:
获取第一文本,从第一文本中提取得到第二文本;切分第二文本,并将切分后得到文字进行编码,得到编码后的序列信息;第一文本包括待筛选文本和目标文本;第二文本包括长文本和短文本;
根据编码后的序列信息对第一文本进行bert编码,对bert编码后的第一文本进行信息提取,得到主题词以及主旨要义向量;
根据主题词以及主旨要义向量生成匹配相关性;根据主题词、主旨要义向量以及匹配相关性训练第一预测模型,并得到待筛选文本和目标文本的匹配分数。
在本发明的一些实施例中,方法还包括以下步骤:
获取第一预测模型输出的历史匹配分数,根据历史匹配分数对第一预测模型提取的第一文本的特征进行存储,得到记忆特征;
根据记忆特征通过第二预测模型生成预测结果,根据匹配分数以及预测结果对第一文本的内容进行匹配。
在本发明的一些实施例中,从第一文本中提取得到第二文本这一步骤,其具体为:对第一文本进行数据清洗,删除空行符号、连续空格以及敏感词汇,输出得到第二文本。
在本发明的一些实施例中,切分第二文本,并将切分后得到文字进行编码,得到编码后的序列信息这一步骤,其具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010720583.0/2.html,转载请声明来源钻瓜专利网。