[发明专利]一种基于多数据源的营销知识文本匹配方法在审
申请号: | 202111574083.1 | 申请日: | 2021-12-21 |
公开(公告)号: | CN114443811A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 焦洪林;陆向东;朱坚;赵庆勇 | 申请(专利权)人: | 福建新大陆软件工程有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 福州市鼓楼区京华专利事务所(普通合伙) 35212 | 代理人: | 王美花 |
地址: | 350000 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多数 营销 知识 文本 匹配 方法 | ||
本发明提供了文本匹配技术领域的一种基于多数据源的营销知识文本匹配方法,包括如下步骤:步骤S10、获取大量包括三元组数据以及文本数据的营销知识文本;步骤S20、对各所述营销知识文本进行预处理,进而构建文本数据集;步骤S30、创建一文本匹配模型,利用所述文本数据集对文本匹配模型进行训练以及调优;步骤S40、评估所述文本匹配模型的性能;步骤S50、利用所述文本匹配模型对待匹配文本数据进行相似匹配。本发明的优点在于:极大的提升了文本匹配的准确度以及泛化能力。
技术领域
本发明涉及文本匹配技术领域,特别指一种基于多数据源的营销知识文本匹配方法。
背景技术
随着互联网信息技术的快速发展,出现了海量的文本数据,这些文本数据通常包含着有用的相似信息,因此需要检索文本数据之间相似度,即进行文本相似匹配。
文本相似匹配在自然语言处理领域中占据着核心的地位,匹配检索信息、智能问答、机器翻译、对话系统、释义识别等都可以归纳为文本相似匹配问题,其本质都是匹配文本数据之间的相似程度,提取里面的相似信息,并将这些相似信息应用在搜索引擎、问答系统、文本摘要等方面上。
传统的文本相似匹配算法主要以人工提取特征为主,借助人工对文本数据之间的词、字、句提取的特征进行分析,通常包括TF-IDF和Jaccard距离等。TF-IDF是以词频为特征来表达词汇在文本数据中的重要性,Jaccard距离是通过比较文本数据中重复单词的多少来衡量相似性。
然而,传统的文本相似匹配算法存在如下问题:
1、语义理解不深入:对于文本之间的语义理解欠缺思考,仅考虑文本的组织与构成信息,文本之间的匹配能力具有一定的瓶颈,难以正确的匹配两段文本的语义,匹配更多是从字词本身来考虑,而忽略了更深层次的语义信息,忽略了文本间蕴含的潜在语义。
2、一词多义问题:由于同样的一个词或句子,可以表达多种语义信息,很多词在不同语境下具有一词多义的特点,传统文本相似匹配算法难以区分。
3、文本的结构性问题:一个短语可以由多个词语按照一定的结构组成,即使文本词语相同,不同结构的信息,也会产生不同的语义,如“机器学习”和“学习机器”,虽然词语都是一样的,但是倒置一下顺序语义就完全不同,匹配程度也完全不一致。
4、长文本的层次性:由于文本是以层次化方式组成的,即由文字组成词语,词语组成短语,短语组成句子,句子组成段落,以层次化方式将低级信息逐渐构建成高级信息,而传统的文本相似匹配算法忽视了这种不同层次之间的匹配信息。
因此,如何提供一种基于多数据源的营销知识文本匹配方法,实现提升文本匹配的准确度以及泛化能力,成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题,在于提供一种基于多数据源的营销知识文本匹配方法,实现提升文本匹配的准确度以及泛化能力。
本发明是这样实现的:一种基于多数据源的营销知识文本匹配方法,包括如下步骤:
步骤S10、获取大量包括三元组数据以及文本数据的营销知识文本;
步骤S20、对各所述营销知识文本进行预处理,进而构建文本数据集;
步骤S30、创建一文本匹配模型,利用所述文本数据集对文本匹配模型进行训练以及调优;
步骤S40、评估所述文本匹配模型的性能;
步骤S50、利用所述文本匹配模型对待匹配文本数据进行相似匹配。
进一步地,所述步骤S10具体为:
从图数据库中获取大量的营销知识的三元组数据,提取所述三元组数据中的实体词和关系词并进行拼接;
从关系型数据库中获取大量的营销知识的文本数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建新大陆软件工程有限公司,未经福建新大陆软件工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111574083.1/2.html,转载请声明来源钻瓜专利网。