[发明专利]一种基于TF-IDF思想及神经网络的相似性处理方法有效
申请号: | 201811114655.6 | 申请日: | 2018-09-25 |
公开(公告)号: | CN109344405B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 马佳;支含绪;邓森洋 | 申请(专利权)人: | 艾凯克斯(嘉兴)信息科技有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/216;G06F40/194;G06N3/0475 |
代理公司: | 浙江杭州金通专利事务所有限公司 33100 | 代理人: | 王丽丹 |
地址: | 314000 浙江省嘉兴市南湖区城区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 tf idf 思想 神经网络 相似性 处理 方法 | ||
本发明公开了一种基于TF‑IDF思想及神经网络的相似性处理方法,包含以下步骤:A、创建元素字典;B、依据TF‑IDF思想数值化样本集中所有样本;C、矩阵化样本集中所有样本;D、搭建神经网络;E、计算某样本与所有样本间的相似性。本发明基于TF‑IDF思想及神经网络的相似性处理方法可以在比较某事物与N个事物相似性时,只需通过极短的时间计算1次,即可得到该事物与N个事物的相似性,极大的提升了计算某事物与N个事物计算相似性的效率。
技术领域
本发明涉及人工智能领域,具体是一种基于TF-IDF思想及神经网络的相似性处理方法。
背景技术
目前,采用在采用数学方式计算事物间相似性时,往往需要对相关事物进行数值化处理。
TF-IDF,意为Term Frequency-Inverse Document Frequency,即词频-逆文本频率,其理论依据是信息论中原理,目前主要是用于对文章(Document)中文字(Term)的内容进行数值化处理的一种方式,而基于TF-IDF思想,可以对很多事物(主要其为某事物由子元素组成的情况)进行类似的处理。
依据TF-IDF思想,可以派生出较多的类似想法如PF-IPF(Part-Frequncey-Inverse Product Frequency,零件频率-逆产品频率),FF-IPF(Feature Frequency-Inverse Part Frequency,特征频率-逆零件频率)等等。
对相关事物进行数值化处理后,就可以通过基于特征向量的相关算法(比如欧式距离、余弦定理、皮尔逊相关性、斯皮尔曼等级相关系数等)对不同事物之间进行相似性计算。
然而通过这种方式,只能两两事物之间的相似性,如果需要计算某事物与N个事物之间的相似性,就需要计算其与每个事物之间的相似性,这样在计算相似性时的计算量就会非常大,这样就会造成大量的资源浪费,以及等待时间过长。
发明内容
本发明的目的在于提供一种基于TF-IDF思想及神经网络的相似性处理方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于TF-IDF思想及神经网络的相似性处理方法,包含以下步骤:
A、创建元素字典;
B、依据TF-IDF思想数值化样本集中所有样本;
C、矩阵化样本集中所有样本;
D、搭建神经网络;
E、训练神经网络;
F、计算某样本与所有样本间的相似性。
作为本发明的进一步技术方案:所述步骤A具体是:获取当前需计算相似性物体的所有样本集,将样本集中所有内容中的元素子集进行聚合处理,以去除重复的元素。利用聚合后的元素,将其归入元素字典库。
作为本发明的进一步技术方案:所述步骤B具体是:依据TF-IDF思想,对样本集中的所有样本进行数值化处理。
作为本发明的进一步技术方案:所述步骤C具体是:将步骤B中的样本,转化为一个具有N×M维输入矩阵,以及一个M×M的稀疏输出矩阵。
作为本发明的进一步技术方案:所述步骤D具体是:通过步骤A中的元素字典中元素的个数,确定神经网络的输入层神经元个数N;通过样本集中样本的个数,确定神经网络中的输出层神经元的个数M;隐含层的层数与每个隐含层的神经元个数,根据样本训练的拟合程度进行确定,并逐渐逼近最优的隐含层层数与每个隐含层的神经元个数。
作为本发明的进一步技术方案:所述步骤E具体是:利用步骤D中的神经网络与步骤C中矩阵化后的样本集,对神经网络进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于艾凯克斯(嘉兴)信息科技有限公司,未经艾凯克斯(嘉兴)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811114655.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:情境感知的双重注意力自然语言推理方法
- 下一篇:词性标注方法、装置和电子设备