[发明专利]一种文本模式识别方法及系统有效

申请号：	201710794150.8	申请日：	2017-09-06
公开（公告）号：	CN107622048B	公开（公告）日：	2021-06-22
发明（设计）人：	汪成林	申请（专利权）人：	南京硅基智能科技有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/205
代理公司：	北京高航知识产权代理有限公司 11530	代理人：	乔浩刚
地址：	210012 江苏省南京市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本模式识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本模式识别方法，包括以下步骤：根据二分法算法获取文本文件的一预设位置作为基点，记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置；根据记录的关键词在所述文本文件中出现的次数和位置，将所述文本文件映射为星形有向加权图；根据二分法算法，将所述星形有向加权图化为简化星形有向加权图；根据所述简化星形有向加权图的属性和记录的关键词出现次数，将所述文本文件映射为文本特征向量，整个运算过程简单有效，从而便于快速地进行文本分析。

技术领域

本发明属于文本识别技术领域，特别涉及接入无线网络的文本模式识别方法及系统。

背景技术

随着网络的发展，如何从大量的文本中快速获取有用的信息成为信息技术领域和模式识别技术领域的重要研究课题之一。在实现文本模式识别技术方案时，需要将文本文件抽象成能过通过计算机操作的模型。现有技术中的文本模式识别方法，通常采用计算两两关键词之间的距离来构造有向加权网络模型，并通过加权处理来简化有向加权网络模型，最后得到简化后的网络模型的矩阵，并提出文本的特征向量。但是，这种方法的构造模型过程复杂繁琐，计算量大，并且会导致大量的文本特征丢失，因此也会影响后面的文本相似性的比较和分类的正确性。

因此，如何快速简单实现文本模式识别，更有效保存原始文本的特征信息，成为亟待解决的问题。

发明内容

本发明提供的技术方案如下：

本发明提供了一种文本模式识别方法，包括以下步骤：

S1、根据二分法算法，将文本文件的一预设位置作为基点，记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置；

S2、根据记录的关键词在所述文本文件中出现的次数和位置，将所述文本文件映射为星形有向加权图，其中，所述星形有向加权图的中心节点为所述基点，图中的每个节点代表一个关键词，图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述基点的距离；

S3、根据二分法算法，将所述星形有向加权图化为简化星形有向加权图；

S4、根据所述简化星形有向加权图的属性和记录的关键词出现次数，将所述文本文件映射为文本特征向量。

优选地，步骤S1具体包括：

计算所述文本文件的长度；

根据所述所述文本文件的长度，将文本文件的二分之一的位置作为基点，记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置。

优选地，步骤S2具体包括：