[发明专利]一种基于上下文关联的中文相似性比较方法无效

申请号：	201110303533.3	申请日：	2011-10-09
公开（公告）号：	CN102314418A	公开（公告）日：	2012-01-11
发明（设计）人：	赵长海;晏海华;郎钰泽	申请（专利权）人：	北京航空航天大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京永创新实专利事务所 11121	代理人：	周长琪
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出一种基于上下文关联的中文相似性比较方法，应用于中文相似性比较技术领域，该方法首先将要进行比较的两篇文本的文本流进行分词和索引，为每一个文本建立倒排表，然后对倒排表进行相似性检测，得到可疑相似片段，最后对可疑相似片段进行聚合，得到相似文本块，在相似文本块的生成过程中考虑到上下文的关联。本发明方法先发现较小可疑相似片段，再对可疑相似片段进行聚合，减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾，实现对两篇文本的相似性比较。
搜索关键词：	一种基于上下文关联中文相似性比较方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于上下文关联的中文相似性比较方法，其特征在于，该方法具体包括如下步骤：步骤1、首先将要进行比较的两篇文本S和D的文本流进行分词，然后为每一个文本建立倒排表，具体是：通过词汇内容建立索引，将词汇本身作为索引的键，词汇在文本中的位置作为索引值；步骤2、对倒排表进行相似性检测，得到可疑相似片段，具体是：步骤2.1、首先使用倒排表对中心词进行映射：若词X同时在文本S的倒排表和文本D的倒排表中出现，则在文本S的倒排表和文本D的倒排表中建立词X的关系映射，并得到以词X作为中心词、以r作为半径，长度n＝2r+1的一对可疑相似片段；步骤2.2、以n个词作为一个粒度对两篇文本S和D进行相似性检测，并确定每一对可疑相似片段的相似度；步骤2.3、确定文本S和文本D的相似值R_S，D表示文本S对文本D的相似度，R_D，S表示文本D对文本S的相似度；步骤3、对可疑相似片段进行聚合，生成相似文本块。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110303533.3/，转载请声明来源钻瓜专利网。

上一篇：带过载保护的高精度无极灯频率驱动模块
下一篇：以太供电网络防雷击浪涌方法及防雷器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于上下文关联的中文相似性比较方法无效

专利文献下载