[发明专利]一种基于多流行关联矩阵分解的无障碍文本展现方法有效
申请号: | 201310217406.0 | 申请日: | 2013-06-03 |
公开(公告)号: | CN103345471A | 公开(公告)日: | 2013-10-09 |
发明(设计)人: | 卜佳俊;李平;陈纯;王北斗;高珊 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 流行 关联 矩阵 分解 障碍 文本 展现 方法 | ||
技术领域
本发明涉及无障碍文本展现方法的技术领域,特别是基于多流行关联矩阵分解的无障碍文本展现方法。
背景技术
我国人口基数大,组成群体呈多样化特点,而其中的重要群体残疾人的总量已达8500万,是构建和谐社会和发展国民经济中的一支重要力量,也是各级政府和各类团体重点帮扶的群体。据中国残疾人联合会的统计报表发现,各类残疾人的数据在过去的几十年中呈逐年上升趋势。在大数据驱动的信息时代,越来越多的残疾人利用快速便捷的互联网获取日常学习和生活的信息资源,成为网民中不可忽视的群体。在互联网这个巨大的信息共享平台上,文本媒介占据信息展现的压倒性比例,比如时事新闻、体育报道、书评影评等的绝大部分信息通过文本形式呈现给残疾人用户。相比普通人,许多残疾人由于身体或心理的各种缺陷而很难有效地浏览所需的网页信息,而互联网上的文本信息琳琅满目,因此急需发明一种无障碍的文本展现方法,方便残疾人群体阅读互联网上的文本信息。
众所周知,各类网站上提供的网页信息组织松散,缺乏集中分类管理,而残疾人用户仅仅有兴趣阅读某些特定主题的网页文本,这造成文本信息丰富杂乱与残疾人阅读感兴趣的网页困难之间的矛盾。特别对于那些听力残疾人或肢体残疾人来说,在互联网上查找并阅读网页文本信息的步骤更加耗时,容易造成身心疲惫和精神困乏。如果能将各类网页中的文本信息根据主题快速放到小的集合中,再依照不同主题展现给残疾人用户,将有利于减轻网页文本阅读压力,提高文本的阅读效率和残疾人用户的体验度。
在信息检索和数据挖掘领域,主要基于网页文本的余弦相似度并在此基础上进行文本的聚类,形成各类主题的文本集合。在对网页文档进行文本的TF-IDF特征提取并向量化表示后,根据文本和单词之间的相互依存关系,使用数据挖掘中的k-means等聚类算法,可将网页文本按照不同的主题分成多个不同子集合呈现给用户。
发明内容
为了帮助残疾人用户能够快速方便地浏览同一主题的网页文本,以提高文本阅读的体验度,本发明提出了一种基于多流行关联矩阵分解的无障碍文本展现方法,该方法包括以下步骤:
1、从互联网抓取网页文本后,针对文本进行以下操作:
1)对文本进行分词,提取文本统计特征信息,包括词频和反向文档频率,形成文本的TF-IDF向量化特征表示;
2)构建若干文本流行和单词流行,基于多流行的关联矩阵分解考虑文本与单词之间的对偶性,获得低维的文本表示和单词表示;
3)对文本的低维表示进行聚类,相同或相近主题的文本分为一组,以分组的形式重新展现文本信息。
2、步骤1)中所述的提取文本统计特征信息具体步骤是:
1.1)每个网页文本可看成一个文档,对文本提取两种统计信息,即词频(TF:Term Frequency)和反向文档频率(IDF:Inverse Document Frequency),若文本中出现的单词有m个,则形成m维的TF-IDF向量化特征表示;
1.2)对所有文本的TF-IDF特征表示进行统一的归一化处理。
3、步骤2)中所述的构建若干文本流行和单词流行具体步骤是:
2.1)流行结构能够反映数据的本征结构,它通过图拉普拉斯矩阵进行构建,而文本流行和单词流行能分别反映文本数据和单词数据的本征结构;
2.2)构建文本的图拉普拉斯矩阵Ls,首先从互联网上获取n个网页文本,第i个文本的特征表示为第j个文本的特征表示为将每个文本看成无向图上的顶点,若两个文本的欧式距离较近,则在相应的顶点间连接一条边并赋予边权重,这样可以建立一张反映文本数据流行结构的无向图;各文本间的关联权重组成大小为n×n的权重矩阵Ws,对Ws的每列元素依次累加并放置在对角矩阵Ds的对角线上,Ds中非对角线上的元素均置为0,则可通过Ls=Ds-Ws得到文本的图拉普拉斯矩阵Ls;
2.3)构建若干文本的图拉普拉斯矩阵Ls,通过赋予无向图中所连接边的不同权重Ws实现,即利用三种不同的权重策略:二值权重、余弦相似度和高斯核权重;若与的欧式距离较远,即两个顶点间无边连接,则两个文本的边权重为0;若与的欧式距离较近,即两个顶点间有边连接,则:
a.对于二值权重,两个文本的边权重为1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310217406.0/2.html,转载请声明来源钻瓜专利网。