[发明专利]基于语义的藏文网页文本分类方法有效
申请号: | 201310141985.5 | 申请日: | 2013-04-22 |
公开(公告)号: | CN103218444A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 胥桂仙 | 申请(专利权)人: | 中央民族大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100081 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 藏文 网页 文本 分类 方法 | ||
技术领域
本发明涉及数据预处理技术,尤其涉及一种基于语义的藏文网页文本分类方法。
背景技术
随着藏区信息化和经济化的飞速发展,藏族网民和网页的规模正以惊人的速度增长,网络成为藏语信息传递和共享的载体,也成为藏族人民发表舆论的场所。不当的言论可能引起舆论的导火索,负面的信息将对社会公共安全形成较大威胁。藏文网页文本分类技术是藏文网络舆情监测技术实现的前提和基础,具有重要的研究价值。
基于藏文网络的语义文本分类作为处理和组织大量网络文本数据的关键技术,可以根据文本的内容自动确定文本类别,方便用户快速、准确地定位所需要的信息。然而,藏语本体知识库资源缺乏,致使基于藏文语义层面的应用研究受到约束。而且在传统的Web文本分类方法中,认为藏语的词汇之间是独立的,忽略了词语间同义词、上下位关系等语义问题,丢失了很多重要的信息,导致分类结果不够准确且计算量大。
发明内容
本发明的目的是在于提供一种能对藏文网页文本信息进行实时、高效的分类的方法。
为实现上述目的,本发明提供了一种基于语义的藏文网页文本分类方法,该方法包括:
从藏文网页中抽取用于表征该网页的文本信息;
对所述文本信息进行分词处理,将所述经过分词处理得到的词语表示为词向量空间;
根据预设的藏文分类本体,将所述通过词向量空间表示的词语映射到语义空间的概念中,得到待分类文本的语义空间;
根据预设的训练样本集的语义空间,采用分类算法对所述待分类文本的语义空间进行分类。
在上述方法中,所述从藏文网页中抽取用于表征该网页的文本信息包括:
采用规则法从藏文网页中抽取文本信息,将所得到的文本信息表示为X1;
采用模板法从藏文网页中抽取文本信息,将所得到的文本信息表示为X2;
判断X1与X2是否一致,如果不一致,则分别对X1与X2中每类信息进行比较,选择每类信息中最优信息的组合作为表征所述藏文网页的文本信息。
在上述方法中,所述文本信息中包括网页的发布日期和网页的标题;
所述在对所述文本信息进行分词处理之前,在从藏文网页中抽取用于表征该网页的文本信息之后还包括:
根据所述网页的发布日期和网页的标题对所述藏文网页进行去重处理;
将所述网页中的文本信息中的藏文文本的字符编码方式转换成统一码Unicode字符编码方式。
在上述方法中,对所述文本信息进行分词处理包括:
利用字切分特征和字性库先识别每一个字,同时依据字性特征或接续特征判断出所述文本信息中的所有格助词;
通过标点符号和关联词对所述文本信息进行分句,根据所述格助词将每个句子分块;
通过词典对所述划分成块的所述文本信息进行分词,得到各个词语;
在所得到的包含多个词语的字串中含有某个紧缩词时,判断去掉该紧缩词后的字串是否在词典中存在,若是,则分词成功,分词结果为去除紧缩词后字串和紧缩词;若否,去掉紧缩词并添加后置字后在词典中查找,分词结果是原字串加后置字后的词和紧缩词。
在上述方法中,所述预设的藏文分类本体包括:
对藏文分类语料进行藏语类别主题词提取;
从藏汉电子词典获取所述藏语类别主题词的汉语释义,参考知网Hownet汉语本体的语义,将所述藏语类别主题词扩充为藏文分类本体中的概念;
以树状层次结构描述所述概念的内涵及所述概念间的上下位关系、整体-部分关系、同义关系、近义关系。
在上述方法中,所述预设的训练样本集的语义空间包括:根据所述预设的藏文分类本体,将藏文分类语料中的通过词向量空间表示的词语映射到语义空间的概念中,得到训练样本集中各个样本的语义空间。
在上述方法中,所述采用分类算法对所述待分类文本的语义空间进行分类包括:
计算待分类文本的语义空间与训练样本集的语义空间中每一个样本的语义空间的加权语义网文本相似度;
对所述加权语义网文本相似度的值进行从大到小排列,选取与前k个加权语义网文本相似度对应的训练样本的语义空间,其中,k为自然数;
在训练样本集的语义空间中查询所述k个训练样本的语义空间各自归属的类,从中选择包含样本数最多的类作为所述待分类文本的语义空间归属的类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310141985.5/2.html,转载请声明来源钻瓜专利网。