[发明专利]面向多层文本分类的特征选择方法和装置有效

专利信息
申请号: 201010134535.X 申请日: 2010-03-25
公开(公告)号: CN102200981A 公开(公告)日: 2011-09-28
发明(设计)人: 刘思培;王进;彭鸽;姜赢 申请(专利权)人: 三星电子(中国)研发中心;三星电子株式会社
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京铭硕知识产权代理有限公司 11286 代理人: 韩明星;王艳娇
地址: 210008 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 提供了一种面向多层文本分类的特征选择方法和装置。所述方法包括:基于CHI-X2和IG的叶节点特征选择、基于改进CHI-X2的分支节点特征选择、基于IG的分支节点特征选择以及组合CHI-X2和IG的分支节点特征选择,其中,基于改进CHI-X2的特征选择能够为相同分支下每个子节点选择更有效的独有特征;组合CHI-X2和IG的分支节点特征选择能够为每个分支节点获取其所有子节点的共有特征;能够获得分支节点的文本特征,并自底向上依次迭代直至当前分支节点为根节点,获得最终的文本特征集合。
搜索关键词: 面向 多层 文本 分类 特征 选择 方法 装置
【主权项】:
一种面向多层文本分类的特征选择方法,所述方法包括:基于CHI‑X2对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;基于IG对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;针对每个分支节点,在基于CHI‑X2的叶节点权重计算的基础上,基于改进的CHI‑X2权重计算公式,对当前分支节点下的所有叶节点的CHI‑X2特征的权重取值进行调整并按照从大到小的顺序进行重新排序,将隶属同一子节点的每个叶节点的前K个位置的CHI‑X2特征汇总以后作为所述每个叶节点所隶属的子节点的CHI‑X2特征,依次将得到的子节点的CHI‑X2特征向所述子节点隶属的上级节点进行汇总迭代,得到当前分支节点的CHI‑X2特征,其中,所述获得分支节点的CHI‑X2特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的CHI‑X2特征;针对每个分支节点,在基于IG的叶节点权重计算的基础上,将当前分支节点下的所有子节点的IG特征进行汇总,并按照权重从大到小的顺序进行排序,将其结果作为当前分支节点的IG特征,其中,所述获得分支节点的IG特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的IG特征;针对每个分支节点,基于当前分支节点的CHI‑X2特征和IG特征,从当前分支节点的CHI‑X2特征中删除排在当前分支节点的IG特征中前N个位置的特征,添加排在当前分支节点的IG特征中后M个位置的特征,将新的CHI‑X2特征作为当前分支节点的最终特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子(中国)研发中心;三星电子株式会社,未经三星电子(中国)研发中心;三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201010134535.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top