[发明专利]基于实例获取的非平衡交互文本的话题识别方法有效

专利信息
申请号: 201310403755.1 申请日: 2013-09-06
公开(公告)号: CN103500159A 公开(公告)日: 2014-01-08
发明(设计)人: 田锋;高鹏达;郑庆华;吴凡 申请(专利权)人: 西安交通大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 朱海临
地址: 710049 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 实例 获取 平衡 交互 文本 话题 识别 方法
【说明书】:

技术领域

本发明涉及一种用于信息检索、抽取与管理的自然语言处理技术,特别是面向一种互联网交互式文本话题的识别方法。

背景技术

随着互联网信息技术的飞速发展,基于交互式文本的网络应用不断涌现,如直播课堂、网络答疑聊天室、社群讨论等典型的交互文本应用场景。这些真实场景产生的交互文本一般呈现着话题类别分布非平衡的性质,分类器在训练模型时常忽略少数类,使得少数类话题的识别精度普遍偏低。针对非平衡交互文本,如何克服其非平衡性,提高少数类话题的识别精度是一个重要的工作。申请人经过查新,未检索到与本发明相关的专利文献。

发明内容

本发明的目的是提供一种解决交互文本的非平衡性问题、可提高少数类话题识别精度的互联网话题识别方法。

为达到以上目的,本发明是采取如下技术方案予以实现的:

一种基于实例获取的非平衡交互文本的话题识别方法,包括如下步骤:

1、一种基于实例获取的非平衡交互文本的话题识别方法,其特征在于:包括如下步骤:

第一步:从源数据集中筛选实例阶段:

(1)确定共有特征集中代表实例的特征集,即从源数据集DsetSource和目标数据集DsetTarget的共有特征集中选择代表实例并且倾向于少数类的特征集,具体算法为:

Stepl:按照label空间所有类别计算FSource和FTarget各特征的信息增益值InformationGain,并将计算结果分别按降序排列各数据集特征,排序后的特征集如下:

FSource={fSource(1),fSource(2),…,fSource(i),…,fSource(R1)},1≤i≤R1

FTarget={fTarget(1),fTarget(2),…,fTarget(j),…,fTarget(R2)},1≤j≤R2

其中,fSource(i)是FSource中排序为第i个位置的特征,fTarget(j)是FTarget中排序为第j个位置的特征,R1为FSource中特征的总个数,R2为FTarget中特征的总个数。各特征是特征词词典中的词,特征值为在类标签空间label下,采用TF-IDF算法获得的各特征值;

Step2:若F=FSource∩FTarget=φ成立,则,所提算法终止,实例获取失败;否则,有F(l)∈F,其中,F(l)为共有特征集F中第l个特征,1≤l≤M,M≤min{R1,R2},且定义有M个元素的数组TopN_IGratio,同时,设TopN_IGratio(m)表示数组TopN_IGratio的第m个元素中存储的值;

Step3:确定共有特征F(m)在FSource中的位置n_Source,形成特征与位置对(n_Source,F(l)),并按照n_source的值升序排列所有特征与位置对,并记最大的位置n_source为MAX_n_source;确定共有特征F(m)在FTarget中的位置n_Target,形成特征与位置对(n_Target,F(l)),并按照n_Target的值升序排列所有特征与位置对,并记最大的位置n_Target为MAX_n_Target;将升序排序后的特征与位置对(n_source,F(l))放入新生产的二维数组Loeation中,且Location(m,col)表示Location中第m行第col列的元素,且1≤m≤M≤R1col={1,2};If MAX_n_Target>Max_n_source则,令Location(M,1)=MAX_n_Target,令m=1

Step4:N=Location(m,2),N≤R1

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310403755.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top