[发明专利]基于实例获取的非平衡交互文本的话题识别方法有效
申请号: | 201310403755.1 | 申请日: | 2013-09-06 |
公开(公告)号: | CN103500159A | 公开(公告)日: | 2014-01-08 |
发明(设计)人: | 田锋;高鹏达;郑庆华;吴凡 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 朱海临 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 实例 获取 平衡 交互 文本 话题 识别 方法 | ||
技术领域
本发明涉及一种用于信息检索、抽取与管理的自然语言处理技术,特别是面向一种互联网交互式文本话题的识别方法。
背景技术
随着互联网信息技术的飞速发展,基于交互式文本的网络应用不断涌现,如直播课堂、网络答疑聊天室、社群讨论等典型的交互文本应用场景。这些真实场景产生的交互文本一般呈现着话题类别分布非平衡的性质,分类器在训练模型时常忽略少数类,使得少数类话题的识别精度普遍偏低。针对非平衡交互文本,如何克服其非平衡性,提高少数类话题的识别精度是一个重要的工作。申请人经过查新,未检索到与本发明相关的专利文献。
发明内容
本发明的目的是提供一种解决交互文本的非平衡性问题、可提高少数类话题识别精度的互联网话题识别方法。
为达到以上目的,本发明是采取如下技术方案予以实现的:
一种基于实例获取的非平衡交互文本的话题识别方法,包括如下步骤:
1、一种基于实例获取的非平衡交互文本的话题识别方法,其特征在于:包括如下步骤:
第一步:从源数据集中筛选实例阶段:
(1)确定共有特征集中代表实例的特征集,即从源数据集DsetSource和目标数据集DsetTarget的共有特征集中选择代表实例并且倾向于少数类的特征集,具体算法为:
Stepl:按照label空间所有类别计算FSource和FTarget各特征的信息增益值InformationGain,并将计算结果分别按降序排列各数据集特征,排序后的特征集如下:
FSource={fSource(1),fSource(2),…,fSource(i),…,fSource(R1)},1≤i≤R1
FTarget={fTarget(1),fTarget(2),…,fTarget(j),…,fTarget(R2)},1≤j≤R2
其中,fSource(i)是FSource中排序为第i个位置的特征,fTarget(j)是FTarget中排序为第j个位置的特征,R1为FSource中特征的总个数,R2为FTarget中特征的总个数。各特征是特征词词典中的词,特征值为在类标签空间label下,采用TF-IDF算法获得的各特征值;
Step2:若F=FSource∩FTarget=φ成立,则,所提算法终止,实例获取失败;否则,有F(l)∈F,其中,F(l)为共有特征集F中第l个特征,1≤l≤M,M≤min{R1,R2},且定义有M个元素的数组TopN_IGratio,同时,设TopN_IGratio(m)表示数组TopN_IGratio的第m个元素中存储的值;
Step3:确定共有特征F(m)在FSource中的位置n_Source,形成特征与位置对(n_Source,F(l)),并按照n_source的值升序排列所有特征与位置对,并记最大的位置n_source为MAX_n_source;确定共有特征F(m)在FTarget中的位置n_Target,形成特征与位置对(n_Target,F(l)),并按照n_Target的值升序排列所有特征与位置对,并记最大的位置n_Target为MAX_n_Target;将升序排序后的特征与位置对(n_source,F(l))放入新生产的二维数组Loeation中,且Location(m,col)表示Location中第m行第col列的元素,且1≤m≤M≤R1col={1,2};If MAX_n_Target>Max_n_source则,令Location(M,1)=MAX_n_Target,令m=1
Step4:N=Location(m,2),N≤R1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310403755.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电镀废水电化学处理回收利用综合方法
- 下一篇:一种纵缝自动焊机