[发明专利]基于句间关联图的文本主题挖掘方法在审
申请号: | 201410451862.6 | 申请日: | 2014-09-05 |
公开(公告)号: | CN104298709A | 公开(公告)日: | 2015-01-21 |
发明(设计)人: | 陶余会;吴康宁;孙煦峰;赵亮 | 申请(专利权)人: | 上海中和软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海华工专利事务所(普通合伙) 31104 | 代理人: | 缪利明 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关联 文本 主题 挖掘 方法 | ||
技术领域
本发明涉及数据挖掘技术,特别是涉及一种基于句间关联图的文本主题挖掘方法的技术。
背景技术
文本数据主题挖掘技术主要是指利用计算机自动地从文本集合中抽取最能代表其主题内容的关键句子组成简洁连贯的短文的技术。随着WEB上文档数量的指数型增长,快速发现文本的主题变得越来越重要。精炼准确的主题内容可以节约用户信息过滤的时间,提高用户的工作效率。
现有的主题挖掘方法中,基于篇章结构特征、句子位置的主题挖掘方法与目标文本的体裁有关,对科技文献实用的方法不一定适合新闻类文献;随着自然语言处理技术的发展,一些比较高级的技术如词汇链、指代消解和自然语言生成等应用到了这个技术领域中。尽管这些技术的应用在一定程度上改进了主题的质量,但是这些技术自身的发展还不成熟。不能适应大规模文本数据处理的需求;基于浅层特征统计的主题挖掘方法(如句子中词语频率统计方法)尽管具有通用性,但是现有的一些统计方法太过简单,抽取出的主题质量不高。
发明内容
针对上述现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种能挖掘出高质量主题,且通用性高,适用于各种体裁、风格、类型文本文档的基于句间关联图的文本主题挖掘方法。
为了解决上述技术问题,本发明所提供的一种基于句间关联图的文本主题挖掘方法,其特征在于,具体步骤如下:
1)目标文本预处理
对目标文本按句划分,获得文本的句子序列表S,并对句子序列表S中的各个句子进行词汇分析,提取各个句子中的词汇,将各句子中的词汇作为特征词;
2)构建目标文本的句子关联矩阵为:
A=[Aij]m×m
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海中和软件有限公司,未经上海中和软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410451862.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车载免提电话
- 下一篇:用于控制机动车辆前车前灯的光分布的方法