[发明专利]对话文本主题的自动提取方法无效

专利信息
申请号: 200910063114.X 申请日: 2009-07-10
公开(公告)号: CN101599071A 公开(公告)日: 2009-12-09
发明(设计)人: 黄本雄;黄毅青;胡广;温杰 申请(专利权)人: 华中科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市德权律师事务所 代理人: 王建国
地址: 430074湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 对话 文本 主题 自动 提取 方法
【说明书】:

技术领域

发明涉及计算机及通信技术领域,尤其涉及一种对话文本主题的自动 提取方法。

背景技术

网络通讯如今已成为了人们日常沟通的重要方式,为人们的交流提供了 巨大的便利。同时,即时通信软件、网络留言板、电子邮件、网络会议等交 流方式生成了大量的网络信息数据,这些数据与网页类型的数据有着本质的 区别,它们以对话模式存在,其内容中蕴含着两个或多个参与者的观点和态 度。因此网络对话数据中含有丰富的信息,能够给人们的工作和学习带来很 大的帮助。例如,可以用于协助警察侦查疑犯的想法和行动,帮助心理医生 了解病人的思考方式和辅助人类学家探究人类的行为模式等。但在海量数据 中寻找有用数据需要相当大量的人力和时间,研究者希望结合计算机人工智 能领域的一些方法,在海量对话数据中高效准确地获取重要的信息,因此基 于对话文本的主题提取成为了近年来关注的热点。

对话文本作为一种全新的信息资源,属于自然语言处理范畴。早期研究 者们认为对对话文本的主题提取可以由普通文本的主题提取方法过渡而来。 然而由于其在语言上的特点,用在普通文本的主题提取方法对对话文本发挥 不了较好的效果。普通文本一般由一个作者编写,是具有逻辑合理、思维缜 密、措辞得当、语句通顺、上下文联系紧密和主题脉络清晰等特点的书面语; 对话一般由两个或多个参与者共同完成,是具有指代不明、语句缺省、大量 问答句式存在和主题脉络混乱特点的口语。对于两种语言特点差异很大的语 料,不能将普通文本的主题提取方法直接应用于对话文本的主题提取。

目前,国内外针对对话文本的主题提取方法包括:

1、基于机器学习的主题提取方法。机器学习的方法对选取特征集、训 练集大小等都有一定的要求,需要多次测试比较,选择合适的模型、特征集、 训练样本等。

2、基于语义理解的主题提取方法。先提取出对话文本的句子中的名词 或动词,依赖于WordNet知识库,找出它们在知识库里对应的概念集,计 算句子间的语义相似度,在此基础上对对话文本中的句子进行排序,从而将 排名靠前的句子视为主题句。该方法依赖于WordNet有一定的局限性, WordNet中的词语毕竟也是有限的。特别是针对对话文本,其中包含的大部 分是口语词汇,WordNet很难全部囊括。

3、融合语义和机器学习的主题提取方法。选取一些语义特征、词网、 语料结构特征和词频等作为特征,从训练集中提取这些特征放入模型进行训 练。

4、基于统计的主题提取方法。将用于书面语文本的主题提取方法tf*idf 统计方法做一些扩展,用于对话文本的主题提取。对对话文本中的词汇进行 统计,从而对词进行评分,提取代表主题的词。这种简单的统计方法适合处 理实时对话信息,其处理的速度较快。

5、基于知识理解的主题提取方法。基于一个限定领域的知识理解系统 对文本的语义进行“理解”,从而生成主题句。其应用于对话文本的主题提 取的不足之处在于有领域限制,而网络上的对话文本是开放领域的,需要人 工编制大量的知识理解系统,可行性不高。

但由于网络通讯对话文本的特点,对话中语句之间的词语相似度比较 低,口语词汇很多,主题交织且组织结构混乱,导致应用以上几种方法提取 出的主题词准确度不高。

发明内容

有鉴于此,本发明的目的在于提供一种对话文本主题的自动提取方法, 用于在对话文本中实现对话主题的自动提取。

本发明的实施例提供了一种对话文本主题的自动提取方法,包括:

对对话文本进行切词处理、词性标注、二次切分处理以及停用词处理, 对预处理后的对话文本进行问答对探测;所述问答对探测具体包括:探测出 对话文本中的问句;通过问句在对话文本中的位置,将两个问句之间的陈述 语句列为答句候选集;在答句候选集中探测出对话文本中的每个问句相对应 的答句;

对所述对话文本进行主题切分,并确定使用的聚类算法,根据相似性函 数生成主题线索树,从而对主题切分后的语块组进行聚类,从聚类后的语块 组中抽取出主题句;所述主题切分具体包括:将对话语句集作为输入,通过 隐含语义概率模型获取词汇在对话文本中各个对话语句中的概率分布;根据 所述概率分布,获取相邻句子间的语义相似度;比较各个相邻句子间的语义 相似度和预设定的阈值范围,判定相邻的两个句子间是否为不同主题的切分 点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910063114.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top