[发明专利]对话文本主题的自动提取方法无效
申请号: | 200910063114.X | 申请日: | 2009-07-10 |
公开(公告)号: | CN101599071A | 公开(公告)日: | 2009-12-09 |
发明(设计)人: | 黄本雄;黄毅青;胡广;温杰 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市德权律师事务所 | 代理人: | 王建国 |
地址: | 430074湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对话 文本 主题 自动 提取 方法 | ||
1.一种对话文本主题的自动提取方法,其特征在于,包括:
对对话文本进行切词处理、词性标注、二次切分处理以及停用词处理, 对预处理后的对话文本进行问答对探测;所述问答对探测具体包括:探测出 对话文本中的问句;通过问句在对话文本中的位置,将两个问句之间的陈述 语句列为答句候选集;在答句候选集中探测出对话文本中的每个问句相对应 的答句;
对所述对话文本进行主题切分,并确定使用的聚类算法,根据相似性函 数生成主题线索树,从而对主题切分后的语块组进行聚类,从聚类后的语块 组中抽取出主题句;所述主题切分具体包括:将对话语句集作为输入,通过 隐含语义概率模型获取词汇在对话文本中各个对话语句中的概率分布;根据 所述概率分布,获取相邻句子间的语义相似度;比较各个相邻句子间的语义 相似度和预设定的阈值范围,判定相邻的两个句子间是否为不同主题的切分 点。
2.根据权利要求1所述的方法,其特征在于,所述探测出对话文本中 的问句具体包括:
选择识别问句的特征;
对准备用于训练集的句子进行人工手动标识句子类别;
基于所述选择的识别问句的特征,对用做训练集的句子提取出代表各个 特征的值,记录下每个句子对应的特征值序列;
将训练集的每个句子的特征值序列和人工标识的句子类别共同作为分 类器的输入,对分类器进行训练;
对准备用于测试集的句子进行人工手动标识句子类别;
根据所述训练集句子特征值的提取方法,记录下代表测试集中每个句子 的特征值序列;
将测试集中抽取出的特征值序列和人工标识的句子类别共同作为分类 器的输入,对分类器输出的分类结果的准确率进行评估,从而对选定的训练 集、分类器和特征做相应的调整;
根据所述训练集句子特征值的提取方法,记录下代表待处理对话文本中 每个句子的特征值序列;
将待处理对话文本抽取出的特征值序列作为分类器的输入,得到输出的 分类结果。
3.根据权利要求2所述的方法,其特征在于,所述识别问句的特征具 体包括:
问句的高标识特征、输入的对话语句中词的个数,及句子中最前面的五 个词的词性和句子中最后面的五个词的词性。
4.根据权利要求2或3所述的方法,其特征在于,所述探测对话文本 中的每个问句相对应的答句的方法具体包括:
选择识别答句的特征;
对准备用于训练集的句子进行人工手动标识句子类别;
从选定的训练集对话语句中抽取出代表答句特征的特征值序列;
将训练集中每个对话语句代表答句特征的特征值序列和人工标识的句 子类别一同作为分类器的输入,对分类器进行训练;
对作为测试集的句子进行人工手动标识句子类别;
从作为测试集的对话语句中抽取出代表答句特征的特征值序列;
将测试集抽取出的特征值序列和人工标识的句子类别共同作为分类器 的输入,对分类器输出的分类结果的准确率进行评估,从而对选定的训练集、 分类器和特征做相应的调整;
根据所述训练集句子特征值的提取方法,记录下代表待处理对话文本中 每个句子的特征值序列;
将待处理对话文本抽取出的特征值序列作为分类器的输入,得到输出的 分类结果。
将探测出的每个问句及其相对应的答句合并到同一个对话语句,并进行 标记。
5.根据权利要求4所述的方法,其特征在于,所述答句的特征具体包 括:
答句候选集中前五个词的词性标注和后五个词的词性标注;
答句候选集中的句子个数;
答句候选集中的答句与问句的距离;
答句候选集中的答句与问句的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910063114.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:AKT活性抑制剂
- 下一篇:具有一旦致动就会醒来的闲置状态的照明控制