[发明专利]一种文本数据处理方法及装置有效
申请号: | 201210534859.1 | 申请日: | 2012-12-12 |
公开(公告)号: | CN103870440B | 公开(公告)日: | 2016-11-30 |
发明(设计)人: | 凌俊民;刘晓峰;梁耿;李广杰;韦媚 | 申请(专利权)人: | 中国移动通信集团广西有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 530000 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 数据处理 方法 装置 | ||
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本数据处理方法及装置。
背景技术
随着网络通信技术的发展,通过网络获取问题的答案成为解决问题的一种有效手段。但是针对同一问题,网络上存在的回答可能有很多,但是哪一个答案相对来说更准确,即如何衡量答案与问题之间的相关性成为研究热点之一。
目前,主要都是通过问题与答案之间的文本相似度计算来进行衡量的,但是通常情况下,问题都比较简短,所包含的单词少,从而导致与其对应的答案之间存在语义鸿沟问题,因此,利用传统的文本相似度的衡量方法,使得衡量结果存在较大的误差。
发明内容
本发明实施例提供一种文本数据处理方法,用以提高答案文本与问题文本之间相关性衡量结果的准确性。
本发明实施例提供一种文本数据处理方法,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,包括:
接收用户针对任一问题文本提交的的新答案文本;
将所述新答案文本分词,得到所述新答案文本包含的所有词语;
根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度。
本发明实施例提供一种文本数据处理装置,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,包括:
接收单元,用于接收用户针对任一问题文本提交的的新答案文本;
分词单元,用于将所述新答案文本分词,得到所述新答案文本包含的所有词语;
确定单元,用于根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度。
本发明实施例提供的文本数据处理方法,将接收到的待衡量的新答案文本分词,得到新答案文本包含的所有词语,根据该新答案文本包含的所有词语,按照预设算法确定新答案文本对应的响应变量参数,该响应变量参数反应了新答案文本与问题文本之间的匹配程度,若确定出的响应变量参数越大,则答案文本与问题文本之间越匹配,反之,答案文本与问题文本之间越不匹配。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为现有技术中,LDA模型下,文档生成过程示意图;
图2为本发明实施例中,sLDA模型下,文档生成过程示意图;
图3为本发明实施例中,文本数据处理方法的实施流程示意图;
图4为本发明实施例中,文本数据处理装置的结构示意图。
具体实施方式
为了提高答案文本与问题文本衡量结果的准确性,本发明实施例提供了一种文本数据处理方法及装置。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团广西有限公司,未经中国移动通信集团广西有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210534859.1/2.html,转载请声明来源钻瓜专利网。