[发明专利]一种文本信息处理方法及装置有效
申请号: | 201210494698.8 | 申请日: | 2012-11-28 |
公开(公告)号: | CN103853711A | 公开(公告)日: | 2014-06-11 |
发明(设计)人: | 凌俊民;刘晓峰;梁耿;谭欢 | 申请(专利权)人: | 中国移动通信集团广西有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 530000 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 信息处理 方法 装置 | ||
技术领域
本发明涉及文本信息处理技术领域,尤其是涉及一种文本信息处理方法及装置。
背景技术
随着互联网技术的迅速发展,问答系统逐渐成为一种新的文本信息检索技术。和传统的搜索引擎返回大量相关文档不同,问答系统中,对于用户输入的一个文本信息,例如,用户提出的一个问题,问答系统直接反馈给用户精确的文本应答信息,从而省去了用户从大量相关的文档中去寻找自己所需文本应答信息的时间。但是在问答系统中,由于机器学习的能力有限,不能够较好地理解用户输入的文本信息,基于此,用户交互式问答系统应运而生。
用户交互式问答系统是一个基于网页(Wb)的问答系统,它为广大用户提供了一个基于Wb的平台,使用户可以通过互联网互相帮助,共同协作。对于一个用户输入的文本信息,例如用户输入一个问题,将由其他用户来回答。一般情况下,对于用户输入的文本信息,会根据该文本信息的热门程度进行排序,这样便于向用户展示当前最热门的文本信息。
现有技术中确定文本信息热门程度时,一般是根据用户对输入的文本信息的点击率来确定的。例如,对于一个用户输入的问题1和问题2,如果该问题1被点击的频率F1比较高,即该问题1的点击率高,则该问题1对应的热门程度也高。
但是现有技术中提出的确定文本信息热门程度的技术方案,对于用户输入的新的文本信息,无法确定其对应的热门程度,系统可能会默认该新的文本信息对应的热门程度较低,这样,在进行展示或者进行处理的时候,该新的文本信息可能排在比较靠后的位置,但是,如果该新的文本信息对应的热门程度可能比较高,如果采用现有技术中提出的技术方案,无法准确的确定输入的文本信息的热门程度,后续对文本信息进行分析时,可能造成错检、漏检等问题。
发明内容
本发明实施例提供了一种文本信息处理方法及装置,能够较好地提高确定文本信息热门程度的准确性,进而提高对文本信息处理的精准度。
一种文本信息处理方法,包括:针对一个待处理的文本信息,确定所述文本信息对应的非文本特征值和文本特征值,其中,所述非文本特征值和文本特征值是表征文本信息对应的热门程度的指标,所述非文本特征是和文本信息中包含的内容不相关,且与用户对该文本信息操作相关的特征信息,所述文本特征是和文本信息中包含的内容相关的特征信息;根据确定出的非文本特征值和文本特征值,按照预置的文本信息热门程度逻辑回归模型,确定该文本信息对应的热门程度值;根据确定出的热门程度值,对所述文本信息进行处理。
一种文本信息处理装置,包括:第一确定单元,用于针对一个待处理的文本信息,确定所述文本信息对应的非文本特征值和文本特征值,其中,所述非文本特征值和文本特征值是表征文本信息对应的热门程度的指标,所述非文本特征是和文本信息中包含的内容不相关,且与用户对该文本信息操作相关的特征信息,所述文本特征是和文本信息中包含的内容相关的特征信息;第二确定单元,用于根据第一确定单元确定出的非文本特征值和文本特征值,按照预置的文本信息热门程度逻辑回归模型,确定该文本信息对应的热门程度值;处理单元,用于根据第二确定单元确定出的热门程度值,对所述文本信息进行处理。
采用上述技术方案,针对一个待处理的文本信息,确定该文本信息对应的非文本特征值和文本特征值,然后根据文本信息热门程度逻辑回归模型,确定出该文本信息对应的热门程度值,根据得到的热门程度值,对该文本信息进行相应处理,相对于现有技术中,仅根据一个文本信息的点击率来确定该文本信息的热门程度值,然后根据得到的热门程度值进行相应的处理,无法实现准确地对没有点击率的文本信息进行处理,本发明实施例上述提出的技术方案,对于一个点击率为0的文本信息进行处理时,能够较好地提高确定文本信息热门程度的准确性,进而提高对文本信息处理的精准度。
附图说明
图1为本发明实施例中,提出的文本信息处理方法流程图;
图2为本发明实施例中,提出的文本信息处理装置结构示意图。
具体实施方式
针对现有技术中存在的无法准确的确定输入的文本信息的热门程度,后续对文本信息进行分析时,可能造成错检、漏检等问题,本发明实施例这里提出的技术方案中,对于待处理的文本信息,确定该文本信息对应的非文本特征值和文本特征值,然后根据预置的文本信息热门程度逻辑回归模型,准确的确定出该文本信息的热门程度值,然后再对该文本信息进行处理,能够较好地提高确定文本信息热门程度的准确性,进而提高对文本信息处理的精准度。
下面将结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团广西有限公司,未经中国移动通信集团广西有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210494698.8/2.html,转载请声明来源钻瓜专利网。