[发明专利]数字图书系统中的个性化自动文摘方法无效
| 申请号: | 201110213750.3 | 申请日: | 2011-07-28 |
| 公开(公告)号: | CN102222119A | 公开(公告)日: | 2011-10-19 |
| 发明(设计)人: | 李庆;刘家芬;罗旭斌;张晨;胡川 | 申请(专利权)人: | 成都希创掌中科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 成都天嘉专利事务所(普通合伙) 51211 | 代理人: | 冉鹏程 |
| 地址: | 610041 四川省成都市高新区*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数字 图书 系统 中的 个性化 自动 文摘 方法 | ||
1.一种数字图书系统中的个性化自动文摘方法,其特征在于包括如下步骤:
a、输入查询信息,所述查询信息包括关键字和和用户的个性化信息;
b、根据所输入的查询信息建立相关模型和不相关模型,所述相关模型是指查询语句的自然语言模型的概率分布函数,用关键字查询数字图书系统,得到最前面的5-50篇文档;
所述的不相关模型是所述相关模型的补充概率分布函数,指数字图书系统中的所有文档集合;
c、 对需要得到摘要信息的文档中的每一个字, 计算所述字在相关模型和不相关模型下产生的概率,并用相关模型下的概率减去不相关模型下得概率作为所述字和查询信息的相关度;
d、将每个关键字的所述相关度保存到一个队列中,并对队列进行平滑处理;
e、选取所述队列中一组连续关键字相关度相加,相关度最高的文档片段做为一条文档摘要,将这条相关度最高的文档片段放入摘要数据集合中,并在所述队列中删除这条相关度最高的文档片段;
f 、根据阈值大小判断是否继续寻找下条文摘;
g 、如果需要,继续e步骤操作,如果不需要,就返回摘要数据集合中的所有文档作为摘要信息。
2.根据权利要求1所述的数字图书系统中的个性化自动文摘方法,其特征在于:
所述c步骤中,计算所述字在相关模型和不相关模型下产生的概率具体包括:所述字在不相关模型下产生的概率方法为:
在给定关键字 和整个文档集合的情况下,文档中出现关键字的次数用表示,而整个文档集合中的数量用表示,不相关模型中关键字产生的概率为:
;
所述字在相关模型下产生的概率方法的步骤包括:
1)使用查询来检索文档,并将检索出来的查询相关的文档定义为,在中的每一个文档具有,代表在的条件下检索的概率,计算关键词在给定文档的情况下的,并通过整个文档构建的语言模型做平滑处理,其中的计算公式如下:
2)通过计算来近似估计,这个概率为:
其中,是在文档中出现的次数,为选取的相关文档的文档长度,并使用参数来控制词频对这个概率的影响,这是在自然语言模型中常见的处理。
3.根据权利要求1或2所述的数字图书系统中的个性化自动文摘方法,其特征在于:所述d步骤中,对队列进行平滑处理具体是指:计算需要得到摘要信息的文档中的每一个字与查询信息的相关度,每个相关度和前后十个字的相关度比较过高或者过低,则认为当前字处于波动较大的情况,在运算前将其去掉。
4.根据权利要求3所述的数字图书系统中的个性化自动文摘方法,其特征在于:所述f步骤中,根据阈值大小判断是否继续寻找下条文摘具体是指:预先设定阈值的值,之前取出来的摘要片段的相关度总和除以当前取出来的摘要片段的相关度总和小于所述设定的阈值,则保留当前文摘信息,并重复e步骤;如大于所述设定的阈值,则丢弃当前的文摘信息,并结束文摘提取算法,返回摘要数据集合中的所有文档作为摘要信息。
5.根据权利要求1所述的数字图书系统中的个性化自动文摘方法,其特征在于:所述c步骤中,用相关模型下的概率减去不相关模型下得概率作为所述字和查询信息的相关度,相关度的分布在[-1,1]之间。
6.根据权利要求1所述的数字图书系统中的个性化自动文摘方法,其特征在于:所述的a步骤中,用户的个性化信息是指:用户的历史浏览数据或用户在数字图书系统中曾经使用的个人偏好信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都希创掌中科技有限公司,未经成都希创掌中科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110213750.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:专用游标卡尺
- 下一篇:废液循环贮槽虹吸式出液装置





