[发明专利]文档的概要生成在审
申请号: | 201810714779.1 | 申请日: | 2018-06-29 |
公开(公告)号: | CN110727789A | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 张星星;黄绍晗;崔磊;葛涛;韦福如;周明 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06K9/00;G06K9/46 |
代理公司: | 11256 北京市金杜律师事务所 | 代理人: | 王茂华;罗利娜 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 页面 多个页面 特征信息 重要度 用户浏览 重要内容 自动确定 | ||
根据本公开的实现,提出了一种用于生成文档的概要的方案。在该方案中,提取文档所包括的多个页面的特征信息,每个页面的特征信息表征该页面所包含的至少一种类型的内容。至少基于所提取的特征信息来确定多个页面在文档中的相应重要度。通过基于相应重要度从多个页面中选择预定数目的页面,来生成文档的概要,预定数目小于多个页面的数目。通过该方案,可以从文档的多个页面中自动确定包含重要内容的页面、而不是全部页面作为文档的概要。文档的概要有助于用户更快速地获得文档的主要内容、降低用户浏览文档所花费的时间和/或促使用户尽快定位感兴趣的文档。
背景技术
人们在日常工作、学习、会议等活动中可能需要搜索或查看各类文档,诸如演示幻灯片文档、文字处理文档等。有时候一个文档可能包含非常多的页面。用户需要花费大量时间才能阅读全部页面,了解文档的主要内容。如果存在大量文档要阅读,这样的时间消耗会更长。例如,在搜索的场景下,搜索引擎返回较大数目的文档作为搜索结果,用户还需要一一翻阅每个文档的全部页面才能确定文档是否包含期望的内容。这样无效的文档浏览难以获得快速、方便的文档定位,为用户带来不必要的时间浪费。
发明内容
根据本公开的实现,提出了一种用于生成文档的概要的方案。在该方案中,提取文档所包括的多个页面的特征信息,每个页面的特征信息表征该页面所包含的至少一种类型的内容。至少基于所提取的特征信息来确定多个页面在文档中的相应重要度。通过基于相应重要度从多个页面中选择预定数目的页面,来生成文档的概要,预定数目小于多个页面的数目。通过该方案,可以从文档的多个页面中自动确定包含重要内容的页面、而不是全部页面作为文档的概要。文档的概要有助于用户更快速地获得文档的主要内容、降低用户浏览文档所花费的时间和/或促使用户尽快定位感兴趣的文档。
提供发明内容部分是为了简化的形式来介绍对概念的选择,其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
图1示出了能够实施本公开的多个实现的计算环境的框图;
图2示出了根据本公开的一个实现的概要生成模块的框图;
图3示出了根据本公开的一个实现的基于神经网络的特征提取和重要度确定的实现的示意图;
图4示出了根据本公开的一个实现的对页面的特征提取的示意图;
图5A至图5C示出了根据本公开的一些实现的呈现文档的概要的示例用户界面的示意图;以及
图6示出了根据本公开的一个实现的用于生成文档的概要的过程的流程图。
这些附图中,相同或相似参考符号用于表示相同或相似元素。
具体实施方式
现在将参照若干示例实现来论述本公开。应当理解,论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开,而不是暗示对本公开的范围的任何限制。
如本文所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810714779.1/2.html,转载请声明来源钻瓜专利网。