[发明专利]文档的概要生成在审
申请号: | 201810714779.1 | 申请日: | 2018-06-29 |
公开(公告)号: | CN110727789A | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 张星星;黄绍晗;崔磊;葛涛;韦福如;周明 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06K9/00;G06K9/46 |
代理公司: | 11256 北京市金杜律师事务所 | 代理人: | 王茂华;罗利娜 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 页面 多个页面 特征信息 重要度 用户浏览 重要内容 自动确定 | ||
1.一种计算机实现的方法,包括:
提取文档所包括的多个页面的特征信息,每个页面的特征信息表征该页面所包含的至少一种类型的内容;
至少基于所提取的特征信息来确定所述多个页面在所述文档中的相应重要度;以及
通过基于所述相应重要度从所述多个页面中选择预定数目的页面,来生成所述文档的概要,所述预定数目小于所述多个页面的数目。
2.根据权利要求1所述的方法,其中提取所述多个页面的特征信息包括:针对每个页面,
确定该页面所包含的内容是否包括文本;以及
响应于该页面包含的内容包括文本,提取以下至少一项以作为该页面的文本相关特征信息:所述文本的语义特征和指示所述文本包括的词语数目的特征信息。
3.根据权利要求1所述的方法,其中提取所述多个页面的特征信息包括:针对每个页面,
确定该页面所包含的内容是否包括图像;
响应于该页面包含的内容包括图像,提取以下至少一项以作为该页面的图像相关特征信息:所述图像的特征图、指示所述图像在该页面中占据的面积的特征信息和指示所述图像在该页面中的位置的特征信息。
4.根据权利要求1所述的方法,其中提取所述多个页面的特征信息包括:针对每个页面,
将该页面转换为图像;以及
从所述图像中提取特征图以作为该页面的混合特征信息。
5.根据权利要求1所述的方法,其中从所述多个页面中选择所述预定数目的页面还包括:
确定所述多个页面是否包括关注信息,所述关注信息包括以下至少一项:关键词、对多媒体文件的引用以及对另一文档的引用;以及
进一步基于所述多个页面中的所述关注信息的存在,从所述多个页面中选择所述预定数目的页面。
6.根据权利要求1所述方法,其中提取所述多个页面的特征信息包括:利用神经网络提取所述多个页面的特征信息,并且
其中确定所述多个页面的相应重要度包括:利用所述神经网络确定所述多个页面的相应重要度。
7.根据权利要求6所述的方法,其中所述神经网络利用包括多个训练页面的训练文档来训练,所述多个训练页面中的所述预定数目的训练页面被标注为所述训练文档的概要,并且所述预定数目的训练页面基于以下至少一项而被标注:
在所述训练文档的呈现期间所述训练页面被呈现的持续时间,
所述训练页面包含的备注信息,以及
与所述训练页面是否用作所述训练文档的概要相关的人工标注。
8.根据权利要求1所述的方法,进一步包括:
在所述多个页面的呈现中突出显示所选择的预定数目的页面。
9.根据权利要求1所述的方法,进一步包括:
独立于所述文档而呈现所选择的预定数目的页面或者与所述预定数目的页面对应的预览页面。
10.根据权利要求1所述的方法,其中所述文档选自由以下构成的组:演示幻灯片文档、文字处理文档、网页以及可打印文档格式(PDF)文档。
11.一种电子设备,包括:
处理单元;以及
存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行以下动作:
提取文档所包括的多个页面的特征信息,每个页面的特征信息表征该页面所包含的至少一种类型的内容;
至少基于所提取的特征信息来确定所述多个页面在所述文档中的相应重要度;以及
通过基于所述相应重要度从所述多个页面中选择预定数目的页面,来生成所述文档的概要,所述预定数目小于所述多个页面的数目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810714779.1/1.html,转载请声明来源钻瓜专利网。