[发明专利]一种新闻综述生成方法与系统有效
申请号: | 201710082757.3 | 申请日: | 2017-02-16 |
公开(公告)号: | CN106874469B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 张建敏;万小军 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/30 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 苏爱华 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 综述 生成 方法 系统 | ||
1.一种新闻综述生成方法,其特征在于,该方法通过对面向同一事件的新闻的段落重新分割,重要性排序,选择并且合并以及最后的重新排序,最终基于重组得到的新闻段落构建新闻综述;包括如下步骤:
(1)针对原始新闻材料的段落重新分割构建;
(2)对新闻材料重新构建出的段落进行重要性预测;
(3)根据段落重要性进行段落选择,融合;
(4)对选择出来的段落进行重排序,构成新闻综述;其中:
针对原始新闻材料的段落重新分割构建,其具体做法包括四个部分:对新闻材料进行分词,计算句子间隔的语义学分数,计算句子间隔的“深度”分数,最后对新闻进行划分;
第一步:原始新闻材料进行分词预处理;如果是英文的语料需要将单词都转化为小写字母,然后进行词干化,即将经过各种人称及时态变化的单词转化为其词干,如果是中文语料那么只需要进行分词;
第二步:计算句子间隔的语义学分数;对于每一个语义间隔,其前后的文本单位分别用b1和b2表示,那么句子间隔的语义学相似度用如下公式表示;
其中t表示所有在预处理过程中得到的原始新闻中的所有非停用词的词语;并且wt,b代表词语t在语义单元b中的权重,这里的权重用词语t在语义单元b中出现的频数决定;这个权重的取值在0到1之间;
第三步:计算句子间隔i的“深度”分数di;计算过程中首先寻找相对于句子间隔i的左边的高峰位置l和右边的高峰位置r;左边的高峰位置l就是相对于句子间隔i向左找到第一个位置,使其满足dl-1<dl;基于同样方式得到右边的高峰位置r,那么di=(dl-di)+(dr-di);
第四步:对新闻进行划分;在得到每一个句子间隔的“深度”分数di之后,根据不同新闻类型取不同的“深度”分数阈值来决定划分段落的个数,即设置阈值为d,如果句子间隔的“深度”分数大于d,作为新的段落分割;d满足正态分布,取阈值为d的平均值与d的标准差σ之间的差值,即
2.根据权利要求1所述的新闻综述生成方法,其特征在于,对新闻材料重新构建出的段落进行重要性预测;使用基于节点重新加强的随机游走图模型进行重要性排序;图模型的信息图建立过程是将每一个划分的新闻段落作为节点,节点之间的TFIDF向量相似度作为初始的转移概率,特殊的是在同一篇新闻中的段落,转移概率均为0;
pT(v)是T时刻游走于状态v的概率,pT(u,v)是T时刻状态u转移到状态v的转移概率,需要迭代计算,计算公式如下:
pT(v)=∑u∈VpT-1(u,v)pT-1(u)
其中DT(u)=∑v∈Vp0(u,v)·pT(v),而且p*(v)是平均分布概率,表示初始每一个段落即图中的节点被访问的概率相同;迭代计算到满足下面的公式即可,即达到收敛状态;
∑v∈VpT(v)-pT-1(v)<0.00001
达到收敛之后,pT(v)便是每个段落的重要性分数,λ为常数。
3.根据权利要求2所述的新闻综述生成方法,其特征在于,根据段落重要性进行段落选择,融合;由段落的重要性分数,根据需要生成的综述的字数限制,选择重要性高的段落构成最终的新闻综述;选择的过程中进行段落的融合;段落融合的过程根据下面的算法描述进行:
算法:段落融合
输入:段落集合G={g1,...gn},并且每个段落都有一个重要性分数p(gi)每两个段落gi和gj之间的余弦相似度值gSimi,j
输出:新闻综述的段落集合O
算法过程:
4.根据权利要求3所述的新闻综述生成方法,其特征在于,对选择出来的段落进行重排序,构成新闻综述;使用拓扑排序的方法对新闻综述的段落集合进行重新排序;重新排序满足两大准则:
第一大准则是如果段落gi和段落gj来自于同一篇原始新闻,那么段落的前后顺序保持原来的顺序,且位置在结果中相邻;
第二大准则是如果段落gi和段落gj不是来自于同一篇原始新闻,那么含有重要性分数高的段落及与其来自于同一篇原始新闻的段落靠前排列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710082757.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种影像文件管理的方法及系统
- 下一篇:一种人员信息评测方法及系统