[发明专利]基于词频和语义的图模型文本摘要生成方法在审
| 申请号: | 201911301631.6 | 申请日: | 2019-12-17 |
| 公开(公告)号: | CN111125349A | 公开(公告)日: | 2020-05-08 |
| 发明(设计)人: | 王青松;马腾;张衡;张鑫琪;王军;接磊;刘庆楠;王雪彤;祝慷骏 | 申请(专利权)人: | 辽宁大学 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/284;G06F40/289;G06K9/62;G06N3/04;G06N3/08;G06Q10/06 |
| 代理公司: | 沈阳杰克知识产权代理有限公司 21207 | 代理人: | 罗莹 |
| 地址: | 110000 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 词频 语义 模型 文本 摘要 生成 方法 | ||
1.基于词频和语义的图模型文本摘要生成方法,其特征在于,其步骤为:
1)分词:将每个句子进行分词并进行词性标注;
2)过滤:进行停用词过滤、低频词过滤和词性过滤;
3)词向量训练:
3.1)采用BM25算法,利用词频的信息表现一个词的词向量的词频信息;
3.2)通过Word2Vec模型,利用语义信息来表示一个词的词向量的语义信息;
3.3)利用两个调节因子α和β,调整两个算法得到的特征词向量的权值比重,然后进行相加得到最后的特征词向量,最后用特征词向量集表示文本的每一个句子,构建文本矩阵;
4)构建文本无向图模型:通过步骤3.3)中的文本矩阵,以句子作为图的结点,以句子间的相似关系作为结点之间的边,利用余弦定理得到句子间的相似度作为图模型中对应边的权重,构建文本无向图模型;
5)摘要生成:利用TextRank算法对句子结点权值进行迭代计算,直至收敛,选取TOP-K句子作为文本摘要。
2.根据权利要求1所述的基于词频和语义的图模型文本摘要生成方法,其特征在于,所述的步骤3.1)中具体方法为:
1)BM25算法的公式如下:
其中,Q为查询语句,qi为对Q的分词;d为整篇文档;
Wi为判断一个词与一个文档的相关性的权重;公式如下:
其中,N为文本中所有的句子数量,n(qi)为包含了qi的句子数量;
R(qi,d)为词qi与文档d的相关性得分;
其中:k1,k2,b为调节因子,k1=2,b=0.75;fi为在d中的出现频率;qfi为在Q中的出现频率;dl为文档d的长度;avgdl为文档中句子的平均长度;通过参数b调整文档长度对相关性影响的大小,b越大,词的长度对相关性得分的影响越大,反之越小;
BM25算法的相关性得分公式可总结为:
3.根据权利要求1所述的基于词频和语义的图模型文本摘要生成方法,其特征在于,所述的步骤3.2)中,具体方法为:
3.2.1)首先,对中文语料库要进行分词处理;
3.2.2)将每一个词进行one-hot编码得到预处理后的语料库,将每个词的one-hot编码作为Word2Vec的输入;
3.2.3)通过Word2Vec训练词向量,其中,训练模型使用的是CBOW模型;
得分Scoreword2vec:
公式⑹中hi表示取到的词,dis表示对取得的词与所有词之间的内积,m表示该句子中的所有词的数量,Wordm表示该句子中所有的词,将词hi与其他词的内积加权求平均值作为句子的得分;
内积公式dis为:
其中,ai和bi分别为两个词通过Word2Vec模型得到的词向量。
4.根据权利要求1所述的基于词频和语义的图模型文本摘要生成方法,其特征在于,所述的步骤3.3)中,使用得分Scoresim确定每个句子的重要程度;
Scoresim=αScore(Q,d)+βScoreword2vec ⑻。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911301631.6/1.html,转载请声明来源钻瓜专利网。





