[发明专利]一种基于余弦相似度的模板库生成方法、系统及存储介质在审
申请号: | 202110024794.5 | 申请日: | 2021-01-08 |
公开(公告)号: | CN112765950A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 张凯;周建设;刘杰;张雅宁;王春辉 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/284;G06F40/30;G06K9/62 |
代理公司: | 北京清控智云知识产权代理事务所(特殊普通合伙) 11919 | 代理人: | 管士涛 |
地址: | 100089 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 余弦 相似 模板 生成 方法 系统 存储 介质 | ||
1.一种基于余弦相似度的体育新闻模板库生成方法,其特征在于:所述方法包括:
S1、对若干体育新闻进行处理,提取出写作模板句;
S2、利用余弦相似度对所述模板进行归并,去除重复模板;
S3、给每个模板构建其触发条件,从而完成模板库的构建。
2.根据权利要求1所述的方法,其特征在于:步骤S1中,对若干体育新闻进行处理,提取出写作模板句,包括:对体育新闻进行句子划分,去除其中的事件实体和比赛实时描述,从而得到所述写作模板句;其中,所述的事件实体包括球员名、球队名、比分、比赛时间。
3.根据权利要求1所述的方法,其特征在于:步骤S2中,利用余弦相似度对所述模板进行归并,去除重复模板,包括:
S21,对每个所述写作模板句进行分词处理以得到若干词语;
S22,列出任意两个所述写作模板句中所有的词语;
S23,计算各词语在所述两个写作模板句中的词频;
S24,基于所述词频构建每个写作模板句的词频向量;
S25,采用余弦相似度计算两个所述写作模板句的相似度,将相似度大于第二阈值的两个所述写作模板句进行归并,从而实现去除重复模板;
S26,对于其他所述写作模板句,重复执行步骤S22-S25,直至完成所有所述写作模板句的相似度计算。
4.根据权利要求3所述的方法,其特征在于:所述余弦相似度计算公式为:
其中,xi、yi为所述词频向量中各词语在两个所述写作模板句中的词频即子向量;cos(θ)的值越大,则越相似。
5.根据权利要求3所述的方法,其特征在于:所述步骤S2还包括对语义相似模板进行规一化处理步骤:
S220,对于所述分词处理后的若干词语,采用Word2Vec工具将词语映射到K维向量空间;
S221,计算任意两个所述词语的向量空间相似度;
S222,如果所述相似度阈值第一阈值,则在步骤S23中将两个所述词语的词频相加,并归属于其中任意一个词语,并执行步骤S24。
6.根据权利要求1所述的方法,其特征在于:步骤S3中,包括基于CRF进行触发词识别的步骤:
选取词、词性、角色为特征;采用B、I、E、O作为触发词的标注符号,其中B表示触发词的首字,I表示中间词,E表示基触发词的尾字,O表示非触发词,并分别采用单一特征模板和复合特征模板对触发词进行识别。
7.根据权利要求6所述的方法,其特征在于:所述触发条件表示在某个时间段内描述事实的条件,记作CS,所述触发词表示描述CS所使用的词语。
8.一种体育新闻写作模板库构建系统,其特征在于:所述系统包括提取模块、去重模块、构建模块;
所述提取模块,用于对若干体育新闻进行处理,提取出写作模板句;
所述去重模块,用于利用余弦相似度对所述模板进行归并,去除重复模板;
所述构建模块,用于给每个模板构建其触发条件,从而完成模板库的构建。
9.一种体育新闻写作模板库构建设备,其特征在于,所述设备包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的基于余弦相似度的体育新闻模板库生成方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的基于余弦相似度的体育新闻模板库生成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110024794.5/1.html,转载请声明来源钻瓜专利网。