[发明专利]一种基于余弦相似度的模板库生成方法、系统及存储介质在审
申请号: | 202110024794.5 | 申请日: | 2021-01-08 |
公开(公告)号: | CN112765950A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 张凯;周建设;刘杰;张雅宁;王春辉 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/284;G06F40/30;G06K9/62 |
代理公司: | 北京清控智云知识产权代理事务所(特殊普通合伙) 11919 | 代理人: | 管士涛 |
地址: | 100089 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 余弦 相似 模板 生成 方法 系统 存储 介质 | ||
本申请提出了一种基于余弦相似度的体育新闻模板库生成方法,首先去掉句子中包含的实体,如球员名称,球队名称,比赛时间等,其次利用余弦相似度对模板进行归并,去除重复模板,最后利用CRF对模板进行触发条件识别以给每一个模板构建其触发条件,从而完成模板库构建。本申请的技术方案实现了体育新闻写作模板库的快速、自动且准确的构建,为体育新闻的智能写作提供了有力支持。
技术领域
本申请涉及智能写作技术领域,具体而言,涉及一种基于余弦相似度的体育新闻模板库生成方法、系统及存储介质。
背景技术
体育新闻自动写作能够大大减轻体育新闻工作者的劳动强度。体育新闻自动写作模板库是进行体育新闻自动写作的不可或缺的重要技术手段之一,写作模板库的构建也是体育新闻自动写作的关键性的操作步骤之一。
然而,现有技术中,写作模板库的构建方法设计并不合理,无法实现相关词扩展,在正确率、召回率和F值均不能达到令人满意的效果,无法为体育新闻的自动写作提供强有力支持,导致体育新闻自动写作的效果不佳,不能满足实际应用的需要。
于是,目前亟待一种能够克服现有技术上述缺陷的体育新闻写作模板库的构建方法。
发明内容
针对上述技术问题,本申请提供了一种基于余弦相似度的体育新闻模板库生成方法、系统及存储介质。
本申请的第一方面提供了一种基于余弦相似度的体育新闻模板库生成方法,所述方法包括:
S1、对若干体育新闻进行处理,提取出写作模板句;
S2、利用余弦相似度对所述模板进行归并,去除重复模板;
S3、给每个模板构建其触发条件,从而完成模板库的构建。
优选地,步骤S1中,对若干体育新闻进行处理,提取出写作模板句,包括:对体育新闻进行句子划分,去除其中的事件实体和比赛实时描述,从而得到所述写作模板句;其中,所述的事件实体包括球员名、球队名、比分、比赛时间。
优选地,步骤S2中,利用余弦相似度对所述模板进行归并,去除重复模板,包括:
S21,对每个所述写作模板句进行分词处理以得到若干词语;
S22,列出任意两个所述写作模板句中所有的词语;
S23,计算各词语在所述两个写作模板句中的词频;
S24,基于所述词频构建每个写作模板句的词频向量;
S25,采用余弦相似度计算两个所述写作模板句的相似度,将相似度大于第二阈值的两个所述写作模板句进行归并,从而实现去除重复模板;
S26,对于其他所述写作模板句,重复执行步骤S22-S25,直至完成所有所述写作模板句的相似度计算。
优选地,所述余弦相似度计算公式为:
其中,xi、yi为所述词频向量中各词语在两个所述写作模板句中的词频即子向量;cos(θ)的值越大,则越相似。
优选地,所述步骤S2还包括对语义相似模板进行规一化处理步骤:
S220,对于所述分词处理后的若干词语,采用Word2Vec工具将词语映射到K维向量空间;
S221,计算任意两个所述词语的向量空间相似度;
S222,如果所述相似度阈值第一阈值,则在步骤S23中将两个所述词语的词频相加,并归属于其中任意一个词语,并执行步骤S24。
优选地,步骤S3中,包括基于CRF进行触发词识别的步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110024794.5/2.html,转载请声明来源钻瓜专利网。