[发明专利]一种基于语义信息的计算机辅助密点标注方法在审
申请号: | 201910774560.5 | 申请日: | 2019-08-21 |
公开(公告)号: | CN110674251A | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 王秋华;吴国华;张祯;任一支 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06F40/117 |
代理公司: | 33240 杭州君度专利代理事务所(特殊普通合伙) | 代理人: | 杨舟涛 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语义信息的计算机辅助密点标注方法。本发明方法首先获取行业领域训练语料,并对语料进行训练得到词向量集合;根据密点库中已标注密点的句子和训练得到的词向量集合,构建密点句向量数据库;对待进行密点标注的文本进行预处理,获得待进行密点标注文本的待标密点句向量集合;然后计算待标密点句向量集合中每个待标密点句向量与密点句向量数据库中每个密点句向量的相似度,根据得到的相似度排序的高低,分别进行处理。本发明方法增加了句子相似度计算的深度和广度,最大化地利用之前的定密结果,避免重复劳动,有效减少了人工定密所造成的定密结果不一致现象,提高了定密的质量和定密效率。 | ||
搜索关键词: | 标注 向量数据库 向量集合 词向量 向量 集合 预处理 文本 计算机辅助 句子相似度 相似度排序 行业领域 训练语料 有效减少 语义信息 不一致 相似度 最大化 构建 语料 句子 重复 劳动 | ||
【主权项】:
1.一种基于语义信息的计算机辅助密点标注方法,其特征在于,该方法具体步骤是:/n步骤(1).获取行业领域训练语料,并对语料进行训练得到词向量集合;/n步骤(2).根据密点库中已标注密点的句子和训练得到的词向量集合,构建密点句向量数据库;/n所述的密点库是利用已进行密点标注的文件中的密点句构建,由已进行密点标注的所有句子以及该句子对应的密点属性组成,已进行密点标注的所有句子为密点句;所述密点属性包括密级、保密期限、定密依据、定密人;/n步骤(3).对待进行密点标注的文本进行预处理,获得待进行密点标注文本的待标密点句向量集合;/n步骤(4).通过计算词向量之间的相似度,计算待标密点句向量集合中每个待标密点句向量与密点句向量数据库中每个密点句向量的相似度;相似度的值在0~1之间,值越大,则表示两个句子的相似度越大;/n步骤(5).根据待进行密点标注文本的每个句子所计算得到的相似度,按照相似度从高到低进行排序;按照相似度的高低,分别进行处理:/n若相似度为1,则表示在密点库中有和该待标密点句完全匹配的已标密点句,则直接显示该已标密点句及其密级属性;/n若相似度大于0小于1,则表示在密点库中有和该待标密点句相似的已标密点句,按照所检索到的已标密点句的相似度大小进行排序,并将最为相似的一条或多条返回给定密人;/n若相似度为0,则表示在密点库中没有和该待标密点句相匹配的已标密点句,将无匹配结果信息发送定密人。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910774560.5/,转载请声明来源钻瓜专利网。