[发明专利]一种缩略语生成方法、装置、设备及存储介质有效
申请号: | 202210408824.7 | 申请日: | 2022-04-19 |
公开(公告)号: | CN115017899B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 王超;刘井平;程浩;肖仰华;许慧敏;王宗宇;谢睿;武威 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/117 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 邓超 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 缩略语 生成 方法 装置 设备 存储 介质 | ||
1.一种缩略语生成方法,其特征在于,包括:
获取待识别全称;
对所述待识别全称进行分词,得到所述待识别全称中包含的各词语;
针对每个词语,确定该词语对应的特征向量;
根据该词语对应的特征向量,以及该词语中包含的各字对应的原始特征向量,将该词语对应的特征向量分别与各字的原始特征向量进行融合,确定该词语中包含的各字对应的特征向量,其中所述原始特征向量仅根据单个字确定;
根据所述待识别全称中各字对应的特征向量,确定所述待识别全称的特征向量;
将所述待识别全称的特征向量输入到缩略语生成模型,得到所述缩略语生成模型输出的所述待识别全称对应的缩略语。
2.如权利要求1所述的方法,其特征在于,针对每个词语,确定该词语对应的特征向量,具体包括:
确定该词语对应的各语义类别;并确定该词语对应的各语义类别向量;
根据该词语对应的各语义类别向量以及该词语的相邻词语对应的各语义类别向量,确定该词语对应的各语义类别的置信度;所述语义类别的置信度用于表征该词语对应的各语义类别符合该词语在所述待识别全称中各语义的概率;
以该词语对应的各语义类别的置信度为权重,对该词语对应的各语义类别向量加权;
根据该词语对应的各语义类别的加权结果,确定该词语对应的特征向量。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据该词语中包含的各字,通过字向量生成模型,确定该词语中包含的各字对应的原始特征向量。
4.如权利要求1所述的方法,其特征在于,将所述待识别全称的特征向量输入到缩略语生成模型,得到所述缩略语生成模型输出的所述待识别全称对应的缩略语,具体包括:
将所述待识别全称的特征向量输入到缩略语生成模型,得到所述缩略语生成模型输出的所述待识别全称中各字的标记;
根据所述待识别全称中所有字的标记,确定所述待识别全称的标记向量;
根据所述待识别全称的标记向量,确定所述待识别全称对应的缩略语。
5.如权利要求4所述的方法,其特征在于,将所述待识别全称的特征向量输入到缩略语生成模型,得到所述缩略语生成模型输出的所述待识别全称中各字的标记,具体包括:
针对所述待识别全称中每个字,根据该字的相邻字的标记以及该字的相邻字对应的特征向量,确定该字的相邻字的目标特征向量;
将该字对应的特征向量以及该字的相邻字的目标特征向量输入到所述缩略语生成模型,确定该字对应的保留概率;
根据该字对应的保留概率以及预设的概率阈值,确定该字的标记。
6.如权利要求4所述的方法,其特征在于,将所述待识别全称的特征向量输入到缩略语生成模型,得到所述缩略语生成模型输出的所述待识别全称中各字的标记,具体包括:
针对所述待识别全称中每个字,确定该字对应的各候选标记;
将该字对应的特征向量以及该字的相邻字的各候选标记输入到所述缩略语生成模型,确定将该字标记为各候选标记的概率;
根据所述待识别全称中所有字的标记,确定所述待识别全称的标记向量,具体包括:
遍历通过下述方式得到的所有标记向量:
将所述待识别全称中的每个字分别标记为每个字对应的一个候选标记,得到由每个字对应的候选标记构成的标记向量;
针对遍历得到的每个标记向量,根据将所述待识别全称中各字标记为该标记向量中各候选标记的概率,确定该标记向量的置信度;
根据遍历得到的各标记向量的置信度,在遍历得到的各标记向量中,选择预设数量的标记向量作为所述待识别全称的标记向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210408824.7/1.html,转载请声明来源钻瓜专利网。