[发明专利]一种缩略语生成方法、装置、设备及存储介质有效
申请号: | 202210408824.7 | 申请日: | 2022-04-19 |
公开(公告)号: | CN115017899B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 王超;刘井平;程浩;肖仰华;许慧敏;王宗宇;谢睿;武威 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/117 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 邓超 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 缩略语 生成 方法 装置 设备 存储 介质 | ||
本说明书公开了一种缩略语生成方法、装置、设备及存储介质,在对待识别全称进行分词得到了待识别全称中包含的每个词以及每个词对应的特征向量,进而根据每个词对应的特征向量确定每个词中包含的所有字的特征向量,将待识别全称中各字对应的特征向量输入到缩略语生成模型中,得到待识别全称对应的缩略语。可见,通过结合词对应的特征向量确定词中包含的每个字对应的特征向量的方式,将字在其所在词中的语义等特征融合到字对应的特征向量中,体现了词的语义对字本身特征的影响,提高了通过缩略语生成模型得到的待识别全称对应的缩略语的准确性。
技术领域
本说明书涉及计算机技术领域,尤其涉及一种缩略语生成方法、装置、设备及存储介质。
背景技术
缩略语是由较长的词语缩短省略而成的词语,在语言学中,缩略语是全称简化后的表达形式,又称“缩写”和“简称”。由于缩略语在表达上简洁精炼,在人们的日常生活中被大量使用,其中,会出现用户使用缩略语进行信息检索的情况,例如,用户的意图是到达万达影院(湖里万达广场店),但在进行地址检索时,会以用户常用的简洁表达进行检索,如检索“湖里万达”,这就需要预先建立全称与缩略语的对应关系,以便用户在检索缩略语时,为用户检索到缩略语对应的全称的信息。
现有技术中,通常利用神经网络模型对词语的全称进行序列标注,得到词语的全称中哪些字可以被省略,哪些字需要被保留,从而确定词语的全称对应的缩略语,进而建立全称与缩略语的对应关系。
然而,在对词语的全称进行序列标注的过程中,现有的序列标注模型往往仅关注字本身的含义,忽略了字在词中的语义以及词本身语义的多样化,导致得到的缩略语产生歧义,不能完全表达出对应的全称的含义,甚至表达错误。
发明内容
本说明书提供一种缩略语生成方法及装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种缩略语生成方法,包括:
获取待识别全称;
对所述待识别全称进行分词,得到所述待识别全称中包含的各词语;
针对每个词语,确定该词语对应的特征向量;
根据该词语对应的特征向量,确定该词语中包含的各字对应的特征向量;
根据所述待识别全称中各字对应的特征向量,确定所述待识别全称的特征向量;
将所述待识别全称的特征向量输入到缩略语生成模型,得到所述缩略语生成模型输出的所述待识别全称对应的缩略语。
可选地,针对每个词语,确定该词语对应的特征向量,具体包括:
确定该词语对应的各语义类别;并确定该词语对应的各语义类别向量;
根据该词语对应的各语义类别向量以及该词语的相邻词语对应的各语义类别向量,确定该词语对应的各语义类别的置信度;所述语义类别的置信度用于表征该词语对应的各语义类别符合该词语在所述待识别全称中各语义的概率;
以该词语对应的各语义类别的置信度为权重,对该词语对应的各语义类别向量加权;
根据该词语对应的各语义类别的加权结果,确定该词语对应的特征向量。
可选地,根据该词语对应的特征向量,确定该词语中包含的各字对应的特征向量,具体包括:
根据该词语中包含的各字,确定该词语中包含的各字对应的原始特征向量;
根据该词语中包含的各字对应的原始特征向量,以及该词语对应的特征向量,确定该词语中包含的各字对应的特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210408824.7/2.html,转载请声明来源钻瓜专利网。