[发明专利]一种用于智能生成类文本的业务热词识别转换的方法在审
申请号: | 202010457472.5 | 申请日: | 2020-05-26 |
公开(公告)号: | CN111680476A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 徐波 | 申请(专利权)人: | 广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F16/335;G06F40/216;G06F40/289;G06F40/205 |
代理公司: | 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 | 代理人: | 赵娜 |
地址: | 510530 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 智能 生成 文本 业务 识别 转换 方法 | ||
1.一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,包括以下步骤:
S1,收集语料,并构建业务热词库;
S2,将智能生成得到的文本,按热词库中业务热词的长度进行划分,并将划分得到的词分别与热词进行一次简要快速的相似度匹配计算,过滤掉绝大部分相似度较低的划分词;
S3,对S2中保留的相似度较高的划分词,再进行一次具体的相似度匹配计算,保留相似度高的划分词;
S4,使用S1所述的语料训练统计语言模型,将S3保留的相似度高的划分词,采用热词对其进行替换形成新的句子文本,用预训练好的语言模型对替换前与替换后两个句子进行打分;
S5,根据S4中所述的语言模型打分结果,判定S4中替换是否保留。
2.根据权利要求1所述的一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,步骤S1中收集语料具体包括以下步骤:
S111,收集通用类语料,并进行数据清洗;
S112,收集业务场景下的语料,并进行数据清洗;
S113,将通用类语料与业务场景下的语料按一定比例进行合并。
3.根据权利要求2所述的一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,步骤S1中构建业务热词库具体包括以下步骤:
S121,利用文字统计工具对收集到的业务场景下的语料进行不同长度词的词频统计,保留词频较高的词作为候选词,去除常用的非热词词汇,并筛选出业务场景下的热词加入热词库中;
S122,结合智能生成类的文本特点,将容易生成错误的专有名词加入热词库中;
S123,将热词库中热词以词的长度进行排序,热词长度长的排在前面,短的排在后面;对于长度一致的热词,将统计词频高的热词排在前面,统计词频低的排在后面。
4.根据权利要求1所述的一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,步骤S2和S3中相似度匹配计算指的是对发音或字形相似度进行匹配计算,对于语音识别生成的文本,待转换词与热词一般发音相似,将词转为其所构成的拼音或者音素,对于OCR图像识别生成的文本,待转换词与热词一般字形相似,将词中的每一个字转为共所构成的笔画或者偏旁部首,根据组成元素对热词与文本中的词进行相似度计算。
5.根据权利要求4所述的一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,步骤S2中一次简要快速的相似度匹配计算指的是将热词与文本中的词中的字转为所述的组成元素并进行拼接形成词的组成元素,将两者的组成元素进行编辑距离计算,当编辑距离大于设定的阈值即判定其为不相似。
6.根据权利要求1所述的一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,步骤S3中具体的相似度匹配计算指的是:
以字为单元进行计算,并加以权重,以编辑距离/元素组成长度,作为相似度标准对词中的每一个字与热词中的每一个字按其元素组成进行相似度计算,过程中考虑不同元素对相似度的影响程度加以不同的加权比重;
或者,以词中的字为单元进行计算,且词的相似度计算需要考虑词中所有字的相似度的极差值,得到词中每个字的相似度后求其均值和极差值,以均值加上乘以一定缩小系数后的极差值作为字的相似度。
7.根据权利要求1所述的一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,步骤S4中统计语言模型采用的是N元统计语言模型,将收集到的语料作为统计语言模型的语料库,统计语言模型在对语料库中出现的字的频率进行统计后,得到基于语料库的一元至N元字组合的概率语言模型;使用概率语言模型对句子进行打分,得到句子从左至右每一个字在前面N-1个字发生的条件下的该字出现的概率,然后通过概率链式法则得到句中所有字以句子中的顺序出现的整体概率值,以此概率值来表征该句子中的字的组合在语料库中的最大共现组合概率,作为句子流畅度的评价标准。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司,未经广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010457472.5/1.html,转载请声明来源钻瓜专利网。