[发明专利]一种用于智能生成类文本的业务热词识别转换的方法在审
申请号: | 202010457472.5 | 申请日: | 2020-05-26 |
公开(公告)号: | CN111680476A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 徐波 | 申请(专利权)人: | 广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F16/335;G06F40/216;G06F40/289;G06F40/205 |
代理公司: | 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 | 代理人: | 赵娜 |
地址: | 510530 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 智能 生成 文本 业务 识别 转换 方法 | ||
本发明公开了一种用于智能生成类文本的业务热词识别转换的方法,收集语料并构建业务热词库;将智能生成得到的文本按业务热词的长度进行划分,并分别与热词进行一次简要快速的相似度匹配计算,过滤掉绝大部分相似度较低的划分词;对保留的相似度较高的划分词,再进行一次具体的相似度匹配计算,保留相似度高的划分词;使用语料训练统计语言模型,将保留的相似度高的划分词,采用热词对其进行替换形成新的句子文本,用预训练好的语言模型对替换前与替换后两个句子进行打分;根据语言模型打分结果,判定替换是否保留。可以快速和智能地为智能生成的文本进行识别匹配,在文本中的词汇与热词相似度较高及替换后语句流畅度较高的情况下实现智能替换。
技术领域
本发明涉及自然语言处理领域,特别是指一种用于智能生成类文本的业务热词识别转换的方法。
背景技术
目前机器学习与深度学习技术发展迅猛,涌现出许多的网络模型架构,可以用于智能语音识别、智能图像识别等任务,并逐渐走向落地应用。但此类机器学习与深度学习模型的学习成本较大,需要经过大量的数据经过较长时间的训练才能得到模型,模型的更新同样也需要经过重新训练或者迁移学习的方法,时间成本和劳动力成本都比较较大。而业务热词、流行热词的更新较快,仅为满足热词的准确识别而从新训练模型不切实际,直接进行相似度匹配替换又往往容易产生错误替换的情况。
发明内容
本发明提出一种用于智能生成类文本的业务热词识别转换的方法,可以较为快速和智能地为智能生成后得到的文本进行识别匹配,在文本中的词汇与热词相似度较高及替换后语句流畅度较高的情况下实现智能替换。其中判别语句流畅度的语言模型的是基于文本统计学习,其学习成本低,可以快速实现更新。
本发明的技术方案是这样实现的:
一种用于智能生成类文本的业务热词识别转换的方法,包括以下步骤:
S1,收集语料,并构建业务热词库;
S2,将智能生成得到的文本,按热词库中业务热词的长度进行划分,并将划分得到的词分别与热词进行一次简要快速的相似度匹配计算,过滤掉绝大部分相似度较低的划分词;
S3,对S2中保留的相似度较高的划分词,再进行一次具体的相似度匹配计算,保留相似度高的划分词;
S4,使用S1所述的语料训练统计语言模型,将S3保留的相似度高的划分词,采用热词对其进行替换形成新的句子文本,用预训练好的语言模型对替换前与替换后两个句子进行打分;
S5,根据S4中所述的语言模型打分结果,判定S4中替换是否保留。
优选的,步骤S1中收集语料具体包括以下步骤:
S111,收集通用类语料,并进行数据清洗;
S112,收集业务场景下的语料,并进行数据清洗;
S113,将通用类语料与业务场景下的语料按一定比例进行合并。
优选的,步骤S1中构建业务热词库具体包括以下步骤:
S121,利用文字统计工具对收集到的业务场景下的语料进行不同长度词的词频统计,保留词频较高的词作为候选词,去除常用的非热词词汇,并筛选出业务场景下的热词加入热词库中;
S122,结合智能生成类的文本特点,将容易生成错误的专有名词加入热词库中;
S123,将热词库中热词以词的长度进行排序,热词长度长的排在前面,短的排在后面;对于长度一致的热词,将统计词频高的热词排在前面,统计词频低的排在后面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司,未经广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010457472.5/2.html,转载请声明来源钻瓜专利网。