[发明专利]一种用于辅助调查访谈的语料库积累方法有效
申请号: | 202011089200.0 | 申请日: | 2020-10-13 |
公开(公告)号: | CN112214586B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 姚占雷;周谦豪;许鑫 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G10L15/26;G06N20/00;G06F40/194;G06F16/31 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 辅助 调查 访谈 语料库 积累 方法 | ||
本发明公开了一种用于辅助调查访谈的语料库积累方法,其特点是采用领域语料向通用语料有条件转化的积累机制的方法,将频繁出现新的相似语料的领域语料转化为通用语料,其情景化的语料库积累具体包括:接收用户输入、通用语料的追加积累、领域情景语料的追加积累和领域语料向通用语料有条件转化的积累等步骤。本发明与现有技术相比具领域语料库和通用语料库分离并存,进一步明确领域专有语料的边界,降低建立基于专家知识的规则的信息抽取系统的成本,有助于提供包含领域针对性的训练数据,提高基于机器学习的信息抽取系统的准确率,为实现情景化的调查访谈辅助系统提供数据基础。
技术领域
本发明涉及自然语言处理技术领域,尤其是一种基于领域情景访谈语料的用于辅助调查访谈的语料库积累方法。
背景技术
调查访谈资料的后续处理一般依赖于调查人员手工完成。随着科技发展,访谈资料的记录和初步整理工作可以交由具备音频录制功能的软硬件和语音识别转写程序完成。
目前,相关的调查访谈辅助系统大多采用通用语料库,基于常见通用语料进行规则定义或机器学习实现,通用语料库为用于存储适用于大多数访谈场景的不同问句和对应的答句列表的数据库或数据表,该访谈辅助技术对一般通用场景下的访谈语音转换、处理和分析效果较佳。但对特定专有领域的访谈语音处理,由于领域情景语料的匮乏,情景化的访谈资料的转写处理难以实现,访谈语音转换、处理及分析效果一般。领域情景语料库为用于存储适用于特定类型的访谈场景的不同问句、其相似次数和对应的答句列表的数据库或数据表。由于领域情景语料的匮乏,尤其专门的领域访谈语料库更为匮乏。
现有技术的自然语言处理缺少可以针对性地采集处理领域情景访谈语料,专门的领域访谈语料库目前较为匮乏。因此,现有的访谈辅助技术对一般通用场景下的访谈语音转换、处理和分析效果较佳,但对特定专有领域的访谈语音处理效果很差。
发明内容
发明的目的是针对现有技术的不足而设计的一种用于辅助调查访谈的语料库积累方法,采用领域语料向通用语料有条件转化的积累机制的方法,实现针对特定访谈场景的领域情景语料的积累,以及结合相似语料的出现频率和用户设定阈值将频繁出现新的相似语料的领域语料转化为通用语料,使得领域语料库和通用语料库分离并存,进一步明确领域专有语料的边界,降低建立基于专家知识的规则的信息抽取系统的成本,也有助于提供包含领域针对性的训练数据,提高基于机器学习的信息抽取系统的准确率,为实现情景化的调查访谈辅助系统提供数据基础。
本发明的目的是这样实现的:一种用于辅助调查访谈的语料库积累方法,其特点是采用领域语料向通用语料有条件转化的积累机制的方法,将频繁出现新的相似语料的领域语料转化为通用语料,其情景化的语料库积累具体包括以下步骤:
步骤1:初始化通用语料库、领域语料库。
步骤2:接收用户输入的文本相似度阈值和语料库更新触发阈值,如果用户为访谈预先设计了问卷,则接收问卷中的领域专有问句内容,将其写入领域语料库,上述问句的相似次数以初始值0写入,答句列表为空。
步骤3:接收一个由访谈录音转换而成的文本片段,所述文本片段是指一特定问句和对应的一答句的组合;该步骤得到的问句,简称为“新问句”,其答句,简称为“新答句”。
步骤4:将新问句与通用语料库中已存储的问句逐一进行文本相似度计算,所述文本相似度可以使用距离函数或相似系数进行计算和表达。
步骤5:比较步骤4的每一个计算结果与步骤2得到的文本相似度阈值大小,
如果步骤4的计算结果均小于文本相似度阈值或通用语料库为空,那么转至步骤6;如果步骤4的计算结果至少有一个大于或等于文本相似度阈值,那么则按下述步骤进行:
步骤5-1:查找出通用语料库中对应最大计算结果的问句,即语料库中与新问句最相似的问句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011089200.0/2.html,转载请声明来源钻瓜专利网。