[发明专利]一种用于辅助调查访谈的语料库积累方法有效
申请号: | 202011089200.0 | 申请日: | 2020-10-13 |
公开(公告)号: | CN112214586B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 姚占雷;周谦豪;许鑫 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G10L15/26;G06N20/00;G06F40/194;G06F16/31 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 辅助 调查 访谈 语料库 积累 方法 | ||
1.一种用于辅助调查访谈的语料库积累方法,其特征在于采用领域语料向通用语料有条件转化的积累机制的方法,将频繁出现新的相似语料的领域语料转化为通用语料,具体包括以下步骤:
步骤1:将通用语料库、领域语料库初始化;
步骤2: 接收用户输入的文本相似度阈值和语料库更新触发阈值,如用户为访谈预先设计了问卷,则接收问卷中的领域专有问句内容,并将其写入领域语料库,问句的相似次数以初始值0写入,答句列表为空;
步骤3:接收一个由访谈录音转换而成的文本片段;
步骤4:将新问句与通用语料库中已存储的问句逐一进行文本相似度计算;
步骤5:将上述计算的文本相似度与步骤2得到的文本相似度阈值进行比较,如计算结果均小于文本相似度阈值或通用语料库为空,则转至下一步骤6;如计算结果至少有一个大于或等于文本相似度阈值,则按下述步骤进行操作:
步骤5-1:查找出通用语料库中对应最大计算结果的问句,即通用语料库中与新问句最相似的问句;
步骤5-2:将通用语料库中与新问句最相似的问句对应的答句列表追加写入新答句内容,结束该文本片段的处理,然后执行步骤9;
步骤6:将新问句与领域语料库中已存储的问句逐一进行文本相似度计算;
步骤7: 将步骤6的每一个计算结果与步骤2得到的文本相似度阈值进行比较,如计算结果均小于文本相似度阈值或领域语料库为空,则将新问句内容、相似次数和包含新答句内容的答句列表写入领域语料库,其中相似次数的初始值为0,结束该文本片段的处理,然后执行步骤9;如计算结果至少有一个大于或等于文本相似度阈值,则按下述步骤进行操作:
步骤7-1:查找出领域语料库中对应最大计算结果的问句,即领域语料库中与新问句最相似的问句;
步骤7-2:将领域语料库中与新问句最相似的问句的相似次数加1,并向其对应的答句列表追加写入新答句内容;
步骤8:将领域语料库中与新问句最相似的问句的相似次数与步骤2得到的语料库更新触发阈值进行比较,如问句的相似次数大于或等于语料库更新触发阈值,则将该问句及其对应的答句列表从领域语料库移动至通用语料库,具体为向通用语料库写入该问句及其答句列表,随后从领域语料库删除;
步骤9:重复步骤3至8,直到所有的访谈对话文本片段都被处理完毕;
所述新问句和新答句为步骤3得到的问句和答句;
所述文本片段是指一特定问句和对应的一答句的组合。
2.根据权利要求1所述用于辅助调查访谈的语料库积累方法,其特征在于所述文本相似度使用相似系数进行计算。
3.根据权利要求1所述用于辅助调查访谈的语料库积累方法,其特征在于所述步骤8不是随每次处理文本片段而执行,而成为独立存在的步骤,在预定时刻执行、随机时刻执行、由用户手动触发执行或在满足用户预设的条件时执行。
4.根据权利要求2所述用于辅助调查访谈的语料库积累方法,其特征在于所述相似系数为用于表示数据对象之间相似性的向量内积、Dice系数、Jaccard系数或余弦系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011089200.0/1.html,转载请声明来源钻瓜专利网。