[发明专利]一种智能分配隐私的问答机器人训练方法在审
申请号: | 202111161262.2 | 申请日: | 2021-09-30 |
公开(公告)号: | CN114020883A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 熊常春;李海良;王敬贵;李国元;刘昂;吴江川;李苗;熊桥峰;张富耕 | 申请(专利权)人: | 深圳季连科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/36;G06F21/62;G06F40/289;G06F40/30 |
代理公司: | 广州海藻专利代理事务所(普通合伙) 44386 | 代理人: | 张大保 |
地址: | 518000 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 分配 隐私 问答 机器人 训练 方法 | ||
1.一种智能分配隐私的问答机器人训练方法,其特征在于,包括:
通过知识图谱技术,生成组群词库;
构建每个用户填写资料、上传数据时产生的数据的数据权重;
构建用户标签、数据标签和用户数据;
构建隐私值以及隐私权限阈值,同一数据标签下的数据的所述数据权重的均值为该数据标签的隐私值,无数据权重的数据则由管理员分配隐私值;
结合关键词技术预处理技术和数据权重预处理组群内所有的聊天记录,得到句子主干及引用数据的数据标签;
为所述聊天记录分配隐私值并根据所述隐私值判断是否能够上传;
标记所述聊天记录的上传者,系统判断结对聊天的两个用户之间对隐私重视程度的差异较大时,需要分别询问用户是否同意上传,将同意上传的用户标记为上传者,上传聊天记录至区块链作为聊天机器人训练素材;
根据用户之间对隐私重视程度的差异初始化用户信誉度;
根据所述相似度搜索技术和使用聊天机器人的用户对多维评分请求的评分反馈,动态更改所述聊天记录上传者的信誉度,从而保护数据隐私,提高聊天机器人训练素材的连续度。
2.根据权利要求1所述的一种智能分配隐私的问答机器人训练方法,其特征在于:所述通过知识图谱技术,生成组群词库,包括:
管理员设置单个课堂组群的科目主题、参考书目、所处城市和考试信息;计算机根据所述科目主题、所述参考书目、所述所处城市和所述考试信息通过所述知识图谱技术智能地生成所述词库,所述词库包含该科目的考点、课本术语、该年级的学习重点;所述知识图谱技术是通过输入的信息获得关键词,搜索引擎去寻找关键词并且进行语义的理解,最后返回搜索引擎在知识库中检索相应的实体之后,给出的完整知识体系。
3.根据权利要求1所述的一种智能分配隐私的问答机器人训练方法,其特征在于:构建每个用户填写资料、上传数据时产生的数据的数据权重,包括:
用户在组群中填写资料、上传数据时,都需要选择是否同意系统经过判断所述隐私值后选择性上传所述用户填写的资料和所述用户上传的数据作为聊天机器人的训练素材,该选择包括了1、2、3、4、5五个选择,数值越大所述用户越不同意上传;系统会根据所述用户的选择来计算所述用户上传或者填写的数据的所述数据权重;所述数据权重的取值为1、2、3、4、5;当所述数据权重越高,意味着这所述用户的所述数据越不愿意上传作为训练素材。
4.根据权利要求1所述的一种智能分配隐私的问答机器人训练方法,其特征在于:所述构建用户标签、数据标签和用户数据,包括:
管理员在组群后台为组群中的用户分发标签,系统根据数据来源和数据上传用户的命名为组群中的数据分发标签;用户进入这个课堂组群后,每个用户都生成一份用户数据保存在系统中;所述用户数据中包括了用户自己填写的个人信息、在组群中的标签、用户历史访问的数据、组群中存在的该用户对应的数据、用户上传的数据及其所述数据标签和所述数据权重。
5.根据权利要求1所述的一种智能分配隐私的问答机器人训练方法,其特征在于:所述构建隐私值以及隐私权限阈值,同一数据标签下的数据权重的均值为该数据标签的隐私值,无数据权重的数据则由管理员分配隐私值,包括:
预设所述隐私值取值范围为0至5;组群中由用户上传的数据若是被用户标记了所述数据权重,则直接将统一所述数据标签下标记了所述数据权重的数据取其平均值作为该所述数据标签的所述隐私值;对于不具有所述数据权重的所述数据标签,管理员在组群后台设置所述隐私值;将所有所述数据标签的所述隐私值取均值乘以1.75作为所述隐私权限阈值;其中所述隐私值越高意味着这个所述数据标签下的数据越涉及隐私。
6.根据权利要求1所述的一种智能分配隐私的问答机器人训练方法,其特征在于:所述结合关键词技术和数据权重预处理组群内所有的聊天记录,得到句子主干及引用数据的数据标签,包括:
根据所述组群词库提取聊天中的关键词,去掉助词、语气词保留关键主干;记录每段聊天记录中引用的数据的所述数据标签;群里的聊天记录中涉及了被用户标记了所述数据权重的内容时,系统需要读取这段内容的所述数据权重,当所述数据权重大于3时,即用户主动要求不可公开上传,系统从聊天记录中删去所述内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳季连科技有限公司,未经深圳季连科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111161262.2/1.html,转载请声明来源钻瓜专利网。