[发明专利]流行病学调查报告的自然语言处理方法、装置及存储介质有效

申请号：	202011592514.2	申请日：	2020-12-29
公开（公告）号：	CN112699669B	公开（公告）日：	2022-11-11
发明（设计）人：	柯昆	申请（专利权）人：	医渡云（北京）技术有限公司
主分类号：	G06F40/242	分类号：	G06F40/242;G06F40/284;G06F40/30;G16H50/80
代理公司：	北京乐知新创知识产权代理事务所(普通合伙) 11734	代理人：	张立新
地址：	100089 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明实施例公开了一种流性病学调查报告的自然语言处理方法、装置及计算机可读存储介质，该方法包括：对自然语言信息进行意群划分得到多个意群短语；之后，从意群短语中识别出医学事件信息并保留其他信息作为非医学事件信息，再使用通用的自然语言处理系统从非医学事件信息中提取出常规事件的主干信息；然后，将医学事件信息和常规事件的主干信息结合起来，进行联合信息处理得到决策所需的数据。如此，通过分层提取医学事件信息和常规事件的主干信息的方式，不仅可以针对性地提取到典型的医学事件信息还可以获取常规事件中的其他重要信息，从而避免了信息遗漏，大大提高了信息提取的效率、准确度和完整性。
搜索关键词：	流行病学调查报告自然语言处理方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于医渡云（北京）技术有限公司，未经医渡云（北京）技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202011592514.2/，转载请声明来源钻瓜专利网。

上一篇：双栅薄膜晶体管的结构及制造方法
下一篇：非稳定流抽水试验水文地质参数智能计算方法

同类专利

文本实体标注方法及装置-202310629608.X
发明人：祁浩然;王涛;孙亚伟;李涓子 -专利权人：启元实验室
申请日： 2023-05-30 - 公布日： 2023-10-24 - 主分类号： G06F40/242
摘要：本申请公开了一种文本实体标注方法、文本实体标注装置、电子设备及存储介质，属于自然语言处理技术领域，其中，该方法包括：通过扩展实体识别模型中的多种算法对目标文本进行预测标注；将多种算法的预测标注结果取并集作为扩展实体词汇，以使扩展实体词汇最大限度地包含正确实体词汇；基于特定算法对扩展实体词汇进行筛选；通过实体词典库标注出目标文本的词典词汇；对词典词汇和经过筛选的扩展实体词汇进行匹配修正得到标注词汇。该方法通过大量匹配与精细筛选相结合有助于在实现全量标注，同时降低标注错误率，排除冗余词汇。

分词词库的构建方法、分词方法、装置及存储介质-202010218109.8
发明人：齐全;陈道远;王博 -专利权人：苏州蓝海彤翔系统科技有限公司
申请日： 2020-03-25 - 公布日： 2023-10-24 - 主分类号： G06F40/242
摘要：本说明书实施例提供一种分词词库的构建方法、分词方法、装置及存储介质。所述方法包括：将待分词文本划分为多个子文本；获取第一候选字符串集合；其中，所述第一候选字符串集合包括所述多个子文本中长度小于预设值的字符串；根据通用词库对所述第一候选字符串集合中的字符串进行筛选，得到第二候选字符串集合；将所述第二候选字符串集合输入至预设的模型中，得到候选分词词库；其中，所述候选分词词库包括多个候选词和所述多个候选词对应的权值；根据所述候选分词词库构建分词词库，从而提高未登录词和歧义识别的准确性，提高分词的准确率。

一种词库生成方法及相关装置-202310822651.8
发明人：任华;王铮;汪少敏;马兆铭;杨迪 -专利权人：中国电信股份有限公司技术创新中心;中国电信股份有限公司
申请日： 2023-07-05 - 公布日： 2023-10-20 - 主分类号： G06F40/242
摘要：本申请提供了一种词库生成方法及相关装置，用以提供快速、便捷建立共性关键词库的方式。本申请实施例提供一种词库生成方法，可以包括获取第一样本库和第二样本库，其中，所述第一样本库和所述第二样本库为不同的词库，样本库中的每个文本包括一个或多个词，一个词包括一个或多个字；合成所述第一样本库和所述第二样本库，得到目标词库；对所述目标词库中符合预设条件的第二文本拆分为两个词，并增加到所述目标词库中，其中，所述第二文本为包括多个词的文本。

词典构建方法、情感分析方法、装置、设备及存储介质-202310907870.6
发明人：田园 -专利权人：中国联合网络通信集团有限公司
申请日： 2023-07-21 - 公布日： 2023-10-20 - 主分类号： G06F40/242
摘要：本申请提供一种词典构建方法、情感分析方法、装置、设备及存储介质。该方法包括：获取弹幕待训练样本及表情文本和颜文字文本，对表情文本语义识别，确定语义表达，根据语义表达确定表情文本的情感倾向，用户对颜文字情感分类确定颜文字情感类别，根据表情文本、表情文本的情感倾向、颜文字、以及颜文字的情感类别，构建弹幕表情符号词典，根据弹幕表情符号词典，构建弹幕情感分析词典。获取待分析弹幕；根据预设的情感分析词典，对待分析弹幕进行情感类别分析，确定待分析弹幕中包含有颜文字的目标弹幕，以及目标弹幕所表征的情感类别；根据目标弹幕和目标弹幕表征的情感类别，得到情感分析结果。本申请的方法增加了弹幕情感分析准确度。

基于人工智能的合同关键条款提取方法、装置及存储介质-201910873470.1
发明人：侯丽 -专利权人：平安科技（深圳）有限公司
申请日： 2019-09-16 - 公布日： 2023-10-20 - 主分类号： G06F40/242
摘要：本发明涉及一种人工智能技术，揭露了一种基于人工智能的合同关键条款提取方法，包括：接收合同文本，对所述合同文本进行预处理操作，得到标准合同文本，提取所述标准合同文本中的关键词集，将所述关键词集转换为词向量集，得到关键词向量集；获取预先确定的关键合同条款的文本集，将所述文本集转换为文本词向量集；将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中，得到所述关键词向量集与所述文本词向量集的相似度集，当所述相似度集中存在大于预设阈值的相似度时，将对应的关键词向量作为所述合同文本的关键条款。本发明还提出一种基于人工智能的合同关键条款提取装置以及一种计算机可读存储介质。本发明实现了合同关键条款的高效提取。

一种医学术语整合方法及系统-202110496823.8
发明人：李晓瑛 -专利权人：中国医学科学院医学信息研究所
申请日： 2021-05-07 - 公布日： 2023-10-10 - 主分类号： G06F40/242
摘要：本发明提出了一种医学术语整合方法及系统，涉及医学信息处理技术领域。该医学术语整合方法通过从不同的来源获取得到不同的医学术语，并将得到的医学术语集进行分类，得到不同含义的医学概念，可以对不同来源异构异质的医学术语，以概念为中心实现同义汇聚和语义分类，再对不同含义的医学概念采用snowflake算法进行标识，最后根据得到的不同的概念标识进行整合得到医学概念表。通过将医学术语整合为医学概念表可以为不同医疗信息系统之间的互联互通和信息共享提供依据，便于人工智能应用在开发过程中，获取机器可理解的医学领域同义知识。

词云生成方法及设备-202210267845.1
发明人：费志辉;陈超群;薛驰;由勇;马国俊 -专利权人：北京字跳网络技术有限公司
申请日： 2022-03-17 - 公布日： 2023-09-26 - 主分类号： G06F40/242
摘要：本公开提供一种词云生成方法及设备，涉及计算机处理技术领域。该方法包括：通过词典中的词语对第一文本进行分词得到第一词语，词典中包括置信度大于或等于第一置信度阈值的第二词语，第二词语是从预设时间周期内生成的第二文本中预先提取得到的，置信度与第二词语在第二文本中的出现频次正相关，且与第二词语中的各个字分别在第二文本中的出现频次负相关；根据第一词语生成第一文本的词云。本公开可以将置信度较高的第二词语添加到词典中，这些第二词语是最小粒度的两个第三词语构成的，从而可以使生成词云所使用的词语包括这些更粗粒度的第二词语，由于这些更粗粒度的词语更能准确的表示关键信息，有助于提高词云反应关键信息的准确度。

表格数据字典的处理方法及装置-202010047487.4
发明人：陈伟杰 -专利权人：网易（杭州）网络有限公司
申请日： 2020-01-16 - 公布日： 2023-09-26 - 主分类号： G06F40/242
摘要：本发明公开了一种表格数据字典的处理方法及装置。其中，该方法包括：基于当前输入的表格数据字典构建压缩数据结构；在数据访问过程中，将上述压缩数据结构还原为上述表格数据字典，并通过字典接口和语法糖反馈上述表格数据字典。本发明解决了现有技术中的表格数据字典占用资源较多，影响游戏进程的技术问题。

使汉语字典的切口图案更实用的方法-202211354194.6
发明人：陈展天;陈宜中;怀远希 -专利权人：陈展天
申请日： 2022-10-19 - 公布日： 2023-09-22 - 主分类号： G06F40/242
摘要：使汉语字典的切口图案更实用的方法，它包括一本可以查汉语词汇和发音的带有封页的字典，它利用汉语字典都有一定的厚度，其切口面积较大的优势，在切口上除了印有代表纸内英文的色条外，还印有汉语拼音字母，且令每个汉语拼音字母各处在一个色框内，将该色框和代表相同字母的色条相交于一线。这样，当人们要翻阅汉语字典时，从切口的色框中就能看到自己要查的拼音符号上第一个英文字母，再翻开该英文字母和色框相交的那条线，就能找到该英文字母代表的汉语拼音音节了。由于技术效果显著，故可以改变技术人员习惯性地引用历史形成的英文标记，而忽视实际效果作用的技术偏见，比原先那种方法的寻字速度大大提高，特别有利于中小学生查字典。

一种基于语境表征的中文网络暴力语言检测方法及系统-202310423711.9
发明人：王栋;梁晓静;许子鑫 -专利权人：上海应用技术大学
申请日： 2023-04-19 - 公布日： 2023-09-22 - 主分类号： G06F40/242
摘要：本发明公开了一种基于语境表征的中文网络暴力语言检测方法及系统，包括：获取当前用户的网络评论数据；构建暴力语言敏感禁止词典；构建暴力语言检测模型，通过预训练模型NEZHA对当前用户的网络评论数据进行词嵌入编码，对文本进行上下文建模，提取文本的特征表示；将文本的向量表示输入到BiLSTM层，捕获长距离依赖；采用一个全连接网络进行输出连接；通过softmax函数输出分析结果，判断数据是否为网络禁止语言以及是否提示用户修改评论，并判断是否跳出检测流程得到检测结果。本发明基于语境表征的中文网络暴力语言检测方法，面向中文理解的神经语境表征模型，对于中文网络暴力语言具有更好的检测性能以及通用性。

一种模型生成文本的评估方法及计算机设备-202311075044.6
发明人：冯好国;徐青伟;严长春;裴非;范娥媚 -专利权人：北京知呱呱科技有限公司;知呱呱（天津）大数据技术有限公司
申请日： 2023-08-25 - 公布日： 2023-09-19 - 主分类号： G06F40/242
摘要：本申请公开了一种模型生成文本的评估方法及计算机设备，不依赖于标签，适用于生产环境。该评估方法分别通过基因、可读性和指纹三个指标分别评估后，再进行综合评估；其中，基因指标用于衡量模型生成文本与输入文本的语义相关性和同源情况，可读性指标用于从标点切分出的句子长度均值和文本重复退化情况来衡量模型生成文本能被人读懂的程度，指纹指标用于衡量模型生成文本与训练集标签的语义特征分布一致程度；具体预先基于三元孪生网络训练指纹提取网络模型，同时生成指纹库，然后通过将模型生成文本输入所述指纹提取网络模型得到指纹，再与所述指纹库进行距离度量，确定指纹指标的值。

文本纠正模型训练方法及装置、文本纠正方法及装置-202210535875.6
发明人：赵宏宇;蒋宁;王洪斌;白安琪 -专利权人：马上消费金融股份有限公司
申请日： 2022-05-17 - 公布日： 2023-09-12 - 主分类号： G06F40/242
摘要：本申请实施例提供了一种文本纠正模型训练方法及装置、文本纠正方法及装置，其中模型训练方法包括：获取用于训练模型的样本数据、第一发音混淆词典和第二发音混淆词典；所述第一发音混淆词典包括第一场景下的发音混淆文本；所述第二发音混淆词典包括第二场景下的发音混淆文本；所述第一场景与所述第二场景不同；基于所述第一发音混淆词典构建第一图数据，将所述第一图数据转换为第一邻接矩阵，以及基于所述第二发音混淆词典构建第二图数据，将所述第二图数据转换为第二邻接矩阵；将所述样本数据、所述第一邻接矩阵和所述第二邻接矩阵输入待训练模型中进行模型训练，得到文本纠正模型。通过本实施例，能够提高文本纠正的精准性。

一种学生教学评价领域情感词典的构建方法-202310542066.2
发明人：郭鸿杰;黄显之;张尧;陈丽娜;沈方瑶;高宏 -专利权人：浙江师范大学
申请日： 2023-05-12 - 公布日： 2023-09-08 - 主分类号： G06F40/242
摘要：本发明属于情感分析领域，并公开了一种学生教学评价领域情感词典的构建方法，包括：获取通用情感词典，构建否定词表和程度副词表；基于否定词表和程度副词表对通用情感词典进行扩建；获取学生教学评价数据，对学生教学评价数据进行预处理，预处理完成后通过TextRank算法对学生教学评价数据进行分析筛选，得到情感种子词，并通过SO‑PMI算法生成教学领域情感词，并对教学领域情感词的情感倾向值进行归一化处理操作，归一化处理后并入到扩建后的通用情感词典中，得到学生教学评价领域情感词典。本发明技术方案能够提高情感识别的准确性，生成的学生教学评价领域情感词典在评教情感分析上具有更好的效果。

小语种纠错模型训练方法、纠错方法、系统、介质及设备-202310552320.7
发明人：杨子昭 -专利权人：上海蜜度信息技术有限公司
申请日： 2023-05-17 - 公布日： 2023-09-08 - 主分类号： G06F40/242
摘要：本发明提供一种小语种纠错模型训练方法、纠错方法、系统、介质及设备，所述小语种纠错模型训练方法包括：基于多语言语料库识别mt5模型中关于选定的小语种词典；基于所述选定的小语种词典裁剪mt5模型以获取选定的小语种纠错模型；基于选定的小语种语料库对所述小语种纠错模型进行训练。本发明提供的小语种纠错模型训练方法、纠错方法、系统、介质及设备，快速地检测和纠正文本中的错误，提高纠错的准确率和覆盖率，同时能根据错误文本进行迭代，满足实时处理的要求。

一种用于语音识别的词典生成方法-201911180960.X
发明人：方伟;成海燕 -专利权人：南京创维信息技术研究院有限公司
申请日： 2019-11-27 - 公布日： 2023-09-05 - 主分类号： G06F40/242
摘要：本发明涉及语音识别领域，公开了一种用于语音识别的词典生成方法，解决了使用增量语料进行语音识别的训练过程中所需要的增量词典生成问题，其技术方案要点是使用开源分词工具对标注文件的词句进行分词，分别使用开源词典标注脚本、多音字词组标注脚本、单字标注脚本进行音素标注，得到新的词典文件；生成新的词典文件之后，以新的词典文件更新开源词典标注脚本、单字标注脚本以及多音字词组标注脚本，能够适用于多音字的转化标注，在旧的词典转化文件基础上不断的增加新词典文件，降低后续新收集语料的词典标注的工作量。

基于领域词典的空管事件报告风险要素识别方法及系统-202310545213.1
发明人：刘伟伟;王华伟;倪晓梅;吕少岚;王龙震 -专利权人：南京航空航天大学
申请日： 2023-05-15 - 公布日： 2023-08-29 - 主分类号： G06F40/242
摘要：本发明公开了一种基于领域词典的空管事件报告风险要素识别方法及系统，解决了民航空管领域不安全事件报告等文本数据风险要素提取精确度不高的问题，实现不安全事件致因精准识别。将通过数据预处理后的空管危险源数据进行语义切分，利用组合次数最大匹配方法得到构成领域词典的候选词语，根据组合稳定性分析筛选出部分词语并形成初始词典，结合最佳汇入量对初始词典进行优化升级得到最终民航空管领域词典，将其融入TF‑IDF算法中构成新的风险要素识别模型，最后输入采集到的不安全事件报告进行风险要素识别。与现有技术相比，该发明的准确率以及可读性均得到了提升，更加精准的识别出不安全事件报告中的风险致因，为民航安全风险管控与治理提供帮助。

一种检察案件办理工作量计算方法及系统-202011051142.2
发明人：栗伟;闵新;陈强;覃文军;冯朝路;王子晴;谢维冬 -专利权人：东北大学
申请日： 2020-09-29 - 公布日： 2023-08-29 - 主分类号： G06F40/242
摘要：本发明提供一种检察案件办理工作量计算方法及系统，所述方法基于司法专有名词词典对案件数据文本进行分词处理，提取案件信息中的案件标签，通过模糊匹配进行分组并对每个案件进行编码，利用编码提取到的关键信息进行案件工作量和案件工作量系数计算，所述方法通过对大量的历史案件数据进行分析，可以对案件准确的自动分类，客观定量地计算出每个案件的工作量，通过每个案件的具体分类，所述系统可以提供不同检察官工作量、不同检察院、不同案件类型多种计算结果输出方式，可提高案件工作量计算的准确度，保证办案质量，提高办案效率。

一种基于单文本词项凝固度的字典自动抽取方法与系统-202310404243.0
发明人：邓吉秋;唐宇;郭志勇;邱蓝;吴军;王飞龙 -专利权人：中南大学
申请日： 2023-04-17 - 公布日： 2023-08-25 - 主分类号： G06F40/242
摘要：本发明涉及自然语言处理技术领域，具体公开了一种基于单文本词项凝固度的字典自动抽取方法与系统，包括：输入说明子系统：用于录入输入数据，输入数据包括待分词文本和自定义断点数，根据待分词文本生成的候选词项会生成候选词项的凝固度，自然断点法说明子系统：用于分组候选词项的凝固度获得分组数据，通过对分组数据给定不同的级别来表示匹配时的优先级，构件字典过程说明子系统：用于基于候选词项的凝固度优先级和单文本自动构建词典，输出说明子系统：用作数据输出，数据输出为基于地质单文本和凝固度自动构建的字典，解决了传统的专业字典生成方法在设定规则、标注语料库、筛选词项时，存在大量人工耗费的问题。

一种文档质量评价方法及计算设备-202310450781.3
发明人：刘震 -专利权人：超聚变数字技术有限公司
申请日： 2023-04-24 - 公布日： 2023-08-22 - 主分类号： G06F40/242
摘要：本申请实施例提供了一种文档质量评价方法及计算设备，方法包括：获取待检测文档的评价数据；基于评价数据得到至少一个目标文本片段；从多个评价维度将至少一个目标文本片段和评价词典进行匹配，得到匹配结果，匹配结果包括多个评价维度对应的匹配信息；其中，每个评价维度对应的匹配信息包括匹配文本片段和匹配文本片段对应的评价参数，评价词典包括至少一个参考文本片段；评价参数用于指示每个匹配文本片段所描述的文档内容的优势特征或者劣势特征的得分；根据匹配结果确定待检测文档的质量评价数据；其中，质量评价数据包括多个评价维度对应的质量分数。通过上述方法，可以提高对文档进行质量评价的准确性。

虚拟资源分配方法、装置、电子设备及计算机存储介质-202011473864.7
发明人：李海军 -专利权人：平安银行股份有限公司
申请日： 2020-12-15 - 公布日： 2023-08-18 - 主分类号： G06F40/242
摘要：本发明涉及数据分析技术，揭露了一种虚拟资源分配方法，包括：获取业务数据集，对业务数据集进行分词处理，得到分词集；利用特征筛选模型对分词集进行特征筛选，得到特征分词集；利用特征分词集构建业务数据集中各业务数据的业务特征向量；对获取的人员信息进行特征提取，得到人员特征；计算人员特征和业务特征向量的距离值，确定距离值小于距离阈值的业务特征向量对应的业务数据为待分配业务数据；将待分配业务数据分配至目标业务人员。此外，本发明还涉及区块链技术，所述业务数据集可存储于区块链的节点。本发明还提出一种虚拟资源分配装置、电子设备以及计算机可读存储介质。本发明可以基于人员信息实现个性化的虚拟资源分配以提高业务执行的整体效率。

一种管网领域的文本分类方法、装置、电子设备及介质-202310385797.0
发明人：杨宝龙;任武;林嵩;杨玉锋;李莉;张新建;张正雄;吴官生;王玉霞 -专利权人：国家石油天然气管网集团有限公司
申请日： 2023-04-12 - 公布日： 2023-08-11 - 主分类号： G06F40/242
摘要：本发明涉及一种管网领域的文本分类方法、装置、电子设备及介质，该方法包括：获取管网领域的待扩展字典；对于每个所述标题句子，确定所述标题句子对应的候选词条；对于每个所述候选词条，根据所述管网领域的基础背景语料和所述候选词条，对所述候选词条进行扩展，得到多个目标词条；根据各个所述候选词条中每个所述候选词条对应的各个所述目标词条，以及每个所述目标词条对应的类别，确定分类语料，以根据所述分类语料训练得到的分类模型确定待分类文本的目标类别。通过本发明的方法，在样本有限的前提下，提高分类模型的准确度，另外，通过字典这种可解释性方法满足了工程上对实时性和修改方便性的要求，在工程中取得了良好的应用效果。

一种基于web检索和新词发现的领域词典构建方法-202010068095.6
发明人：杜梦豪;赵琨;刘杰鹏;丁健;梁栋彬;袁显峰 -专利权人：上海恒企教育培训有限公司
申请日： 2020-01-21 - 公布日： 2023-08-11 - 主分类号： G06F40/242
摘要：本发明公开了一种基于web检索和新词发现的领域词典构建方法，针对文本数据的多样性和丰富性(包含网络数据和文献数据)，以及新词中也存在领域词等特点，提出一种基于web检索和新词发现的领域词典构建方法。该方法由以下两部分组成：基于种子词典爬取网络数据，然后基于自定义的抽取模式抽取领域词；基于互信息和左右熵学习字与字之间的自由度和粘合度，然后基于BiLstm‑CRF实现新词发现。本发明与现有的技术相比的优点在于：本发明基于互信息和左右熵学习字与字之间的粘合度和自由度，然后基于BiLstm‑CRF模型学习文本的上下文信息，整体提升低频词的识别率,基于检索和统计的方法，对抽取的新词和发现的词进行校验,省去人工校验，能够高抽取的领域词的质量。

一种基于概率情感词典的情感分析系统及方法-202010781151.0
发明人：信俊昌;王之琼;王司亓;隋玲;唐俊日;雷盛楠;汪宇;李嘉欣 -专利权人：东北大学
申请日： 2020-08-06 - 公布日： 2023-08-08 - 主分类号： G06F40/242
摘要：本发明公开一种基于概率情感词典的情感分析系统及方法，属于计算机自然语言处理技术领域。本发明在基于文本构建情感词典的基础上，提出基于文本、图片、视频构建的情感词典。采用深度置信网络的方式提取图片上的人脸表情特征来构建图像情感词典；采用卷积神经网络对视频的情感特征提取，构建视频情感词典；采用OpenSMILE进行情感特征提取，构建音频情感词典。对于缺失单一模态的情况，通过另外两种模态的信息特征拟合出缺失模态的特征，还增加反语判断机制，提高情感分析的准确度并解决在分析过程中某一模态缺失导致分析结果不准确这一问题。

用于提取文本观点的方法、装置以及计算机存储介质-202211358625.6
发明人：郑约慧;万睿;梁礼欣 -专利权人：美云智数科技有限公司
申请日： 2022-11-01 - 公布日： 2023-08-04 - 主分类号： G06F40/242
摘要：本申请公开一种用于提取文本观点的方法、装置及计算机存储介质。该方法包括：获取文本；执行词典初始化；提取与特征情感连续表达词典中的词条匹配的特征情感连续表达作为第一类特征情感组合；响应于未成功提取与特征情感连续表达词典中的词条匹配的特征情感连续表达，提取与特征词典中的词条匹配的特征词以及与情感词典中的词条匹配的情感词，将特征词和情感词组合为第二类特征情感组合；确定与第一类特征情感组合或第二类特征情感组合对应的情感极性；以及基于第一类特征情感组合或第二类特征情感组合对应的特征和情感极性生成观点。本申请组合基于特征情感连续表达词典和基于规则的提取这两种观点提取方式，提高了文本观点提取的准确性。

一种电力行业关键词库的构建方法-202210044516.0
发明人：赵军愉;柴小亮;王强;徐松晓;杨伯青;杨超;董旭亮;马秣然;马晶晶;王辉;吕航 -专利权人：国网河北省电力有限公司保定供电分公司;国家电网有限公司
申请日： 2022-01-14 - 公布日： 2023-07-25 - 主分类号： G06F40/242
摘要：本说明书实施例提供一种电力行业关键词库的构建方法。所述方法包括：收集电力行业相关数据库，获取电力行业词库数据；对电力行业词库数据进行分词筛查，得到初始关键词库数据；对初始关键词库数据通过TF‑IDF统计方法计算初始关键词库中初始关键词的TF‑IDF值；根据初始关键词库数据中的初始关键词计算出任意初始关键词两词之间的语义相似度，根据语义相似度合并得到同义词库数据；对同义词库数据通过TF‑IDF统计方法计算同义词库数据中同义词的TF‑IDF值；基于初始关键词的TF‑IDF值和同义词的TF‑IDF值生成电力行业关键词库。

领域要素识别模型训练方法、装置及电子设备-202010107938.9
发明人：高原;戴岱;肖欣延 -专利权人：北京百度网讯科技有限公司
申请日： 2020-02-21 - 公布日： 2023-07-25 - 主分类号： G06F40/242
摘要：本申请提出一种领域要素识别模型训练方法、装置及电子设备，属于自然语言处理技术领域。其中，该方法包括：利用预设的领域词典与预设的正则表达式，对训练数据集进行标注，以生成训练数据集中每个训练数据对应的第一参考实体标注信息；利用预设的要素识别模型，对训练数据集进行识别处理，以确定每个训练数据对应的预测实体标注信息；根据每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异，对预设的要素识别模型进行更新。由此，通过这种领域要素识别模型训练方法，不仅有效提升了要素识别模型的识别效果，通用性好，而且提高了要素识别的效率，大大降低了标注成本。

一种词典服务系统及模型版本一致性配送方法-201910449675.7
发明人：杨振宇;罗晓鸣;杨睿;朱灿 -专利权人：北京百度网讯科技有限公司
申请日： 2019-05-28 - 公布日： 2023-07-18 - 主分类号： G06F40/242
摘要：本发明涉及数据处理领域，具体地涉及一种词典服务系统，包括节点装置、模型管理装置、节点管理装置和路由服务装置；所述节点装置，用于向下游业务提供机器学习模型词典服务；所述模型管理装置，用于保证各节点装置之间的模型版本一致性；所述节点管理装置，用于对所述节点装置进行管理；所述路由服务装置，用于向下游业务提供访问路由信息。同时还提供了一种模型版本一致性配送方法。本发明实施例适用于机器学习场景中的数据一致性保障，能够实现TB级别的机器学习模型数据的一致性，并动态扩展在线数据规模。

一种基于语义的物流智能客服问题相似度计算方法-201911079916.X
发明人：彭俊杰;胡敬响;胡淼;张换香;谭书华 -专利权人：上海大学
申请日： 2019-11-07 - 公布日： 2023-07-18 - 主分类号： G06F40/242
摘要：本发明涉及一种基于语义的物流智能客服问题的一种语义相似度计算方法，步骤为：根据收集的物流智能客服问题数据，利用物流领域的语义特征词、词的同义关系、词的词性关系，构建专业词典、同义词典和语义特征词典；获取待判断语义相似度的两句话；确定两句话中的语义特征词，并确定两个语义特征词的交集，对两句话已获得的语义向量进行更新；并根据阈值确定最终的相似度；在从收集的物流新闻、来自实际生产环境的客户问题以及该公司人工客服收集整理的标准问题的数据上进行了大量实验。实验表明本发明不但在处理相同上下文但语义不同的问题上，有良好的判别能力，在基本的问题上也具有比较不错的效果，能够有效的利用先验知识。

语音信息校验方法、装置、电子设备及介质-202011508407.7
发明人：李骁;赖众程;王亮;高洪喜;海洋;罗霞;张凌旖;李林毅;李会璟 -专利权人：平安银行股份有限公司
申请日： 2020-12-18 - 公布日： 2023-07-14 - 主分类号： G06F40/242
摘要：本发明涉及语音处理技术，揭露一种语音信息校验方法，包括：对原始语音数据集进行语音识别、标注数据、文本增强和概率计算，得到分类概率值并计算与真实概率值的交叉熵损失值，当交叉熵损失值小于损失阈值，得到标准文本检测模型；对待处理语音数据进行概率计算，得到预测概率值集并将大于概率阈值的预测概率值进行汇总，得到预测结果列表并提取其中预测概率值对应的类别，当类别的个数大于等于预设数量阈值时，判定待处理语音数据通过校验。本发明还涉及区块链技术，所述训练数据集等可以存储在区块链节点中。本发明还揭露一种语音信息校验装置、电子设备及存储介质。本发明可以快速准确地对语音包含的内容进行校验。

语句特征的处理方法和装置、存储介质-201911243957.8
发明人：刘志煌 -专利权人：腾讯云计算（北京）有限责任公司
申请日： 2019-12-06 - 公布日： 2023-07-14 - 主分类号： G06F40/242
摘要：本发明公开了一种语句特征的处理方法和装置、存储介质。其中，该方法包括：获取待处理的目标语句，其中，目标语句包括N个分句；对N个分句中的每个分句进行分词和词性标注，得到N个词性信息序列，其中，每个词性信息序列包括按预定顺序排列的一组第一类二元组；在N个词性信息序列中确定M组目标二元组；将M组目标二元组中包括的第一组目标词语加入到属性词集合，并将M组目标二元组中包括的第二组目标词语加入到情感词集合。本发明解决了相关技术文本的情感分析中抽取评价要素信息依赖于词典以及语言专家制定的规则，导致可扩展性和泛化能力较差的技术问题。

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]流行病学调查报告的自然语言处理方法、装置及存储介质有效

专利文献下载