[发明专利]一种基于成词率的领域词识别方法及装置有效

申请号：	202110377911.6	申请日：	2021-04-08
公开（公告）号：	CN113051912B	公开（公告）日：	2023-01-20
发明（设计）人：	方正云;杨政;李萍;尹春林;刘柱揆	申请（专利权）人：	云南电网有限责任公司电力科学研究院
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/216;G06F16/335;G06F16/35
代理公司：	北京弘权知识产权代理有限公司 11363	代理人：	逯长明;许伟群
地址：	650217 云南省昆***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于成词率领域识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于成词率的领域词识别方法，其特征在于，包括：

获取某一领域的文本数据，对所述文本数据进行文本预处理得到第一文本，所述文本预处理包括去除掉停用词和标点符号；

根据所述第一文本中字符串的互信息、左右熵、构词规律以及预设的最长词语长度，利用成词率模型，获得所述字符串的成词率，所述成词率模型为：

Suc＝1/m(Mut+k₁×Adj_l+k₂×Adj_r)-Reg(a,b)

式中Suc为成词率，m为归一化常数，Mut为互信息，Adj_l为左熵，Adj_r为右熵，Reg为构词规律，k₁和k₂为互信息与左右熵的值映射到相近的量级，k₁取值为Mut均值除以Adj_l的均值，k₂取值为Mut均值除以Adj_r的均值；

建立一个空的第一候选词集，比较任一字符串的成词率与设定阈值的大小，若字符串的成词率大于或等于设定阈值，则将所述字符串放入第一候选词集；

利用第一候选词集对第一文本进行切分，获得第二候选词集；

根据第一候选词集，采用回溯算法，对第二候选词集进行筛选，获得第三候选词集，所述回溯算法为：判断第二候选词集中任一词语的词语长度是否大于预设的最长词语长度，若所述词语的词语长度小于或等于预设的最长词语长度，则判断所述词语是否在第一候选词集中，若所述词语不在第一候选词集中，则从第二候选词集中删除所述词语；若所述词语的词语长度大于预设的最长词语长度，则判断第一候选词集中是否存在有所述词语的连续子字符串，若第一候选词集中不存在有所述词语的连续子字符串，则从第二候选词集中删除所述词语；

对第三候选词集进行常用词过滤，获得第四候选词集；

对第四候选词集中的词语进行向量化及聚类处理，得到领域词词集，所述领域词词集是指与所述领域词对应的领域文本数据的领域词集合。

2.根据权利要求1所述的一种基于成词率的领域词识别方法，其特征在于，所述构词规律是指根据构词学基本原理定义的字符串成词规律，所述构词规律计算公式为：

式中a、b为搭配成词的两个字符串。

3.根据权利要求1所述的一种基于成词率的领域词识别方法，其特征在于，所述成词率模型中预设的最长词语长度n为4。

4.根据权利要求1所述的一种基于成词率的领域词识别方法，其特征在于，所述利用第一候选词集对第一文本进行切分，获得第二候选词集的步骤，具体为：

步骤401：预设一个大于所述成词率模型中预设的最长词语长度的判定阈值；

步骤402：遍历第一文本中词语长度为判定阈值的字符串，并获取所述字符串的所有连续子字符串，若所有连续子字符串中有一半以上的连续子字符串属于第一候选词集，则将所述字符串从第一文本中删除，并将所述字符串放入所述第二候选词集，并用删除所述字符串的第一文本更新第一文本，获得更新后的第一文本；

步骤403：将判定阈值减一，若判定阈值大于所述成词率模型中预设的最长词语长度，则进入步骤402；若判定阈值小于或等于所述成词率模型中预设的最长词语长度，则进入步骤404；

步骤404：利用第一候选词集对更新后的第一文本进行分词，遵循最大匹配法，将分词后的字符串放入第二候选词集。

5.根据权利要求1所述的一种基于成词率的领域词识别方法，其特征在于，所述对第三候选词集进行常用词过滤得到第四候选词集的步骤包括：

获取其他至少一个领域的文本数据；