[发明专利]一种基于HanLP的电力设备中文分词方法在审
| 申请号: | 201811510609.8 | 申请日: | 2018-12-11 |
| 公开(公告)号: | CN109558595A | 公开(公告)日: | 2019-04-02 |
| 发明(设计)人: | 何熹;段正杰;刘涛;袁俊锋 | 申请(专利权)人: | 河南恩湃高科集团有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 郑州联科专利事务所(普通合伙) 41104 | 代理人: | 刘建芳 |
| 地址: | 450001 河南省*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分词 分词结果 电力领域 电力设备 中文分词 创新性地 名称文本 输入电力 中文文本 综合评定 最短路径 词典库 权重 索引 融合 中文 | ||
1.一种基于HanLP的电力设备中文分词方法,其特征在于:包括以下步骤:
输入电力设备中文名称文本字符串;
依次使用多种分词方法并得到若干种分词结果;
使用电力领域专用分词词典与权重比重,对分词结果进行遴选;
计算分词结果的综合评定分值,采纳一个最大分值的分词结果。
2.根据权利要求1所述的基于HanLP的电力设备中文分词方法,其特征在于:所述步骤A中电力设备中文名称文本字符串由多个前缀或词元所构成,可以在字符串的任意位置附加电力设备电压等级描述字符串。
3.根据权利要求1所述的基于HanLP的电力设备中文分词方法,其特征在于:所述步骤B中采用多种分词方法将步骤A输入的电力设备中文名称文本字符串进行切分并得到若干种分词结果;多种分词方法包括HMM分词、NLP分词、索引分词和最短路径分词。
4.根据权利要求3所述的基于HanLP的电力设备中文分词方法,其特征在于:所述分词结果构建成为结果列表模型,列表中的每一个对象存储一种切分结果对象,切分结果对象中存储采用的切分方法代码、分词结果最终分值、切分结果词元。
5.根据权利要求4所述的基于HanLP的电力设备中文分词方法,其特征在于:所述切分结果词元中包括该词元的文本描述、词性、是否命中词典和命中权重分值。
6.根据权利要求1所述的基于HanLP的电力设备中文分词方法,其特征在于:所述步骤C中对分词结果进行遴选的具体过程为:对分词结果进行迭代,识别其中的切分结果对象,并依次对存储的切分结果词元进行迭代,在电力领域专用分词词典中进行扫描,判断该切分结果中存储的词元文本字符串是否完全命中分词词典中的特定条目;若是,则在切分结果词元中记录已命中词典,记录该词典条目的权重分值;若否,则在切分结果词元中记录未命中词典,且将权重分值调整为0。
7.根据权利要求1所述的基于HanLP的电力设备中文分词方法,其特征在于:所述步骤D中计算分词结果的综合评定分值过程为:在所有切分结果词元迭代完成后,累加计算所有切分结果词元的权重分值,将计算结果记录在切分结果对象的分词结果最终分值中;然后扫描拥有最大分词结果最终分值的分词结果,将其采纳为最终分词结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南恩湃高科集团有限公司,未经河南恩湃高科集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811510609.8/1.html,转载请声明来源钻瓜专利网。





