[发明专利]一种从文本中挖掘和定位个人能力的方法有效
申请号: | 201910538161.9 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110263341B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 吴漾;王鹏宇;缪新萍;杨箴;周玲;田钺 | 申请(专利权)人: | 贵州电网有限责任公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 贵阳中新专利商标事务所 52100 | 代理人: | 胡绪东 |
地址: | 550002 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 挖掘 定位 个人 能力 方法 | ||
本发明公开了一种从文本中挖掘和定位个人能力的方法,该方法包括步骤:将文档数据和邮件数据入数据库;采用数据库生成人名词库以及系统词库文件;根据生成的人名词库以及系统词库分词并去掉停用词;提取出所有谓词并生词谓词文件;利用谓词文件人工标注出能力词并形成能力词库文件;利用能力词文件、人名词库和系统词库分词并去掉停用词,根据正则和规则判断能力、人名之间是不是并列的关系,若是,生成能力和人员对应关系,否,则根据距离计算最近的,然后将生成对应人员能力并存入数据库。本发明能自动从对应能力查找人员,进而大幅度提高了办公效率。
技术领域
本发明属于挖掘和定位个人能力技术领域,涉及一种从文本中挖掘和定位个人能力的方法。
背景技术
现有的技术中,没有一个对人员能力打标签的方法,无法实现自动从文档描述中提取某个人的能力,只能由员工或者人资进行标注,且需要手动输入。对于体量大的公司操作困难。
发明内容
本发明要解决的技术问题是:提供一种从文本中挖掘和定位个人能力的方法,以解决现有技术中存在的问题。
本发明采取的技术方案为: 一种从文本中挖掘和定位个人能力的方法,该方法包括以下步骤:
(1)数据入库:通过将文档数据(word为主)以及多封邮件(eml文件)数据入库,将word等文件生成html然后进行爬取入库,邮件数据直接入库;
(2)利用文档数据和邮件数据生成的数据库生成人名词库以及系统词(公司的应用系统如自动化办公系统等)库文件;
(3)根据生成的人名词库以及系统词库分词并去掉停用词;
(4)提取出所有谓词(即动词如“推广”、“采购”等)并生词谓词文件;
(5)利用谓词文件人工标注出能力词并形成能力词库文件(便于jieba分词的词库文件,一般为txt文件每个词是一行,每行用空格隔开,一般三个属性,词名、词频、词性);
(6)利用能力词文件、人名词库以及系统词库分词并去掉停用词,分析文档每句话根据正则和规则判断能力、人名之间是不是并列的关系,若是,则生成能力和所有人员对应关系,不是,则根据距离计算最近的,然后将生成对应人员能力并存入数据库。
本发明的有益效果:与现有技术相比,本发明利用已有往来邮件和办公文档生成词库文件便于准确分词,分词后以人名为语义角色结合了web服务提供企业方便查找对用人员的功能,自动从对应能力查找人员,进而大幅度提高了办公效率。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图及具体的实施例对本发明进行进一步介绍。
实施例1:如图1所示, 一种从文本中挖掘和定位个人能力的方法,该方法包括以下步骤:
(1)数据入库:通过将文档数据(word为主,日常工作中产生的公司发文、技术文件、项目文件、工单、报表、台账等)以及一万多封邮件(eml文件,日常工作中产生的邮件,带有标题、正文、收发件人、时间、附件等信息)数据入库,将word等文件生成html然后进行爬取入库,邮件数据直接入库;
(2)利用文档数据和邮件数据生成的数据库生成人名词库以及系统词(公司的应用系统如自动化办公系统等)库文件(属于初始化数据,因为邮件里面有人员姓名和系统名称等);
(3)根据生成的人名词库以及系统词库分词并去掉停用词(自然语言处理一般需要去掉一些无意义的词,然后再做后续处理);
(4)提取出所有谓词(即动词如“推广”、“采购”等)并生词谓词文件(通过词性标注,训练词性分析模型得到);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司,未经贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910538161.9/2.html,转载请声明来源钻瓜专利网。