[发明专利]一种从文本中挖掘和定位个人能力的方法有效

申请号：	201910538161.9	申请日：	2019-06-20
公开（公告）号：	CN110263341B	公开（公告）日：	2023-06-20
发明（设计）人：	吴漾;王鹏宇;缪新萍;杨箴;周玲;田钺	申请（专利权）人：	贵州电网有限责任公司
主分类号：	G06F40/284	分类号：	G06F40/284
代理公司：	贵阳中新专利商标事务所 52100	代理人：	胡绪东
地址：	550002 贵***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本挖掘定位个人能力方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种从文本中挖掘和定位个人能力的方法，该方法包括步骤：将文档数据和邮件数据入数据库；采用数据库生成人名词库以及系统词库文件；根据生成的人名词库以及系统词库分词并去掉停用词；提取出所有谓词并生词谓词文件；利用谓词文件人工标注出能力词并形成能力词库文件；利用能力词文件、人名词库和系统词库分词并去掉停用词，根据正则和规则判断能力、人名之间是不是并列的关系，若是，生成能力和人员对应关系，否，则根据距离计算最近的，然后将生成对应人员能力并存入数据库。本发明能自动从对应能力查找人员，进而大幅度提高了办公效率。

技术领域

本发明属于挖掘和定位个人能力技术领域，涉及一种从文本中挖掘和定位个人能力的方法。

背景技术

现有的技术中，没有一个对人员能力打标签的方法，无法实现自动从文档描述中提取某个人的能力，只能由员工或者人资进行标注，且需要手动输入。对于体量大的公司操作困难。

发明内容

本发明要解决的技术问题是：提供一种从文本中挖掘和定位个人能力的方法，以解决现有技术中存在的问题。

本发明采取的技术方案为：一种从文本中挖掘和定位个人能力的方法，该方法包括以下步骤：

（1）数据入库：通过将文档数据（word为主）以及多封邮件（eml文件）数据入库，将word等文件生成html然后进行爬取入库，邮件数据直接入库；

（2）利用文档数据和邮件数据生成的数据库生成人名词库以及系统词（公司的应用系统如自动化办公系统等）库文件；

（3）根据生成的人名词库以及系统词库分词并去掉停用词；

（4）提取出所有谓词（即动词如“推广”、“采购”等）并生词谓词文件；

（5）利用谓词文件人工标注出能力词并形成能力词库文件（便于jieba分词的词库文件，一般为txt文件每个词是一行，每行用空格隔开，一般三个属性，词名、词频、词性）；

（6）利用能力词文件、人名词库以及系统词库分词并去掉停用词，分析文档每句话根据正则和规则判断能力、人名之间是不是并列的关系，若是，则生成能力和所有人员对应关系，不是，则根据距离计算最近的，然后将生成对应人员能力并存入数据库。

本发明的有益效果：与现有技术相比，本发明利用已有往来邮件和办公文档生成词库文件便于准确分词，分词后以人名为语义角色结合了web服务提供企业方便查找对用人员的功能，自动从对应能力查找人员，进而大幅度提高了办公效率。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图及具体的实施例对本发明进行进一步介绍。

实施例1：如图1所示，一种从文本中挖掘和定位个人能力的方法，该方法包括以下步骤：

（1）数据入库：通过将文档数据（word为主，日常工作中产生的公司发文、技术文件、项目文件、工单、报表、台账等）以及一万多封邮件（eml文件，日常工作中产生的邮件，带有标题、正文、收发件人、时间、附件等信息）数据入库，将word等文件生成html然后进行爬取入库，邮件数据直接入库；

（2）利用文档数据和邮件数据生成的数据库生成人名词库以及系统词（公司的应用系统如自动化办公系统等）库文件（属于初始化数据，因为邮件里面有人员姓名和系统名称等）；

（3）根据生成的人名词库以及系统词库分词并去掉停用词（自然语言处理一般需要去掉一些无意义的词，然后再做后续处理）；

（4）提取出所有谓词（即动词如“推广”、“采购”等）并生词谓词文件（通过词性标注，训练词性分析模型得到）；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司，未经贵州电网有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910538161.9/2.html，转载请声明来源钻瓜专利网。

上一篇：评论生成方法、装置、服务器及存储介质
下一篇：实体的上下位关系的挖掘方法和装置、电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种从文本中挖掘和定位个人能力的方法有效

专利文献下载