[发明专利]专业词抽取和词性标注方法在审
申请号: | 201910841201.7 | 申请日: | 2019-09-03 |
公开(公告)号: | CN110825913A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 高巍 | 申请(专利权)人: | 上海擎测机电工程技术有限公司 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/735;G06F16/33 |
代理公司: | 北京挺立专利事务所(普通合伙) 11265 | 代理人: | 田黎绒 |
地址: | 200080 上海市虹*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 专业 抽取 词性 标注 方法 | ||
1.一种专业词抽取和词性标注方法,其特征在于,包括如下步骤:
S1:建立关键词标签数据库、保存关键词与行业特征词的对应关系;
S2:从查询指令中提取关键词;
S3:基于S1所得关键词标签数据库、匹配对应于S2所得关键词的行业特征词;
S4:基于S3所得行业特征词对视频文件进行筛选;
S5:对筛选所得视频文件中的行业特征词进行标注显示。
2.如权利要求1所述专业词抽取和词性标注方法,其特征在于还包括步骤S6,所述步骤S6包括:对S4所得视频文件上添加检索标签、并依据时间顺序进行排序。
3.如权利要求1所述专业词抽取和词性标注方法,其特征在于:所述步骤S1包括如下步骤:
S11:根据行业安全规程和操作手册,收集行业特征词;
S12:将行业特征词输入关键词标签数据库中并进行统一格式化;
S13:对各个行业特征词打上对应的关键词标签;
S14:基于行业特征词的出现频率、对各个行业特征词打上对应的权重值标签,并将各行业特征词依据其权重值标签进行排序。
4.如权利要求1所述专业词抽取和词性标注方法,其特征在于,所述步骤S4包括如下步骤:
S41:截取视频文件中的音轨文件;
S42:将S21所得音轨文件转化为文本描述文件;
S43:对所述文本描述文件进行分词处理、将该文本描述文件拆分为若干个分词;
S44:将所述分词中包含行业特征词的文本描述文件对应的视频文件筛选出来。
5.如权利要求1所述专业词抽取和词性标注方法,其特征在于:步骤S43所述分词处理基于分布式爬虫平台实现。
6.如权利要求1所述专业词抽取和词性标注方法,其特征在于,步骤S5所述标注显示采用调色显示和/或调亮显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海擎测机电工程技术有限公司,未经上海擎测机电工程技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910841201.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐火圆筒容器
- 下一篇:一种硬质合金挤压模具的加工方法