[发明专利]词库生成方法及装置在审
申请号: | 202010098044.8 | 申请日: | 2020-02-18 |
公开(公告)号: | CN111324745A | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 张锦杰 | 申请(专利权)人: | 深圳市一面网络技术有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/335 |
代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 陈万江 |
地址: | 518000 广东省深圳市南山区粤海街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及自然语言处理技术领域,尤其是指词库生成方法及装置,其特征在于,包括人工浏览评论,为商品的每个评价维度整理出10‑20个种子词;准备30万不重复语料,其中选取5万语料作为训练语料,25万语料作为预测语料;对用作训练的5万语料根据不同维度的种子词自动打上维度标签,并标记在句中位置,按每个维度随机选取正负样本各1000,作为平衡语料,用作模型训练语料;使用训练语料训练序列标注模型,预测语料中各个维度特征词出现的位置;模型训练好后,将模型应用到20万的预测语料,预测各个维度特征词词出现的位置,将对应位置的字序列提取出来作为候选特征词;将各个维度特征词的识别结果与种子词库合并并去重,形成各个维度的初步词库;人工对词库进行筛查,形成最终可用的词库。本申请的词库生成方法及装置可以快速构建商品各个维度的词库。 | ||
搜索关键词: | 词库 生成 方法 装置 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市一面网络技术有限公司,未经深圳市一面网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010098044.8/,转载请声明来源钻瓜专利网。