[发明专利]文本标签生成方法和装置有效
申请号: | 201710541481.0 | 申请日: | 2017-07-05 |
公开(公告)号: | CN107436922B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 刘家辰;何伯磊;肖欣延;吕雅娟;费晓旭 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F40/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标签 生成 方法 装置 | ||
本发明提出一种文本标签生成方法和装置,通过针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签之后,对各标签类型的候选标签,在不同标签类型之间进行交叉验证,最终根据经过验证的候选标签,确定出目标文本的目标标签。由于分别针对包括实体词、片段文本和/或话题在内的不同标签类型,进行标签提取,并进行交叉验证,从而提高了标签提取的准确性,解决了现有技术中标签提取的准确性不高的技术问题。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本标签生成方法和装置。
背景技术
对于论文、新闻等各类文本的标签抽取,具体是指从文本中提取出能够反映出文本内容,以及读者兴趣的多个标签。这里提取出的标签可以作为比摘要更加精炼的词语或片段,有助于读者快速了解到全文的内容。对于文本的分类、推荐、关联具有重要的作用。
但是,现有技术中仅仅是依据词频等进行标签提取,提取出的标签准确度不高。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种文本标签生成方法,以解决现有技术中提取出的标签准确度不高的技术问题。
本发明的第二个目的在于提出一种文本标签生成装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种文本标签生成方法,包括:
针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签;所述标签类型包括实体词、片段文本和/或话题;
对各标签类型的候选标签,在不同标签类型之间进行交叉验证;
根据经过验证的候选标签,确定出所述目标文本的目标标签。
本发明实施例的文本标签生成方法,通过针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签之后,对各标签类型的候选标签,在不同标签类型之间进行交叉验证,最终根据经过验证的候选标签,确定出目标文本的目标标签。由于分别针对包括实体词、片段文本和/或话题在内的不同标签类型,进行标签提取,并进行交叉验证,从而提高了标签提取的准确性,解决了现有技术中标签提取的准确性不高的技术问题。
为达上述目的,本发明第二方面实施例提出了一种文本标签生成装置,包括:
提取模块,用于针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签;所述标签类型包括实体词、片段文本和/或话题;
验证模块,用于对各标签类型的候选标签,在不同标签类型之间进行交叉验证;
确定模块,用于根据经过验证的候选标签,确定出所述目标文本的目标标签。
本发明实施例的文本标签生成装置,通过针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签之后,对各标签类型的候选标签,在不同标签类型之间进行交叉验证,最终根据经过验证的候选标签,确定出目标文本的目标标签。由于分别针对包括实体词、片段文本和/或话题在内的不同标签类型,进行标签提取,并进行交叉验证,从而提高了标签提取的准确性,解决了现有技术中标签提取的准确性不高的技术问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710541481.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带火灾监测器的储物柜
- 下一篇:一种防止衣物霉变的衣柜