[发明专利]基于分词与多模匹配的房源标签自动提取装置及其方法在审
申请号: | 201910070120.1 | 申请日: | 2019-01-24 |
公开(公告)号: | CN109739955A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 张文战;杨丽娟;白峻峰;刘子曜;张凯 | 申请(专利权)人: | 北京诸葛找房信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/338;G06Q50/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100021 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模匹配 描述词 分词 自动提取装置 标签 标签库 标签生成模块 结构化特征 多个目标 分词模块 文本匹配 出标签 放弃 互斥 醒目 展示 发现 | ||
1.基于分词与多模匹配的房源标签自动提取装置,其特征在于,包括
标签生成模块,用于发现房源描述词并生成标签库;
标签放弃模块,用于对互斥的房源描述词进行放弃;
分词模块,用于对标签库内的房源描述词进行分词;
多模匹配模块,用于对输入的文本匹配出标签库中的多个目标词。
2.一种房源标签自动提取方法,包括以下步骤:
S1、发现房源描述词并生成标签库,
S2、对互斥的标签进行放弃,
S3、反复对标签库内的房源描述词进行分词,
S4、对输入的文本匹配出标签库中的多个目标词。
3.根据权利要求2所述的一种房源标签自动提取方法,其特征在于,
所述的步骤S1具体为:基于标签库的规则要求,搜索整合房源描述词,并对一些不规则的描述词进行转换,建立标签库。
4.根据权利要求2所述的一种房源标签自动提取方法,其特征在于,
所述的步骤S2具体为:对与互斥的标签进行标注,当一套房源匹配上了互斥的标签时,则放弃此类标签。
5.根据权利要求2所述的一种房源标签自动提取方法,其特征在于,
所述的步骤S3具体为:通过中文分词工具对多套房源的房源描述词进行分词。
6.根据权利要求2所述的一种房源标签自动提取方法,其特征在于,
所述的步骤S4具体为:基于Aho-Corasick 多模式匹配算法,搜索待处理的文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京诸葛找房信息技术有限公司,未经北京诸葛找房信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910070120.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:桃感官品质评价系统和评价方法
- 下一篇:语料清洗方法、装置、设备及介质