[发明专利]基于分词与多模匹配的房源标签自动提取装置及其方法在审
申请号: | 201910070120.1 | 申请日: | 2019-01-24 |
公开(公告)号: | CN109739955A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 张文战;杨丽娟;白峻峰;刘子曜;张凯 | 申请(专利权)人: | 北京诸葛找房信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/338;G06Q50/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100021 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模匹配 描述词 分词 自动提取装置 标签 标签库 标签生成模块 结构化特征 多个目标 分词模块 文本匹配 出标签 放弃 互斥 醒目 展示 发现 | ||
本发明涉及一种基于分词与多模匹配的房源标签自动提取装置及其方法,包括标签生成模块,用于发现房源描述词并生成标签库;标签放弃模块,用于对互斥的房源描述词进行放弃;分词模块,用于对标签库内的房源描述词进行分词;多模匹配模块,用于对输入的文本匹配出标签库中的多个目标词。本发明的优点是:方便购房者从冗长的房源描述中,提取出人们最关心的结构化特征,在比较醒目的地方展示,让购房者可以迅速了解,对比房源特色,判断是否对该房源敢兴趣。
技术领域
本发明涉及一种基于分词与多模匹配的房源标签自动提取方法。
背景技术
当前没有自动化给房源打标签的产品,经纪公司都是根据经验设定了一些标签,然后录入房源时人工录入标签的。
标签种类不够丰富,各个平台标签体系也不一致,房源是否有和有几个标签完全取决于经纪公司的制度和经纪人的态度。
购房者在了解购房信息时,阅读的房源信息冗长,不能有效快速的了解房源信息。
发明内容
为克服现有技术的缺陷,本发明提供一种基于分词与多模匹配的房源标签自动提取方法,本发明的技术方案是:
基于分词与多模匹配的房源标签自动提取装置,包括标签生成模块,用于发现房源描述词并生成标签库;标签放弃模块,用于对互斥的房源描述词进行放弃;分词模块,用于对标签库内的房源描述词进行分词;多模匹配模块,用于对输入的文本匹配出标签库中的多个目标词。
一种房源标签自动提取方法,包括以下步骤:
S1、发现房源描述词并生成标签库,
S2、对互斥的标签进行放弃,
S3、反复对标签库内的房源描述词进行分词,
S4、对输入的文本匹配出标签库中的多个目标词。
所述的步骤S1具体为:基于标签库的规则要求,搜索整合房源描述词,并对一些不规则的描述词进行转换,建立标签库;
所述的步骤S2具体为:对与互斥的标签进行标注,当一套房源匹配上了互斥的标签时,则放弃此类标签。
所述的步骤S3具体为:通过中文分词工具对多套房源的房源描述词进行分词。
所述的步骤S4具体为:基于Aho-Corasick 多模式匹配算法,搜索待处理的文本。
本发明的优点是:方便购房者从冗长的房源描述中,提取出人们最关心的结构化特征,在比较醒目的地方展示,让购房者可以迅速了解,对比房源特色,判断是否对该房源敢兴趣。
附图说明
图1是本发明的主体结构示意图。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
本发明涉及一种基于分词与多模匹配的房源标签自动提取装置,包括标签生成模块1,用于发现房源描述词并生成标签库;标签放弃模块2,用于对互斥的房源描述词进行放弃;分词模块3,用于对标签库内的房源描述词进行分词;多模匹配模块4,用于对输入的文本匹配出标签库中的多个目标词。
一种房源标签自动提取方法,包括以下步骤:
S1、发现房源描述词并生成标签库,
S2、对互斥的标签进行放弃,
S3、反复对标签库内的房源描述词进行分词,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京诸葛找房信息技术有限公司,未经北京诸葛找房信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910070120.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:桃感官品质评价系统和评价方法
- 下一篇:语料清洗方法、装置、设备及介质