[发明专利]一种自动撰写特定稿件的方法有效
申请号: | 201611207712.6 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106777193B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 李鹏 | 申请(专利权)人: | 李鹏 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N20/00 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 付登云 |
地址: | 100054 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 撰写 特定 稿件 方法 | ||
技术领域
本发明属于信息处理领域,具体涉及一种自动撰写特定稿件的方法。
背景技术
所谓特定稿件是指有固定写作模式的特定领域文本,如维基百科、百度百科、产品宣传材料等等。特定稿件的撰写模式是根据媒体或者宣传要求约定俗成的客观存在的,这类特定稿件由一个总标题和若干子标题组成,每个子标题后有一段或多段文字对子标题内容进行扩展。
现有技术虽然提供了特定稿件的自动撰写的方案,但却存在如下缺陷:
1、现有技术特定稿件的自动撰写是基于英文文本和wiki百科的实现,但中文而言,自然语言处理在细节上会有很多不同,所以不能直接适用;
2、现有技术特定稿件的自动撰写中采用的分类方法为最大熵分类,这样的分类不能智能地学习参数特征,然后智能分类;
3、现有技术特定稿件的自动撰写时获取参数基于统计学的内容,比如有些参数为单词数量,文本中数字的多少等,忽略一些特定领域内词义的对分类的重要影响。
4、现有技术特定稿件的自动撰写现有技术中只对美国演员和疾病两个方面做了尝试;
5、现有技术特定稿件的自动撰写时,ILP步骤基于的是段落,这样很容易把特别合适的段落删除,而选取只是相似度低但并不是最贴切的段落。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种智能化的自动撰写特定稿件的方法。
为实现以上目的,本发明采用如下技术方案:
一种自动撰写特定稿件的方法,包括如下步骤:
步骤S1、确定待撰写特定稿件的所属领域,通过网络爬虫从网络爬取所述待撰写特定稿件所属领域的k个网页,k>2,每个所述网页具有n个子标题,n≥2,提取所述网页的第i个子标题以及第i个子标题的正文,并生成第i个文本文档,其中,第i个子标题作为第i个文本文档的标题,第i个子标题的正文作为第i个文本文档的正文,i=1、.....、n;
步骤S2、设定标题相似度阈值,对比任意两个所述文本文档的标题相似度,将所述文本文档聚类处理为多个聚类,每个所述聚类中任意两个所述文本文档的标题相似度大于等于标题相似度阈值,每个所述聚类以所述聚类中出现频率最高的标题作为所述聚类的名称;
步骤S3、统计各个所述聚类中所述文本文档的数量,根据各个所述聚类中所述文本文档数量由多至少顺序对各个所述聚类排序,选取前m个所述聚类的名称作为所述待撰写特定稿件的子标题,其中,m=(n1+n2+.....+nk)/k,k表示从网络爬取所述网页的数量,nk表示第k个网页的子标题数量;
步骤S4、通过TF-IDF算法分别对前m个所述聚类中的所述文本文档进行处理,获取每个所述聚类中所述文本文档的特征词,将所述聚类中的所述文本文档建立向量空间模型VSM,利用MI对向量空间模型VSM进行降维处理,选取提供给机器学习分类器的有效特征;
步骤S5、经过步骤S4处理的前m个所述聚类,将每个所述聚类对应唯一一个所述机器学习分类器,将每个所述聚类中的所述文本文档分成两个部分,其中,对一部分所述文本文档进行标注,训练所述机器学习分类器;另一部分所述文本文档用于测试训练过的所述机器学习分类器,得到相应的错误率,根据错误率对所述机器学习分类器进行调整;
步骤S6、构造所述待撰写特定稿件的查询语句,根据所述查询语句从网络爬取备选内容,将经过调整的所述机器学习分类器对爬取的所述备选内容的段落进行分类,输出形成初稿文章;
步骤S7、所述机器学习分类器对所述备选内容进行分类,输出形成所述初稿文章时,根据所述备选内容中的段落被所述机器学习分类器判定作为该所述机器学习分类器输出的概率,所述机器学习分类器对输出的段落进行评分,且将该段落的分数作为该段落内每个句子的分数;
根据所述初稿文章中各个句子的分数,建立目标函数和第一约束条件,通过ILP处理器对所述初稿文章语句进行整合,形成终稿文章;
其中,
目标函数为:
式中,表示句子指示变量,表示句子的分数,si表示句子编号。
第一约束条件为:
式中,和分别表示两个句子。
进一步地,步骤S2中,采用Levenshtein算法计算任意两个所述文本文档的标题相似度。
进一步地,步骤S2中,所述相似度阈值为0.5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于李鹏,未经李鹏许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611207712.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:对应库中的指令对应库
- 下一篇:一种广告拦截方法及移动终端