浏览量:0

一种基于多级规则库的信息提取方法及装置

专利类型:发明专利 

语 言:中文 

申 请 号:CN201410227611.X 

申 请 日:20140527 

发 明 人:张可柴毅马号刘建环田甜 

申 请 人:重庆大学 

申请人地址:400044 重庆市沙坪坝区沙坪坝正街174号 

公 开 日:20140806 

公 开 号:CN103970898A 

代 理 人:龚燮英 

代理机构:北京众合诚成知识产权代理有限公司 11246 

摘  要:一种基于多级规则库的信息提取方法,通过6个步骤实现信息提取:1)获取网页URL地址;2)下载URL地址对应的网页;3)获得网页树型结构图;4)进行网页聚类,从待聚类网页中选取网页作为训练集,通过机器学习方法定义网页的聚类规则;5)搜索结果提取;6)信息汇总显示。其中步骤3)生成网页树型结构和步骤4)中的网页聚类后,检索到的信息查全率可以有效提高,而聚类规则由训练集的方式,通过机器学习自动生成,不需要人工手动聚类,有效提高了搜索的自动化程度,在保证了查全率的前提下,具有大面积使用的条件。本发明所述基于多级规则库的信息提取装置,为信息提取流程提供了硬件基础,其价格便宜,适合大规模使用。 

主 权 项:一种基于多级规则库的信息提取方法,其特征在于,所述方法包括以下步骤:1)输入搜索关键字,获取所有与关键字相关的网页URL地址;2)根据步骤1)中获取的网页URL地址,下载URL地址对应的网页;3)对步骤2)中下载的网页进行预处理,获得网页树型结构图;4)根据步骤3)中得到的网页树型结构图,进行网页聚类,从待聚类网页中选取网页作为训练集,通过机器学习方法获取网页模板并定义网页的聚类规则;5)搜索结果提取,根据输入的关键字,采用XPath规则定位节点,再采用XSLT规则进行信息提取;6)根据步骤5)中提取到的结果,对不同类型网页中提取到的信息进行汇总显示。 

关 键 词: 

法律状态:生效 

IPC专利分类号:G06F17/30(2006.01)I