专利类型:发明专利
语 言:中文
申 请 号:CN201410227611.X
申 请 日:20140527
申 请 人:重庆大学
申请人地址:400044 重庆市沙坪坝区沙坪坝正街174号
公 开 日:20140806
公 开 号:CN103970898A
代 理 人:龚燮英
代理机构:北京众合诚成知识产权代理有限公司 11246
摘 要:一种基于多级规则库的信息提取方法,通过6个步骤实现信息提取:1)获取网页URL地址;2)下载URL地址对应的网页;3)获得网页树型结构图;4)进行网页聚类,从待聚类网页中选取网页作为训练集,通过机器学习方法定义网页的聚类规则;5)搜索结果提取;6)信息汇总显示。其中步骤3)生成网页树型结构和步骤4)中的网页聚类后,检索到的信息查全率可以有效提高,而聚类规则由训练集的方式,通过机器学习自动生成,不需要人工手动聚类,有效提高了搜索的自动化程度,在保证了查全率的前提下,具有大面积使用的条件。本发明所述基于多级规则库的信息提取装置,为信息提取流程提供了硬件基础,其价格便宜,适合大规模使用。
主 权 项:一种基于多级规则库的信息提取方法,其特征在于,所述方法包括以下步骤:1)输入搜索关键字,获取所有与关键字相关的网页URL地址;2)根据步骤1)中获取的网页URL地址,下载URL地址对应的网页;3)对步骤2)中下载的网页进行预处理,获得网页树型结构图;4)根据步骤3)中得到的网页树型结构图,进行网页聚类,从待聚类网页中选取网页作为训练集,通过机器学习方法获取网页模板并定义网页的聚类规则;5)搜索结果提取,根据输入的关键字,采用XPath规则定位节点,再采用XSLT规则进行信息提取;6)根据步骤5)中提取到的结果,对不同类型网页中提取到的信息进行汇总显示。
关 键 词:
法律状态:生效
IPC专利分类号:G06F17/30(2006.01)I