专利类型:发明专利
语 言:中文
申 请 号:CN201610340166.7
申 请 日:20160520
申 请 人:重庆大学
申请人地址:400044 重庆市沙坪坝区沙坪坝正街174号
公 开 日:20161026
公 开 号:CN106056134A
代 理 人:武君
代理机构:北京汇泽知识产权代理有限公司 11228
摘 要:本发明公开了一种基于Spark的半监督随机森林分类方法,利用随机森林算法在训练数据集合上采用有放回抽样,列属性上也采用有放回抽样,因此在行方向和列方向都加入了随机性,既保证了决策树的多样性,又不需要进行树剪枝,而且采用投票法决定类别,准确率大大提高。因此,本发明提供的随机森林算法在处理高维数据样本时不需要进行降维。不管是对于稀疏向量和稠密向量随机森林算法都具有很好的效果。经过多组实验验证,本发明提供的半监督学习算法降低了分类模型错误率均值;提升了计算性能。
主 权 项:一种基于Spark的半监督随机森林分类方法,其特征在于:包括以下步骤:S1:将标签训练样本切分为第一二标签训练样本并用第一训练样本训练第一随机森林模型第二随机森林模型
和第三随机森林模型
S2:针对第一随机森林
根据第二随机森林
和第三随机森林
对第二标签训练样本进行分类,如果第二随机森林
和第三随机森林
的分类结果相同且都不等于标签值,则错误数加一;计算标记错误率
S3:根据第二随机森林
和第三随机森林
对无标签数据集U进行分类,如果分类结果相同则进行类别标注,如果不同则删除,得到带标签数据集
S4:判断错误率是否满足条件:
如果是,则进行步骤S6;如果否,则将第一随机森林hi改为第一随机森林
的上一轮的值;S5:设置带标签数据集
的初始值:S6:判断带标签数据集是否满足公式:
如果是,则进行步骤S8;如果否,则对第一随机森林hi不做更新;S7:判断是否满足公式:
如果是,则进行步骤S9;如果不满足
但满足
则进行步骤S10,如果都不满足则第一随机森林hi不做更新;S8:根据公式
计算并重新训练第一随机森林hi;S9:从带标签数据集
中无放回抽样,抽出数量满足公式
抽出的样本子集作为
然后同步骤S9重新训练第一随机森林hi;S10:当第一随机森林模型
第二随机森林模型
和第三随机森林模型
都不进行更新的时候结束半监督学习分类模型训练,否则回到步骤S2继续重复训练;S11:利用第一随机森林模型
第二随机森林模型
和第三随机森林模型
对测试样本进行分类。
关 键 词:
法律状态:生效
IPC专利分类号:G06K9/62(2006.01)I