一种汽车企业客户流失建模与分析方法

专利类型：发明专利

语言：中文

申请号：CN201710994836.1

申请日：20171023

发明人：胡朝晖牟必清吴劲浩吴映波王旭景笑飞幸杰鄢孟娟于丹戴翔胡渝虹胡林海姚建丰刘民娜

申请人：重庆长安汽车股份有限公司重庆大学

申请人地址：400023 重庆市江北区建新东路260号

公开日：20180501

公开号：CN107977853A

代理人：王翔

代理机构：重庆大学专利中心 50201

摘　　要：本发明公开了一种汽车企业客户流失建模与分析方法，主要步骤如下：1)构建汽车企业客户流失模型需要的变量。所述变量通过降维产生；降维方法主要包括主成分分析法、SOM网络学习算法和FCM聚类法。2)降维后的变量去解释原来的大部分变量，从而将相关性很高的变量转化成彼此相互独立或不相关的变量。3)所述彼此相互独立或不相关的变量制成样本集。4)利用Boosting算法输出的强分类器H(x)对所述汽车企业客户流失分析的分类回归树模型进行优化，得到汽车企业客户流失分析模型，从而分析汽车企业客户流失原因。

主权项：一种汽车企业客户流失建模与分析方法，其特征在于，主要包括以下步骤：1)构建汽车企业客户流失模型需要的变量；所述变量通过降维产生；降维方法主要包括主成分分析法、SOM网络学习算法和FCM聚类法；1.1)主成分分析法的主要步骤如下：1.1.1)确定分析变量，并采集所述分析变量的原始数据；采集出n个样本，每个样本有p个变量；所述n个样本和所述p个变量构成一个n×p型矩阵；1.1.2)对原始数据进行标准化处理，以消除量纲对数据处理的影响；标准化处理公式：y_ij＝x_ij?x_i/s_i?????(1)式中，y_ij为标准化后的变量值；x_ij为实际变量值；x_i为算术平均值；s_i为标准差；i为矩阵向量的行下标；j为矩阵向量的列下标；处理后的数据矩阵为： $Y_{n \times p} = [\begin{matrix} y_{11} & y_{12} & ... & y_{1 p} \\ y_{21} & y_{22} & ... & y_{2 p} \\ . & . & . \\ . & . & . \\ . & . & . \\ y_{n 1} & y_{n 2} & ... & y_{n p} \end{matrix}] - - - (2)$ 式中，n为样本个数；p为每个样本中的变量个数；1.1.3)计算特征根和响应的标准正交特征向量；相关系数矩阵Z为： $Z_{n \times p} = [\begin{matrix} z_{11} & z_{12} & ... & z_{1 p} \\ z_{21} & z_{22} & ... & z_{2 p} \\ . & . & . \\ . & . & . \\ . & . & . \\ z_{n 1} & z_{n 2} & ... & z_{n p} \end{matrix}] - - - (3)$ 式中，z_ij为原变量z_i与z_j的相关系数；i为矩阵向量的行下标；j为矩阵向量的列下标；n为样本个数；p为每个样本中的变量个数；z_ij＝z_ji?????(4) $z_{i j} = \frac{Σ_{k = 1}^{n} (y_{k i} - \overline{y_{i}}) (y_{k j} - \overline{y_{j}})}{\sqrt{Σ_{k = 1}^{n} (y_{k i} - \overline{y_{i}}) Σ_{k = 1}^{n} {(y_{k j} - \overline{y_{j}})}^{2}}} - - - (5)$ 式中，z_ij为原变量z_i与z_j的相关系数；i为矩阵向量的行下标；j为矩阵向量的列下标；y_ki和y_kiy_kj为标准化后的变量值；为y_ki的算术平均值；为y_ki的算术平均值；n为样本个数；整数k为任意样本，1≤k≤n；|λE?Z|＝0??????(6)式中，λ为矩阵Z的特征值；E为单位矩阵；Z为公式(3)表示的矩阵；根据公式(6)，可以求出矩阵Z的p个特征值，各主成分的方差贡献大小按特征根顺序递减排列；利用每个特征值λ_j解出方程组Zb＝λ_jb对应于每个特征值的特征变量b_j；式中，Z为公式(3)表示的矩阵；b为特征变量；λ_j为每一个特征值；1.1.4)计算主成分贡献率和累计贡献率；把所述p个变量y₁,y₂,...,y_p的总方差分解为p个独立的变量g₁,g₂,...,g_p的方差之和；第j个主成分y_j的方差贡献率为式中，λ_j为矩阵Z的每个特征值；j为主成分个数，j＝1,2,…,p；p为原始变量个数；第一主成分贡献率最大，即g₁综合原始变量的能力最强；g₂,g₃,...,g_p的综合能力依次递减；如果只取其中的m个主成分，那么这m个主成分的累计贡献率为： $Ψ_{m} = Σ_{k = 1}^{m} λ_{k} / Σ_{j = 1}^{p} λ_{j} - - - (8)$ 式中，λ_j是矩阵Z的每个特征值；j＝1,2,…,p；p为所述独立变量个数；λ_k是矩阵Z的所有特征值；整数k为任意样本，1≤k≤m；m为主成分个数；1.1.5)得到新的综合变量；即，式中，p为所述独立向量个数；y₁、y₂、y₃......y_p为标准化后的变量值；m为主成分个数；l₁₁、l₂₁、l₃₁......l_mp为主成分得分系数；1.2)SOM网络学习算法的主步骤如下：1.2.1)初始化；将小权值设置为初始的权值向量；设定学习效率的初值及学习总次数T；1.2.2)给SOM网络提供一个输入模式式中，x₁、x₂、x₃......x_h为输入，h为输入节点个数；a为输入样本个数；1.2.3)通过竞争，确定样本输出神经元中的获胜神经元；利用公式(10)计算欧式距离d_s； $d_{s} = | | X - W_{s} | | = \sqrt{Σ_{q = 1}^{N} (x_{q} (t) - W_{q s} (t))} - - - (10)$ 式中，d_s为输入样本q与输出神经元s之间的距离；X为输入矩阵；W_s为输出神经元与所有输入神经元之间连接的权向量；N为输入样本总数；1≤q≤N；x_q(t)为输入神经元的输入；t为时间；W_qs(t)为输入神经元与输出神经元的连接权值；根据计算得到的欧式距离d_s，找出最小值d_f；即：d_f＝min(d_s)??????(11)式中，d_s为欧式距离；j^*是欧式距离为d_f的输出神经元；j^*为样本输出神经元中的获胜神经元；1.2.4)利用公式(12)和公式(13)修正输出神经元j^*及其邻接神经元的权值；W_qs(t+1)＝W_qs(t)+η(t)(x_q(t)?W_qs(t))?????(12)式中，W_qs(t)为输入神经元与输出神经元的连接权值；x_q(t)为输入神经元的输入；η(t)是一个随时间变化逐渐减小到零的增益；t为时间；η(t)＝1/t??????(13)式中，t为时间；1.2.5)令t←t+1，重复步骤1.2.2至1.2.4，直到映射不再发生明显变化时停止训练，并输出聚类结果；1.3)FCM聚类的主要步骤如下：1.3.1)定义类别数c、模糊加权指数m_f和容许误差ε；其中，m_f∈[1,∞)；1.3.2)随机产生一个聚类中心w_r(u)；r为任意类别；u为循环次数，u←1；1.3.3)设置隶属度；设定一个含有A个样本的集合{x₁,x₂,…,x_A}；将所述A个样本划分为c类；V＝{v₁,v₂,…,v_c}表示所述c个类的中心；设矩阵U＝(u_IJ)_c×A，所述矩阵U的元素u_IJ表示J个样本属于第I类的隶属度；u_IJ满足公式(14)，即： $\begin{matrix} \forall J & Σ_{I = 1}^{c} u_{I J} = 1 \\ \forall I, j & u_{I J} \in [0, 1] \\ \forall I & Σ_{J = 1}^{A} u_{I J} > 0 \end{matrix}\} - - - (14)$ 式中，A为样本总数；J为任意样本，1≤J≤A；c为类的总数；I为任意类，1≤I≤c；u_IJ为J个样本属于第I类的隶属度；隶属度u_IJ计算公式如下： $u_{I J} = 1 / Σ_{u = 1}^{c} {(\frac{d_{I J}^{2} (x_{J}, c_{I})}{d_{u J}^{2} (x_{J}, c_{u})})}^{\frac{1}{m_{f} - 1}} - - - (15)$ 式中，u为循环次数，1≤u≤c；m_f为模糊加权指数；u_IJ为J个样本属于第I类的隶属度；x_J为模糊组J中的向量；c_I为第I类聚类中心；c_u为第u类聚类中心；d_IJ(x_J,c_I)为x_J和c_I的通用距离函数；d_uJ(x_J,c_u)为x_J和c_u的通用距离函数；1.3.4)利用公式(16)修正聚类中心； $w_{I} (u + 1) = \frac{Σ_{J = 1}^{A} {(u_{I J})}^{m_{f}} x_{J}}{Σ_{J = 1}^{A} {(u_{I J})}^{m_{f}}} - - - (16)$ 式中，u为循环次数；A为样本总数；J为任意样本，1≤J≤A；u_IJ为J个样本属于第I类的隶属度；m_f为模糊加权指数；x_J为模糊组J中的向量；1.3.5)利用公式(17)计算误差； $e = Σ_{I = 1}^{c} {| w_{I} (u + 1) - w_{I} (u) |}^{2} - - - (17)$ 式中，c为类的总数；I为任意类，1≤I≤c；u为循环次数；w_I(u+1)为修正后的聚类中心；w_I(u)为修正前的聚类中心；1.3.6)如果e＜ε，算法结束；如果e＞ε，则令u←u+1，并重复步骤1.3.3至步骤1.3.5；其中，ε为理论误差；u为循环次数；1.3.7)算法结束后，根据得到的隶属度矩阵确定数据所属的类，显示最后的聚类结果；1.3.8)得到目标函数式： $\min J (U, V) = Σ_{I = 1}^{c} Σ_{J = 1}^{A} {(u_{I J})}^{m_{f}} {(d_{I J})}^{2} - - - (18)$ 式中，A为样本数；c为聚类类别个数,c∈[2,A]；u_IJ为第J个样本属于第I类的隶属度；d_IJ为第J个样本和第I类聚类中心之间的距离；m_f为模糊加权指数，m_f∈[1,∞)；2)用降维后的变量去解释原来的大部分变量，从而将相关性很高的变量转化成彼此相互独立或不相关的变量。3)将所述彼此相互独立或不相关的变量制成样本集4)利用CART算法和Boosting算法，将所述样本集建立为汽车企业客户流失模型，从而对汽车企业客户流失问题进行分析；主要包括以下步骤：4.1)构造CART决策树，即建立汽车企业客户流失分析的分类回归树模型；4.1.1)将所有样本集做为根节点；4.1.2)通过分割函数选择分割变量，并确定分割阀值S_i的值；4.1.3)采用Gini指数法对P维空间的节点进行分割，从而将P维空间分为两个部分；P维空间一部分包含的点都满足X_i≤S_i，另一部分包含的点满足X_i＞S_i；即得到根节点下面的2个子节点；其中，X₁,X₂,...,X_p表示解释变量；S_i为分割阀值；4.1.4)通过再次选择分割变量和分割阀值，将步骤4.1.2和步骤4.1.3中得到的每个子节点以同样的方式再划分成两部分；4.1.5)重复步骤4.1.2至步骤4.1.4，直至把整个P维空间划分成互不重叠的小矩形，从而减小子节点的不纯度Gini不纯度表达式： $Q = 1 - Σ_{K = 1}^{C} P_{K}^{2} - - - (19)$ 式中，C为类的总数；K为任意类，K＝1,2,...,C；P_K为观测点中属于类K的比例；4.2)对CART决策树剪枝；4.2.1)利用成本复杂性标准产生连续的、节点数目减少的序列树；成本复杂性标准为：Err(F)+α|L(F)|????????(20)式中，Err(F)为验证数据被CART决策树误分的部分；|L(F)|为树F的叶节点数；α为每个节点的惩罚成本，α∈[o,+∞)；通过不断增加α值，产生连续的、节点数目减少的序列树；4.2.2)获得最优树；当剪枝序列含有的误差在最小错误树的一个标准差之内时，停止修剪，此时获得最优树；最小误差率是一个带有标准差的随机变量的观测值，表达式为 $\sqrt{B_{m i n} (1 - B_{m i n}) / S} - - - (21)$ 式中，B为错误率；B_min为最小错误树的错误率；S为验证数据集的数目；4.3)根据CART算法和训练集(X₁,Y₁),(X₂,Y₂),...,(X_ρ,Y_ρ)，对训练集的分布进行初始化；训练集的分布表示如下：D₁(θ)＝1/ρ??????(22)式中，θ为任意训练集序号；ρ为训练集个数；进行G轮训练；在G轮循环中，CART算法在权值D_t下训练，得到弱分类器h_t；计算所述弱分类器h_t在所述权值D_t下的错误率： $ξ_{t} = Σ_{θ = 1}^{S} D_{t} (X_{θ}) [h_{t} (X_{θ}) \neq Y_{θ}] - - - (23)$ 式中，S为验证数据集的数目；θ为任意训练集序号；X_θ和Y_θ为序号θ对应的训练集；D_t(X_θ)为X_θ对应的权值；h_t为弱分类器；利用所述错误率ξ_t更新权值：D_t+1(θ)＝D_θ(t)exp(?α_tY_θh_t(X_θ))/Z_t?????(24)式中，D_i(t)为更新前的权值；α_t为误差率增益值；h_t为弱分类器；X_θ和Y_θ为序号θ对应的训练集；Z_t为标准化因子； $α_{t} = \frac{1}{2} l o g (\frac{1 - ξ_{t}}{ξ_{t}}) - - - (25)$ 式中，ξ_t为所述弱分类器h_t在所述权值D_t下的错误率；当h_t(x_θ)＝y_θ时，y_θh_t(x_θ)＝1；当h_t(x_θ)≠y_θ时，y_θh_t(x_θ)＝?1；其中，X_θ和Y_θ为序号θ对应的训练集；h_t为弱分类器；最后输出强分类器：式中，θ为任意训练集序号；G为训练轮数；h_t为弱分类器；x为训练集中的向量数据；5)利用步骤4输出的强分类器H(x)对所述汽车企业客户流失分析的分类回归树模型进行优化，得到汽车企业客户流失分析模型，从而分析汽车企业客户流失原因。

关键词：企业客户;汽车;降维;建模;分析;主成分分析法;分类回归树;分析模型;强分类器;网络学习;样本集;构建;算法;输出;优化;转化

法律状态：

IPC专利分类号：G06Q30/02(2012.01)I,G06K9/62(2006.01)I,G06N3/08(2006.01)I