基于lassalancedoss修正交叉熵非均衡样本信用风险评价模型

杨莲1,2,石宝峰1,2,董轶哲3

YANG Lia1,2,SHI Baofeng1,2, DONG Yizhe3

摘要: 针对传统信用风险预测模型存在对非违约样本识别过度、对违约样本识别不足的问题,将平衡损失CassBaanced Loss函数引入信用风险评价,构建CassBaancedLoss修正交叉熵的非均衡样本信用风险评价模型。利用所建模型与交叉熵神经网络、支持向量机、决策树、随机森林和K最近邻5种分类模型进行对比,验证BPNN-CBCE对中国某金融机构1 534笔农户贷款数据信用风险预测的有效性;在此基础上,利用UCI公开的德国信贷数据验证BPNN-CBCE模型的稳健性。研究表明,对于农户数据, BPNN-CBCE模型在AUC违约召回率Default recall方面普遍优干BPNN-CE、SVM、DT、RF和KNN模型。其中,BPNN-CBCE的Default recall相比5种对比模型提升了41.3个百分点,AUC相比5种对比模型提升了15.6个百分点: 对于德国数据集,BPNN-CBCE评级模型在AUC违约召回率Default recall方面也均优于5种对比模型。因此,BPNN-CBCE信用评价模型对农户不均衡信贷数据中的违约样本具有较好的识别能力,可有效降低金融机构客户误判带来的损失。创新与特色:(1)利用CassBalanced Loss中的平衡因子w,增大违约样本在目标损失中的权重,降低非违约样本在目标损失中的权重,客观调节正负样本损失在目标损失中权重,弥补交叉熵承数无法调节两类样本损失权重的缺陷,克服由样本不均衡带来的评价模刑对非讳约样本识别讨度、对讳约样木识别不足。(2)通讨考虑数据重叠,利用随机覆盖方法,分别对贷款数据中讳约,非违约样本进行不放回采样,以对全样本空间X违约、X非违约进行不重叠覆盖,计算两类贷款客户的有效样本数量。既反映由于真实数据之间的内在相似性,随着样本数量的增加,新添加样本很可能是现有样本近似重复的客观事实,也保证基于有效样本对两类样本损失进行重新加权的客观性。将图像识别领域中的Class Balanced Loss函数引入信用评价领域,既拓展了ClassBalanced Loss的使用边界,也为解决不均衡样本的信用风险评价提供了新的研究思路。

Abstract: To address the problem that imbalanced credit scoring data sets lead to over-recognition for non-default samples and under-recognition for default samples, this paper creates a novel credit risk evaluation model by introducing the class balanced loss function. It compares the BPNN-CBCE (back propagation neural network-class balanced cross entropy) with the BPNN-CE (back propagation neural network-cross entropy), the SVM (support vector machines), the DT (decision tree), the RF (random forest), and the KNN (K-nearest neighbor) to verify the effectiveness of the BPNN-CBCE model in predicting the credit risk of 1 534 farmers, loan data of a financial institution in China. In addition, it tests the robustness of the BPNN-CBCE model by using the German credit data published by UCI (University of California). The results show that for farmers, loan data, the default recall of the BPNN-CBCE is 41. 3% higher than those of other models, and the AUC (area under curve) of the BPNN-CBCE is 15. 6% higher than those of other models. For German credit data, the BPNN-CBCE model is also better than the BPNN- CE, the SVM, the DT, the RF and the KNN models in AUC and default recall, Therefore, the BPNN- CBCE credit risk evaluation model has a good ability to identify the default samples in the imbalanced credit data of farmers, and can reduce the losses caused by misjudgment of default customers by financial institutions. This paper is contributive because the balance factor ω in class balanced loss is used to adj ust the weight of non-default and default samples loss in target loss, which compensates for the defect that the cross-entropy loss function cannot adjust the weight? and overcomes the excessive recognition of non-default samples and the insufficient recognition of default samples caused by the sample imbalance. In addition, the random covering method is used to sample non-default or default samples without putting them back until the whole sample space Xnon-defauit or Xdefault is fully covered, and the number of effective samples for non-default or default loan customers is calculated. Moreover, the use boundary of class balanced loss expanded, providing new ideas for solving the credit risk evaluation of imbalanced samples. This research method has a good robustness and can be directly applied to the credit risk assessment of financial institutions.

中图分类号:

杨莲, 石宝峰, 董轶哲. 基于Class Balanced Loss修正交叉熵非均衡样本信用风险评价模型[J]. 系统管理学报, 2022, 31(2): 255-269.

YANG Lia, SHI Baofeng, DONG Yizhe. A Credit Risk Evaluation Model for Imbalanced Data Classification Based on Class Balanced Loss Modified Cross Entropy Function[J]. Journal of Systems & Management, 2022, 31(2): 255-269.

THE END
0.机器学习支持向量机模型建立支持向量机模型,并给出具体的过程。2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 实验结果 机器学习---支持向量机模型 1.导入所需的包,生成本次实验的数据以及数据分布图 fromjvzquC41dnuh0lxfp0tfv8|gkzooa=9478>7:8ftvkimg8igvcomu86345>4:<8
1.SVMMY:构建高效扫描与检测工具2. SVM训练流程详解 2.1 SVM模型的基本概念 2.1.1 支持向量机的原理 支持向量机(Support Vector Machine, SVM)是一种二分类模型,它的基本模型定义为特征空间上间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为jvzquC41dnuh0lxfp0tfv8|gkzooa=78279:98ftvkimg8igvcomu86699;46;>
2.支持向量机|菜鸟教程支持向量是离超平面最近的样本点。这些支持向量对于定义超平面至关重要。 支持向量机通过最大化支持向量到超平面的距离(即最大化间隔)来选择最佳的超平面。 最大间隔: SVM的目标是最大化分类间隔,使得分类边界尽可能远离两类数据点。这可以有效地减少模型的泛化误差。 jvzquC41o0xvpxtd0eun1vq1on3txv3jvor
3.深度学习的开胃菜——常用的机器学习知识梳理AI浩1.16.21 常见的类别不平衡问题解决方法 1.17 决策树 1.17.1 决策树的基本原理 1.17.2 决策树的三要素? 1.17.3 决策树学习基本算法 1.17.4 决策树算法优缺点 1.17.5 熵的概念以及理解 1.17.6 信息增益的理解 1.17.7 剪枝处理的作用及策略 1.18 支持向量机 1.18.1 什么是支持向量机 1.18.2 支持向量 jvzq<84|jcthuqn{w0ipo8uquv536@820jznn
4.下一篇:变电站的运行管理制度供应商信用管理范文平衡记分卡法的思路认为:以企业的战略和远景目标为核心,把企业的长远目标具体化为企业的行动策略,即根据表一中的指标体系数据,应用层次分析法构建YC信用管理绩效的层次结构模型,组织行业专家利用层次分析法关键词:政府采购;信用分析;支持向量机 Abstract:Support Vector Machines (SVM) based on structural riskjvzquC41yy}/i€~qq0ipo8mcqyko1:>2349/j}rn
5.MATLAB实现基于支持向量机(SVM)进行多特征分类预测的详细项目实例MATLAB实现基于支持向量机(SVM)进行多特征分类预测的详细项目实例 1 项目背景介绍 1 项目目标与意义 2jvzquC41ddy/rrsiiw4ptp4vjtkbf668548:::23/34ivvq
6.机器学习中样本不平衡,怎么办?在处理诸如此类的样本不均衡的任务中,使用常规方法并不能达到实际业务需求,正确且尽可能多捕获少数类样本。因为样本不均衡会使得分类模型存在很严重的偏向性。本文中,介绍了在机器学习中样本不平衡处理策略及常用方法和工具。 在银行要判断一个"新客户是否会违约",通常不违约的人VS违约的人会是99:1的比例,真正违约jvzquC41yy}/7:hvq0ipo8ftvkimg8<2:3960qyon
7.支持向量机详解Svm(support Vector Mac)又称为支持向量机,是一种二分类的模型。当然如果进行修改之后也是可以用于多类别问题的分类。支持向量机可以分为线性核非线性两大类。其主要思想为找到空间中的一个更够将所有数据样本划开的超平面,并且使得本本集中所有数据到这个超平面的距离最短。 jvzquC41dnuh0lxfp0tfv8iaa9<11jwvkerf1mjvckrt1A55:9:44
8.机器学习算法之支持向量机向量支持机本文介绍支持向量机(SVM)算法,它是二分类算法,能造最大间距决策边界,提高分类鲁棒性。阐述基于最大间隔分割数据的线性模型、超平面和支持向量概念,详细讲解线性可分、线性、非线性SVM算法原理,还进行SVM手写体识别实验,并总结SVM与Logistic回归的区别与联系。 目录 一、前言 二、基于最大间隔分割数据 2.1线性模型 三、算法原理 3.jvzquC41dnuh0lxfp0tfv8r2a8862:5221gsvrhng1jfvjnnu17479;22:<
9.机器学习SVM算法介绍及应用消费金融风控联盟支持向量机(SVM)是一种 二分类模型 ,可以处理线性和非线性的 分类问题 。jvzquC41yy}/uqfpi{kykwjk0ipo8ftvkimg8<5:87937mvon
10.基于全景病理图像细胞密度和异型特征的胶质瘤自动分级首先分析全局细胞密度定位感兴趣区域(ROI),提取全扫描图像的全局密度特征,然后对感兴趣区域提取局部密度特征和异型特征,最后利用特征选择并构建平衡权重的支持向量机(SVM)分类器,5折交叉验证的受试者工作特性曲线下的面积(AUC)为0.92 ± 0.01,准确率(ACC)为0.82 ± 0.01。实验结果表明,本文提出的感兴趣区域定位方法jvzquC41yy}/vlxwti4ptp4ctvodnn4320=62@43227.7>670463398272
11.机器学习中最常见的四种分类模型一对一:为每对类别拟合一个二分类模型。 可以使用这些策略进行多分类的二分类算法包括: 逻辑回归(Logistic Regression) 支持向量机(Support Vector Machine) 接下来,让我们仔细看一下数据集,通过实践和思考来训练出对多类分类问题的直觉。 我们可以使用make_blobs()函数[6]生成一个综合的多类分类数据集。 jvzquC41fg|fnxugt0gmk‚zp0eun1jwvkerf1::;:494
12.基于深度学习的源代码缺陷检测研究综述深度学习方法应用于源代码缺陷检测在数据集构建和模型设计方面依然面临众多挑战. 本综述即聚焦于基于深度使用支持向量机对其进行分类. 但该类方法在效率与效果上均存在较大的不足: 一方面, 大多数机器学习方法再由2人逐一对查询结果的标题、摘要进行人工审查, 过滤不使用深度学习方法的无关内容, 在出现分歧时共jvzquC41yy}/lxx0qtm/ew4jvor0497514578B;0jvs
13.机器学习算法篇支持向量机原理在模型训练时自动求解 如果ξᵢ = 0 → 该样本完全分类正确; 如果0 < ξᵢ < 1 → 样本在“间隔区”内,但仍然在正确一侧; 如果ξᵢ > 1 → 样本被误分类(落到错误一侧)。 训练支持向量机就是不断选取C的值,最后寻找最好超平面,随着C的不断增大,超平面划分地越加仔细。 jvzquC41dnuh0lxfp0tfv8|gkzooa?8::8>548ftvkimg8igvcomu8675;<45=: