您的当前位置:首页正文

探索可视化数据挖掘技术在信贷政策导向效果评估中的应用

2024-04-08 来源:爱go旅游网
信息产业 ・137・ 探索可视化数据挖掘技术在信贷政策导向效果评估中的应用 姚玉安 (中国人民银行孟津县支行,河南孟津471 1O0) 摘要:数据挖掘技术的崛起与发展为银行业的信息化建设提供了一个新的起点,在美国金融领域已经得到了普遍应用。本文将可 视化技术与数据挖掘技术相结合,产生了可视化数据挖掘技术,把快速、自动的数据挖掘算法与人脑的认知能力、判断能力结合起来,可 以大大提高数据挖掘过程的质量和速度。 关键词:可视化;数据挖掘;信贷政策 i船∞∞ 随着数据库技术和计算机网络的不断发展及数据库管理系统的广 i2。。。.∞ 泛应用,数据量急剧增大,在这些大量的数据背后隐藏着许多重要信 息,怎样用来分析大量、复杂的数据呢?计算机科学回答是:数据挖掘。 i ∞ 由于数据挖掘技术本身的复杂性,一般用户很难掌握,得到的结果也很 S 『伽 难理解,但是由于人们对图形和图像表现方式,更加容易理解和接受, 《∽。。 因而使用可视化技术作为服务成为计算机与用户之间的沟通纽带,为 4啪 ∞ 用户提供关于数据和知识的直观信息。使用适当的可视化技术,可以帮 2 ∞ 助用户更紧密地与整个数据挖掘过程相结合,解决数据挖掘系统中存 0∞ 在的一些问题。时间序列数据的可视化可以将预测的结果非常形象直 2010j凇0 S 2髓0 2吼0址2驰1 3 2∞l E黜I 9 2。王:j2 2抛2 ;∞i2 S 2∞2 2观2皿 观地呈现在用户面前,比单纯的数据提供给用户要更加容易让用户理 -p_实际涉表贷款数据建势 + 解和接受。 1数据挖掘概述 图1涉农贷款实际数据与预测数据对比图 数据挖掘是采用数学的、统计的、人工智能和神经网络等领域的科 些类或簇中的数据对象之间相似,不同类或簇中的数据对象之间相异, 学方法,从大量的数据中挖掘或抽取出有用的信息。从技术角度看,数 相似或相异可以根据某种度量标准来确定。因子分析是对大量数据分 据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中, 析后,发现许多变量之间存在一定的相关关系。 提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的复 3可视化数据挖掘技术在涉农信贷政策导向效果评估中的应用 杂过程。 在评估过程中,首先对收集到的数据集进行预处理,实现可视化,便 数据挖掘的工作过程一般由确定挖掘对象、数据准备、模型建立、 于理解和认识。如用柱形图显示某个金融机构以季度为时点某类贷款 数据挖掘、结果分析表述和挖掘应用这几个主要阶段组成,可以描述为 余额,用面积图显示各参评机构涉农贷款份额占比等等。然后对数据集 几个阶段的反复过程。数据准备阶段包括数据集成、数据选择、数据预 进行深层次的聚类分析和因子分析,采用快速聚类分析法来设置聚类 处理和数据转换;数据挖掘过程包括数据挖掘方法、选择数据挖掘算 数目,如根据金融机构的数量,涉农贷款各种贷款余额表等进行不同分 法、数据挖掘;结果分析表述和挖掘应用包括结果表达、结果评价、知识 类。在对各个金融机构进行了聚类,还有必要通过因子分析对每—个金 巩固。 融机构进行分析。 数据挖掘主要功能包括分类和预测、聚类分析、关联分析、时间序 根据目前的《涉农信贷政策导向效果评估定量指标评Yl-7 ̄法》评分 列分析等。常用数据挖掘技术可以分成统计分析类、知识发现类和其他 计算方法,因子得分系数公式:f 一 … 、 类型等三大类。 j 二百‘ … { !: (1)统计分析类,统计分析技术中使用的数据挖掘模型有线陛分析 .f|Y B)  }fm(D) 和非线性分析、逻辑回归分析、变量分析、时间序列分析、最近邻算法和 }o. ( 近三年无变化,唧 =M娃(D)=8=^“,“D) 聚类分析技术等。利用这些技术可以检查那些异常形式的数据,然后利 x为指标值,B为近三年的余额占比平均值,D为近三年的余额占 用各种统计模型和数学模型解释这些数据,解释隐藏在这些数据背后 比数据集。从公式发现因子变量之间存在一定的相关关系,通过绘制 的规律。(2)知识发现类,知识发现类数据挖掘技术,可以从数据仓库的 XY散点图发现因子得分系数在卜1,1随同内,因子得分系数越高,说明 大量数据中筛选信息,发现人们所不知的知识。知识发现类包含人工神 哪个金融机构执行信贷政策越好,反之执行信贷政策越差。因子得分系 经网络、决策树、遗传算法、粗糙集、规则发现和关 l顷序等。(3)其他数 数为1,说明评估年份的指标值在近三年内的数值最大,因子得分系数 据挖掘技术,包含文本数据挖掘、WEB数据挖掘、分类系统、可视化系 为一1,说明在近_一年内的数值最小。如果涉农信贷数据一直处于上升趋 统、空间数据挖掘和分布式数据挖掘等。 势因子得分每个年份都是l,那么在实际上就不能说明该机构对国家的 2数据挖掘可视化的必要性 宏观政策、信贷货币政策和产业政策执行的好。盲目地扩大贷款规模, 利用可视化方法可以将数据、信息和知识转化为图形、图像、动画 评估结果就是优秀,这完全不符合国家货币政策,因此选择评估模型非 等可视化的形式表示,以便能够反映出其他表现方式不能表现出的数 常重要。 据信息。可视化是利用人的视觉系统来帮助分析、解释数据,可以快速 目前国际上对于时间序列数据挖掘研究已成为一个新的热点,主 高效地与大量数据打交道,以发现其中隐藏的特征、关系、模式和趋势 要集中在相似搜索和模式挖掘等方面上。相似搜索主要包括子序列匹 等,可以弓【导出新的预见和更高效的决策。 配和整体序列匹配,子序列匹配是指在时间序列集中找出与给定时间 可视化数据挖掘是把可视化技术应用到数据挖掘的各个阶段,包 序列相似的所有时间序列,而整体序列匹配是指找出时间序列集中彼 括:(1)数据预处理阶段,以图形的方式提供一个数据的可视印象,如面 此间相似的序列。基于时间序列数据的相似性测试方法,常采用欧几里 积图、直方图、散点图、圆环图、折线图、饼图、误差图和箱式图等,给用 德距离测量法,容易计算、易于理解,可以用于索引和聚类等数据挖掘, 户一个大体直观感觉,帮助用户确定从何处着手进行挖掘;(2)数据挖 欧几里得距离计算公式为 掘实施阶段,借助人脑的探索分析能力寻找发现模式,使用户与数据挖 E CLⅡ)= 掘系统进行良好的沟通,对显示的图形实时作出准确判断;(3)数据挖 掘最后阶段,使用户能够更好地理解挖掘出的结果模式或其中包含的 模式挖掘可以分为时态模式和趋势预测,时态模式挖掘是用一个 信息。 时间窗口在时间序列上滑动形成子序列,然后通过相似性测量对子序 可视化数据挖掘最常用的相关技术有聚类分析和因子分析,聚类 列聚类,然后采用规则生成方法发现序列中模式的行为和时间的关系。 分析是将数据对象集分组为由相似数据对象组成的若干个类或簇,这 趋势预测是指通过挖掘静态模式对时间序列的行为发(下转60页1 ・60・ 科技论坛 Wave RUmber/cm‘ 。图2 A,B、C、D、E分别为搅拌时间40min、1h、1.5h、2h、2.5h 红外光谱图在l 100era 和1600cm一处都出现了两个明显的振动吸收 峰,这两个吸收峰可分别归属于C—O—C键和C=O键的特征峰。由于 C—O—C键与Ti—O—Ti键的共同作用,使C—O—C键的一个C原子被Ti 原子取代而形成新的Ti—O—C键。从而令碳纳米管与TiO 复合的更加 牢固。在3300cm- 未形成O—H键的明显的衍射峰,但是随着搅拌时间 增加曲线弯曲程度逐渐变大。说明复合材料样品表面有少量的0一H亲 水基团。搅拌时间过短导致钛酸丁酯未完全吸附水解使TiO 与碳纳米 管之间难以形成有效的化学键。结果表明样品中TiO 与碳纳米管通过 化学键牢固的结合在一起形成复合材料。 3 TiO /碳纳米管复合材料光催化效率实验 采用甲基橙的光催化降解:在自制的光催化反应器中进行光催化 反应。向甲基橙溶液中加入—定量的复合材料样品,搅拌使其构成悬浮 体系,在150W紫外灯的照射下进行光催化降解反应,光照一段时间后 离心取出上层清液,采用721型分光光度计,在甲基橙的最大吸收波长 ( =464.8)测定试样的光密度值。根据浓度和吸收强度的关系: /ao=G/Co(c0为反应底物的起始浓度;Ao为反应底物起始浓度对 应的吸光度; 为反应底物在反应过程中任意时段的浓度;4为反应 底物在任意时段的浓度对应的吸光度),浓度的变化可由反应底物的吸 收峰强度(即吸光强度Absorbance)来间接表示。由最后结果绘制曲线 如图3。 结果分析:由图像看出所有样品对甲基橙的降解率都有明显的上 升趋势,但是曲线的上升幅度和最终的降解率有所不同,A曲线的降解 率大概为81%左右,E曲线的最终降解率为98%左右,并且E曲线的上 升幅度较大,其余曲线属性居中。与前面结果相符合,搅拌时间适中使 碳纳米管吸收充分,但过长搅拌时间容易导致碳纳米管结构损伤降低 吸附量。 4结论 利用钛酸丁酯在碳纳米管内水解成功地制备出了碳纳米管/TiO 复合材料,通过不同的表征及对甲基橙的光催化降解考察了不同搅拌 时间对合成结果的影响,研究结果表明,搅拌时间过短将导致钛酸丁酯 图3 不能完全吸附在碳纳米管的表面和孔道中,在转化为TiO:的过程中由 A、B、C、D、E、分别为搅拌时间40min、1 h、1.5h、2h、2.5h 于缺少空间限制,使TiO 发生团聚,间接导致与目标污染物接触面积减 型,复合在碳纳米管中的TiO 颗粒均为锐钛矿晶型。随着水解搅拌时间 少,降低了光催化效率,若搅拌时间过长,容易破坏碳纳米管的管状结 增加到2h,碳纳米管中TiO 的特征衍射峰强度增加且峰形逐渐尖锐。 构使介孔变少,降低了钛酸丁酯的负载率,最终导致光催化效率降低。 根据XRD衍射的图谱特 分析TiO:结晶度越来越高,且TiO 的含量 当搅拌时间控制在2h左右,有效的使钛酸丁酯吸附在碳纳米管的孔道 越来越大,由此说明随着搅拌时间的增加钛酸丁酯在孔道中吸附量高, 中,介孔空间成功限制了TiO 的形成,减少了团聚现象的发生,提高了 最终在碳纳米管的表面和孔道中形成锐钛矿晶型TiO 。当时间增加到 催化剂与目标污染物接触面积,增加了对污染物的吸收,充分发挥了与 2.5h时碳纳米管的孑L道中溢出部分钛酸丁酯,导 ̄x,ob部发生团聚现象 碳纳米管的光催化协同作用。 使衍射峰变小。 参考文献 2.2样品g- ̄'b表征。红外光谱与分子的结构密切相关,是研究表征 [1IDechakiatkrai C,Chen J,Lynam C,et a1.J.ElectrochenrSoc. 分子结构的一种有效手段,与其它方法相比较,红外光谱由于对样品没 2007,154(5):A407-A41 1. 有任何限制,它是公认的一种重要分析工具。样品的傅里叶变换红外 [2]Woan K,Pyrgiotakis G,Sigmund W.Adv.MateL2009,21(21):2233- (FY—IR)光谱分析采用Nicolet 360型(美国尼高力公司)红外光i 义测 2239. 定,扫描范围4000—400 em~。如图2。 【3]zhu Z P,Zhou Y,Yu H W,et a1.Cherm Lett.2006,35(8):890-891. 结果分析:由图2可以发现随着搅拌时间的增加复合材料样品的 (上接137页)展趋势进行预测,首先从时间序列中抽取静态屙i生,这 随着数据挖掘技术的深入发展和数据挖掘技术的广泛应用,可视 些静态屙陛,庄往决定了时间序列的发展趋势,将时间序列的这些属性 化数据挖掘技术已成为数据挖掘技术领域的热点之一,通过时间序列 组成数据库,可以用来进行分类预测。 预测的可视化可以对各种数据进行可视化处理,可视化后的数据,将使 用可视化的时间序列预测涉农信贷数据的走势,绘制曲线图,建立 用户可以直观地发现数据特征与数据隐含的依赖关系,为数据分析人 函数,在评估过程中预测值作为参考依据。预测过程中要考虑涉农信贷 员提供很好的帮助。无论预测的方法有多么优秀和高效,都是有偏差 政策的实施隋况,要看地域差异、季节差异、自然灾害等因素,模型的建 的,而我们所要做的事情只是让预测的结果更加真实,尽可能的有参考 立还要考虑货币政策的时滞性。评估过程中我们可以获得预测的涉农 价值。 信贷数据的走势,绘制预测曲线图。通过实际收集的信贷数据走势与预 参考文献 测的数据走势比较(如图1是某地区某金融机构涉农贷款实际数据与 I1](加)Jiawei Han,Micheline Kamber著.范明,孟小峰译.数据挖掘概念 预测数据对比图),可以直观的表现出来。通过欧几里德距离进行计算, 与技术IM].(第二版).北京:机械工业出版社,2007. 欧氏距离看作相似程度,距离越近就越相似。如果两个走势相同或相似 『21施慧娟.可视化数据挖掘技术的研究与实现删.上海:华东师范大学,  说明涉农信贷政策导向效果极佳,如果两个走势相反说明涉农信贷政 2009.策导向效果极差,也可以根据欧氏距离转换为评估分值。 『3]杨杰.时间序列数据挖掘及其可视化研究『D1.合肥:合肥工业大学, 结束语 2007. 

因篇幅问题不能全部显示,请点此查看更多更全内容