[大数据时代的数据挖掘初探]数据挖掘 大数据

大数据时代的数据挖掘初探

大数据时代的数据挖掘初探 一、商业银行量化经营及新巴塞尔协议对数据管理提出 了新要求 1.从基于经验的管理转变到基于量化的管理是商业银 行业务经营模式变化的重要特征。目前,国内外各大商业银 行早已步入量化经营的时代,在开拓某一项新业务时,需要 充分依据业务数据判断潜在市场的规模,在进行客户风险及 价值的判断环节,要遵循严格的数据及规则构建科学的评价 模型。如果没有足够的数据基础,业务开拓及管理的不确定 性增大,风险也会增加。但同时,目前量化管理的特点是基 于高度结构化、严格定义和大量清洗后的历史交易数据,更 多是用于报告已经发生过的事情。因此,其利用的数据不够 大,挖掘的程度不够深,应用的领域不够广。国外先进金融 机构已意识到相关问题,开始应用海量的客户交易和行为等 数据,基于新的数据分析技术支持经营管理。例如,美国银 行构建的反洗钱模型、富国银行进行的交叉销售等。

2.在实施新资本协议过程中,数据的挑战贯穿整个过程。

2012年,巴塞尔委员会发布“有效风险数据整合和风险报告 的原则”,对新协议实施中数据的要求进行了概括总结。委 员会指出,2009年金融危机的一个最重要教训,就是银行的 IT和数据架构不足以支持金融风险管理的要求,很多银行无 法及时、准确地在集团、跨业务条线、子公司间汇总风险暴 露和风险集中度。因此,委员会明确要求银行高层治理结构中必须包括良好的数据整合能力,并采取措施建立一个良好 的、有前瞻性的数据库,帮助银行及监管者预测未来可能发 生的风险。基于此,各国银行业新协议实施的评估过程中, 最重要的工作之一,就是评估该国商业银行的数据管理水平。

2011年,我国银监会发布“监管统计数据质量管理良好标准”, 确定了数据管理的15项原则、61条标准,要求建立定期评估 工作机制,并将标准实施情况作为银行高级计量方法验收的 重要条件。从银监会现场评估结果来看,我国银行业数据质 量管理仍有较大提升空间,领先银行也仅处于“大体不符合” 到“大体符合”的中间阶段。监管机构之所以对数据如此重 视,主要有四个原因:一是高级计量模型对数据依赖性强, 模型越精细,数据质量对模型结果准确性的影响就越大;
二 是数据质量的高低直接关系到资本计量的准确性,进而影响 风险管理、监管的有效性;
三是随着风险管理量化水平的提 高,需要采集、处理的风险管理基础数据范围越来越大;
四 是委员会强调监管者和银行具有对风险的预测能力,现有的 数据、计量体系离这个要求差距较大。

3.大数据契合新资本协议实施对数据的要求。新资本协 议实施的本质是提升资本对风险的敏感程度,要求银行能够 准确地识别、度量风险,并将计量结果贯穿到业务经营管理 的全流程之中。从资本协议发展的历程看,BaselI作为标准 法体系,仅在风险资产的标准分类基础上赋予统一的权重, 而BaselII则更加依赖对客户PD、债项LGD/EAD等风险参数的估计,在风险度量方面向前走了一大步。新资本协议的实施 及标准的不断提升,表面上是针对资本充足率,使用更高级 的方法有助于节约资本,但这不是实施新协议的主要目的, 其根本目的是建立完整的风险识别、度量、预测和管理体系, 进而通过资本覆盖非预期损失。从目前我国商业银行实施资 本计量高级方法的情况看,主要存在三方面的数据问题:一 是数据范围不够,很多数据尚未得到有效利用。目前资本计 量高级方法中主要依赖的数据是客户财务信息、交易数据、 区域及行业数据、宏观经济数据,客户的定性变量。这些数 据往往是依据设计好的表单结构进行采集,数据大多是静态 的、滞后的,而大量的客户行为数据,例如客户的网点交易 记录、客户访问记录、通话记录等,都没有得到有效考虑, 相比而言这些数据虽然价值密度低,但代表了客户的具体想 法和行为,反映了客户要做的事情和所需的服务;
二是数据 质量不高。由于我国商业银行业务数据积累历史较短,信息 化程度较低等原因,数据短缺、奇异值较多、时间长度不够 等问题普遍存在,因此在资本计量模型建设过程中,由于要 遵循一定的准则和假设,需要进行大量的数据清洗,并基于 业务合理性的判断进一步筛选,在这个过程中被动损失了很 多数据和变量;
三是商业银行跨业务领域、跨子公司间相关 数据未得到有效整合,也对风险计量的准确性及风险识别的 时效性产生一定影响,例如,通过对小企业主的信用卡交易 情况与所属企业贷款的关联性分析可以发现,在企业贷款违约之前,往往存在企业主信用卡严重的透支情况,而这些风 险特征的发现,均需要各业务领域、子公司间数据的高度融 合和关联。因此,采用大数据技术可以很好的解决上述问题, 并能够从看似没有任何规律的数据中挖掘出风险特征和潜 在的风险点。

二、大数据是商业银行零售业务量化经营变革的重要机 遇 1.零售业务是商业银行最能体现大数据优势的领域。未 来银行业的竞争将集中在对客户相关数据的收集和分析环 节,银行需要成功地通过各种渠道收集客户数据,精确分析 客户的意愿,为客户提供个性化服务。大数据技术必将成为 银行实现一体化客户关系管理,有效增强自身盈利能力的有 力工具和核心竞争力。从商业银行业务经营的情况看,零售 业务由于需要面对成千上亿的客户,涉及存款、贷款、汇款、 理财等方方面面业务,例如,仅信用卡交易类数据,一天的 数据量就有近百万笔,而其又会衍变出大量的消费习惯、投 资偏好、日常生活规律等消费信息。因此其涵盖的数据和信 息是十分巨大的,可以从中挖掘出很多有规律、有价值的信 息,是最能体现出大数据优势的业务领域。就如国外学者所 言:“未来属于能将数据转化成产品的人或公司”。因此, 哪家商业银行能够领先一步,积极探索大数据技术在零售业 务领域的应用,就必然能在日后的业务竞争中取得先机。

2.大数据技术可以应用于零售业务的全生命周期领域。在产品设计阶段,可以通过对群体客户的行为特征进行分析。

一是可以综合分析多种服务交付渠道,包括网点、网络、移 动终端等的大量客户行为数据,建立预测分析模型,发现客 户行为模式,提高客户服务价值;
二是构建客户理财洞悉渠 道,采用移动理财收集的数据能对不同地域的花销和节约习 惯等方面形成深刻洞悉,制定差异化的理财产品和营销方式。

在客户营销阶段,可以利用其每月的存款额和支用额反映客 户不同的收入特征,再结合其网页浏览记录、信用卡消费记 录、投资记录等,就能很好地把握其消费习惯和风险偏好, 为其制定个性化的产品配置和服务。在贷款申请阶段,可以 利用其收入、学历、消费习惯等特征,在较短的时间内预测 业务发展趋势、客户信用变动等情况,支持业务审批。在贷 后预警及反欺诈阶段,可以对现在的银行交易记录包括非直 接交易的数据,如邮件、语音、视频等进行处理、分析,构 建客户行为档案,收集该客户的基本信息以及所有历史交易 信息,进行特征的分析与归纳,通过比对本次交易信息和历 史行为信息,找出正常和异常的信息,实现实时侦测功能。

3.各种硬件、软件设施的快速发展能够支持大数据在零 售业务领域的有效应用。随着信息传输、储存技术的迅速发 展以及物联网技术的逐步应用,成千上万的网络传感器、二 维码、视频采集器等设备嵌入到现实世界中,产生了大量的 实时信息和机读数据。同时,云计算技术的逐步成熟,将为 物联网等信息获取端产生的海量数据提供巨大的存储空间,并能够利用超级计算机进行高效化、智能化和多元化的计算、 分析,使在线处理、实时处理变为可能。随着各类数据呈现 爆炸式增长,商业银行不应再满足于简单的数据处理,而应 该通过各种新技术、新设备进行数据分析,把握未来发展的 规律,使相关部门做出更好的决策。因此,大数据可以让零 售业务的海量数据产生价值、并让数据真正成为商业银行宝 贵的资产资源

4.不同产业领域已进行的大数据实践,为商业银行大数 据应用提供了丰富经验。大数据不仅给信息处理技术、软硬 件开发等方面的企业带来新的发展机会,还对医疗、零售、 金融、制造、能源等领域的发展带来新的冲击,直接推动这 些领域的产业升级。大数据分析已在不同领域得到了广泛应 用,美国总统奥巴马竞选时就拥有一个几十人的数据分析与 挖掘团队,进行大规模、深入的数据挖掘,帮助奥巴马在获 取有效选民、投放广告、募集资金方面提高工作的有效性, 就像奥巴马成功竞选后媒体指出的那样:华盛顿那些基于直 觉与经验决策的竞选人士的优势在急剧下降,取而代之的是 数量分析专家与电脑程序员的工作,他们可以在大数据中获 取洞察。在公共卫生领域,2009年GOOGLE利用特定检索词的 使用频率及流感在时间和空间上传播间的关系,在不需要知 道搜索词和流感间的关系,也不需要医生确认的情况下,纯 粹依赖于大数据处理了4.5亿个不同的数字模型,最终发现 一个由45条检索词组合构成的数学模型,其预测能力高达97%,与疾控中心的统计数据相比,时效性大大提前。在投 资领域,GOOGLE日本公司基于用户的搜索词,将大数据技术 应用于实时预测股价走势。其利用搜索关键词和股价实时信 息,构建了数万个数学模型,从中发现最可能的模式,用于 预测未来股价变动情况。一些对冲基金(如DerwentCapital 和MarketPsych)通过分析微博的文本数据,寻找股市投资 信号。现在,微博中的信息甚至被用于预测好莱坞的票房收 入。在保险领域,不同于传统保险行业将数据分析集中于保 单、被保险人、服务提供商、代理人、保险利益、产品、核 保和销售卖点、理赔、市场营销等领域,保险公司开始尝试 引入先进的数据记录系统,将汽车加速计、刹车频率和力度、 每次行使里程和驾驶时间、驾驶位置、安全带使用情况等纳 入分析,以求更准确地预测保险人行为,合理计算不同保险 人的保费。目前,国际大型金融机构已开始逐步尝试在零售 业务领域进行大数据技术的应用,积极向强调“基于数据(事 实)”的方向前进。例如,在风险管理领域,过去商业银行 可能要花费几个小时(甚至几天)才能分析出相关数据特征, 输出风险管理报告,而通过整合多渠道(如分支行、网络、 移动终端、外部数据库等)的海量数据,利用大数据分析技 术,能实时得出相关趋势特征,显著提高风险报告的获取速 度,预测风险事件的发生。

5.各大商业银行已逐步尝试进行大数据分析及业务应 用。随着大数据技术的逐步成熟,各大商业银行已开始逐步利用大数据技术进行风险管理、客户营销等方面的业务活动

例如,花旗银行利用大数据分析获取客户信息,并且分析预 测客户的下一步需求,进而向客户营销相关金融产品,如某 客户为自己的孩子办理了一张信用卡,其后花旗银行根据此 信用卡的消费情况、还款情况以及持卡人的各种金融产品消 费行为,再结合持卡人的不同年龄及职业,提前预判分析出 这位客户可能需要的金融产品,达到有效的精准营销。目前, 国内各大商业银行也逐步尝试利用大数据技术进行相关业 务的拓展活动。如建设银行利用客户业务数据,将客户划分 为长期负债族、活跃结算族、基本需求族等八类客户群,然 后根据客户的金融产品购买行为、宏观市场因素、客户生命 周期等变化因素,进行更加准确的目标客户筛选,同时其由 专业的业务和数据分析人员适时调整和修正客户划分的数 据模型,从而进一步提高客户营销的精准性。营销结果显示, 通过系统筛选的客户产品购买意向达成率是随机抽取客户 的1.5倍,实际购买率是随机抽取客户的6倍。

三、我国商业银行适应大数据时代的行动 1.高度重视大数据带来的机遇和挑战,树立基于数据的 量化管理理念。商业银行各级管理层要充分意识到大数据发 展的特征和趋势,采取措施加强数据管理和应用水平,推动 全行各级机构和部门数据分析能力的提升。

2.高度重视各种数据的积累。大数据时代的数据包含了 方方面面的属性信息,可以理解为“信息即数据”。因此,商业银行除了要积累各种传统意义上的经营交易数据外,还 要重视其它类型的非结构化数据积累,例如网点交易记录、 电子渠道交易记录、网页浏览记录、外部数据等,都应得到 有效的采集、积累和应用。

3.强化对制度等文本数据的标准化。每一家商业银行的 各级机构均有大量的制度、流程和规定等文本数据,但尚未 进行有效组织。因此,要按一定的分类标准对之进行梳理, 使之与其它数据得到有效整合,有利于数据挖掘工作的开展。

4.积极搭建大数据技术应用的各种资源条件。在现有数 据库基础上,积极探索引进适应大数据要求的分析平台和工 具,培养大数据分析人才,建立适应管理要求的数据分析管 理机制。

5.采用循序渐进的方式稳妥推动大数据在商业银行零 售业务中的应用。目前,可以从小的具体业务和关键点入手, 以能被商业银行现有管理架构和外部监管机制接受的方式 进行尝试性应用,待技术及时机成熟后再逐步将大数据纳入 银行经营管理体系。例如,将客户情绪分析、客户行为预测、 风险控制等逐步纳入分析应用的范围。最终打造商业银行大 数据技术应用的核心竞争力,实现大数据技术在零售业务的 广泛应用。