算法和数据科学专刊
内部刊物 供学习交流
2021年第三期
兴业数字金融服务(上海)股份有限公司
主办
>> 封面文章
AI 赋能反洗钱场景 开启风控新格局
4月2日,兴业银行总行交易银行部推出致力于为主管业务部门、兴业数金提供技术服务支持的全新教育云平台。平台围绕“金融+科技+教育”为核心,为教育行业客群提供基于业务场景、简单易用的“一站式”服务。平台按照业财融合的理念,可为教育客群提供校园全场景的缴费前、缴费中、缴费后的统一收入管理解决方案,有效解决校园缴费、收入管理、非税直缴、非税票据等场景下的体验、管理、效率、内控等问题,实现服务信息化、业务信息化、管理信息化。兴业银行教育云平台的上线,为教育行业客群将获得更加全面、细致、便捷的服务,赋能教育行业客群高质量发展。
兴月喜报
3月17日,由总行交易银行部携手兴业数金打造的医疗综合支付服务正式上线。平台针对医疗机构对账难、财务管理难、运营效率低下等痛点,通过支持三方对账、二方对账,对医院的财务对账系统进行整合再造。一站式提供对账差错查询、对账差错退款、历史交易查询、报表展示。为医疗机提供高效、便捷的对账管理体验。同时平台覆盖主流支付通道,支持医院各场景支付需求。医疗综合支付服务平台建设以医院的效率为核心,以用户的需求和满意为目标。定制化的解决方案,为医院信息化升级保驾护航。
本期导读
数据科学(Data Science)是关于数据的科学,它从数据中提取有用的知识,是一系列技能和技术的综合。在金融领域,尤其是银行业,数据科学的应用日益广泛。数据科学可以帮助银行进行自动化风险管理、识别欺诈与洗钱行为、对客户进行个性化营销、管理客户数据并预测客户行为等。
在本期我们将介绍“数据科学技术部落”往期的活动回顾,以及后续的活动预告,希望大家能更多的参与到技术部落里来;我们也将在“洞见前沿”板块中,和大家详细的聊聊什么是数据科学,如何构建一个数据科学模型以及同业有哪些数据科学的实际应用;最后,关注数据科学业务实践的读者一定不要错过“内部潮闻”板块的《金融科技助推小微企业线上融资风控模式变革》与“专栏”板块的《AI赋能反洗钱场景 开启风控新格局》,这两篇文章详细阐述了数据科学如何与我行的实际业务相结合,并进行业务重塑。
扫一扫二维码
加入“创新速递”交流群
同业数据科学应用案例
CONTENTS
目录
01
41
外部鲜事
External News
专栏
Special Colunms
内部潮闻
Internal Exclusives
03
科普课堂|数据科学知多少
AI赋能反洗钱场景 开启风控新格局
洞见前沿
Insights
模型原来是这样做出来的!
16
金融科技助推小微企业线上融资风控模式变革
上海分行上线同业批量开户流程机器人
数据科学技术部落活动回顾
数据科学在金融领域的
应用及案例分析
医疗综合支付服务平台——开启快速赋能智慧医疗新时代!
01
外部鲜事
银行的传统客户服务方式较为繁琐,客户的疑虑不能即时解决,银行面对突发的风险事件,也不能迅速掌握并制定相应措施。并且,面对大量非结构化数据,银行无法自动分析,而人工处理效率低下。工商银行利用自然语言处理技术(词向量、LDA主题模型等)进行客户情感识别、意图识别,快速筛选有价值的信息,更好的进行客户服务。
工商银行利用大数据
洞察客户心声
平安银行算法实践
平安银行的AI能力可以被划分为五大类别,分别是图像处理、语音处理、自然语言处理、知识图谱与机器学习。这些能力可以应用到OCR、智能客服、情感分析、风控平台以及客户行为预测等场景中。以图谱为例,平安银行将图谱应用到复杂风控场景中,进行风险聚类以及识别欺诈团伙。平安银行也强调,在很多算法落地的场景中,数据产品经理的角色较为重要,好的数据产品经理可以让算法项目完成的更加顺畅。
光大银行零售智能营销建设和
应用实践
农业银行基于知识图谱和图挖掘的
智能风控技术
传统的信用风险管理,面临外部经营环境、银行内部以及监管等方面的挑战。农业银行基于知识图谱和图挖掘,构建全新的信用风险管理系统。农业银行在该系统实现了三项特色,一是建立数据视图,奠定信息基础;二是构建知识图谱,奠定知识基础;三是实现知识发现,奠定智慧基础。该系统可以实现核心企业识别、风险传导测算、客群风险测评、客群关系探索等四类应用。
02
光大银行信息科技部和零售业务部以机器学习技术为核心,构建零售客户智慧经营数据挖掘模型体系,基于模型计算结果生成客户洞察标签和营销线索,部署到客户运营和营销前台,应用于客户精准营销和个性化推荐两大场景。在算法方面,光大银行尝试了决策树、逻辑回归、神经网络、随机森林等,并为不同的场景和数据选择最适合的算法。
外部鲜事
Internal Exclusives
03
数据科学技术部落活动回顾
课题研究
在过去的半年里,数据科学技术部落围绕五大课题,时间序列分析,大类资产配置,信息提取,文本分类,OCR财务报表识别,从主题介绍,课题研究步骤,研究方法培训,到成果展现进行了多次分享交流活动。从数据科学概览引入,带领大家逐步遍历数据科学技术栈的方方面面,从爬虫,文本分类,数据可视化,到知识图谱。新的一年里,数据科学技术部落还将继续努力为大家带来更多有趣,丰富,实用的课题。
好书分享计划
21天读书打卡计划配套好书分享交流会,数据科学技术部落致力于为大家业余提供知识养分。数据科学技术部落第一期《数学之美》好书分享已告一段落,《女士品茶——统计学如何变革了科学和生活》即将上线。在大数据时代,一切从数据说话,如何解读数据便与每个人的日常生活息息相关。读懂了本书,你就是大数据时代的明白人。
04
课题研究现场
赏金任务
数据科学技术部落一期赏金任务,以neo4j图数据库为例,探究如何借助知识图谱的力量,使数据形成语义网络,可视化地揭示实体之间的关系。展示内容将包含从爬取基金数据形成结构型数据, 结合Neo4j图数据库多维度刻画客户经理的业务能力(例如所持基金的稳定性,收益率,基金规模等),实现对优质基金经理的筛选,并进行可视化展示。赏金活动将配合培训内容,一期一会,一起在实践中学习如何玩转数据。
内部潮闻
Internal Exclusives
05
近年来,国家推动银行下沉服务重心的力度越来越大,多次出台了推进小微企业金融服务优化的相关政策,力图缓解小微企业融资难、融资贵、融资慢等问题。在此背景下,国有五大行、股份制银行以及新型互联网银行纷纷加大了对小微企业的信贷支持力度。其中,多家银行均以金融科技作为开展小微企业信贷的重要抓手,在服务模式、风控模式上均有较大突破。以建行、招行为例,截至2020年底,建行形成了“小微快贷”、“交易快贷”、“个人经营快贷”等产品系列,普惠金融贷款余额达到1.45万亿。招行创设了“高新贷”、“招抵快贷”等线上融资产品,普惠型小微企业贷款余额突破5000亿元。
兴业银行紧跟行业趋势,重点推进小微金融科技赋能,运用数字化工具提高风险防控能力,为小微企业提供“金融+科技+数据+政策”的在线融资服务。一方面实现了我行小微融资业务规模、新开户数量的
金融科技助推
小微企业线上融资风控模式变革
兴业数金 算法金融实验室
06
快速增长,另一方面,通过线上线下联动、融资带动结算和存款业务,也进一步促进了线下业务的发展和客户综合价值的提升。
“快易贷”功能介绍
金融科技不断驱动小微企业线上融资风控模式的变革,由总行中小企业部与兴业数金合作开发的小微企业线上融资产品“快易贷”于2019年底开始在杭州、广州等分行上线试运行,是兴业集团在小微企业信贷领域,第一个由金融科技助推的全线上、全自动、智能化的信贷产品。
“快易贷”作为线上自动化审批的重要组成部分,目前小微企业线上融资模型已涵盖贷前、贷中、贷后等环节,主要包括五个部分:一是白名单模型,通过对客户在行业、规模、地区、资金等维度的分析,筛选出符合目标特点或具有特定资质的企业进行定向营销,在源头即对信贷风险进行把控;二是否决模型,对不符合银行授信范围、资质较差、有明显负面信息的小微企业进行前置拒绝;三是审批模型,基于专家经验、数据驱动等方式构建信用评分卡,定量
内部潮闻
Internal Exclusives
07
其他延伸产品服务
评估小微企业的信用风险;四是额度利率模型,用于根据小微企业风险程度的不同实行差异化的额度和风险定价;五是贷后预警模型,对小微信贷业务开展情况,以及模型审批拒绝情况等进行持续监控,通过对数据的动态变化分析,及时提示业务开展过程中可能存在的风险。
在“快易贷”基础上,我们不断探索和深化小微企业线上融资场景化运用,结合不同场景升级优化小微企业线上融资风险模型,在满足普惠小微多元化融资需求的同时,带动普惠小微企业业务的增长上量。截至目前,基于房产抵押的“快押贷”、基于政府采购的“合同贷”、基于票据交易的“票押贷”、基于科创企业“技术流”专属评价体系的“科创云贷”等系列产品已成功上线。在总行授权范围内,针对分行辖内特定应用场景小微企业客群的产品也在不断丰富和推进的过程中,包括广州分行的“快易贷-烟商贷”产品、深圳分行的“华为快易贷”产品、厦门分行的“快易贷-夏商农批贷”产品等等。
08
依托小微企业线上融资产品,在线上风控模型的助力下,实现了客户申请、业务受理、审批、放款等流程的全面线上化、自动化和智能化,极大提升了小微企业融资的便利性,缩短了小微企业获得信贷服务的时间,减少了人力工作负荷,也提升了风险审批的精准性。相信在未来会有更多小微企业线上融资产品诞生,在服务模式、风控模式上有更大的突破。
内部潮闻
Internal Exclusives
09
兴业银行:医疗综合支付服务平台
开启快速赋能智慧医疗新时代!
2019 年底,国家卫生健康委规划发展与信息化司司长毛群安在健康中国战略实施与大众传播座谈会上强调,健康中国战略与每个人息息相关,要求个人、家庭、政府和全社会共同参与。
医院是中国医疗服务的主力军,也是“数字健康”技术应用的主场景。医院的信息化、智能化进程始终是医院数字化的主线。医院内多渠道多场景的支付入口为患者提供了便捷的诊疗支付渠道的同时也为医院财务部门带来了对账及管理上的一些问题。在“财务对账难”的问题上体现得尤其明显:财务登陆多平台处理对账差错;人工对账存在误差风险,准确率低;财务数据归纳统计复杂,不便于大数据量分析等。在“互联网+”理念下,如何为医院搭建一套新型财务支付及对账平台系统,可实现财务对账一体化管理,显得尤为重要。
兴业数金 创新业务发展部
10
兴业医疗综合支付服务平台应运而生,平台可提供统一的对账管理、支付管理、渠道管理、运营服务等能力,可实现自动化对账(支持二方对账、三方对账)、差错处理、数据统计、订单跟踪等功能。平台提供“支付+对账”、“仅对账”两种服务模式。兴业医疗综合支付服务平台通过统一对账服务解决医院对账难的问题;通过统一支付服务为医疗机构提供更丰富的支付方式,支持医院各场景下的收单需求。
兴业医疗综合支付服务平台对医疗机构和兴业银行均产生巨大的业务价值。
对于医疗机构:
- 针对医院所有新接入及现存支付渠道,实现统一对账管理:自动对账、自动差错处理等服务,彻底解决医院HIS对账频繁改造及医院财务人员对账难、效率低下的问题。
- 支持丰富支付渠道的快速接入,支持不同HIS接口适配转换,支持两周接入微信、支付宝、银联等主流支付方式。
- 多地分中心支撑运维,快速响应院方需求。
内部潮闻
Internal Exclusives
11
对于兴业银行:
- 通过医疗综合支付服务平台提供优质服务,提升同业竞争力,提升拓展医院客户能力。
- 依托支付渠道接入,增添分行客户结算存款。
- 总行统一建设,减轻分行成本负担。
- 深度布局医疗生态,促进数字化转型,打造竞争优势。
兴业银行历来重视将履行社会责任与银行自身经营发展紧密结合,在健康医疗领域,依托产品和科技创新,探索“互联网+医疗+金融”的服务新模式,并携手兴业数金于2021年3月上线运营平台级智慧医疗解决方案——兴业医疗综合支付服务平台,为医院提供精准高效的支付接入以及精细化数据运营解决方案,为医院信息化升级保驾护航;为患者提供更有价值的医疗健康服务。
10
高效服务同业客户,高质保障托管开户
银行同证券公司就券商托管业务建立合作,营销其开立券商托管产品的募集账户及托管户,已成为有效带动分行三方存管客保资金规模,拓展证券公司在我行核心负债的重要抓手。
上海分行2018年率先成为总行辖内首家开展此类特定同业存放业务的分行,仅2020年,完成了五家券商合计3699户的券商托管账户开立。上海分行在受理券商托管业务的同业银行中,业务所涉及的本行相关系统效能并不占优势,但通过各部门分工合作,优化账户操作流程,在确保合规性的前提下,保质保量的完成受托券商的开户工作,得到了客户的一致好评。
各大券商要求所有开户及账户业务服务手续均确保T+0日内完成,随着相关账户增长幅度加大,核心系统(SGB)各交易界面单靠柜面人员纯手工录入的时效
上海分行、兴业数金RPA事业部
——上海分行上线同业批量开户流程机器人
12
内部潮闻
Internal Exclusives
13
性瓶颈已显露无疑。核心系统(SGB)各交易界面单靠柜面人员纯手工录入,单一账户单笔SGB录入就需花费经办人员至少20分钟,仅SGB系统1601单个交易区就需录入32个要素信息,难免出现错录漏录的情况,同时核心系统多个交易操作涉及事后人工复核,核对工作同样繁琐。上海分行受理的证券托管账户业务多为同一主体下多产品开户业务,该业务流程针对同一客户主体、不同产品所涉及的系统录入要素信息、交易权限设置、账户资料基本完全一致。
针对券商托管账户开户业务存在要素明确、操作重复、耗时长的特征,与RPA流程自动化机器人在规则明确、操作重复场景下可以显著发挥降本增效的作用非常契合。上海分行运营管理部同兴业数金RPA团队联系沟通初步需求,组织现场调研,经RPA技术人员需求梳理、环境搭建、流程设计、测试运行,批量开户机器人已于2021年2月在上海分行运营管理部正式上线运行。
该流程由业务人员登录核心系统(SGB)后手动启动机器人,机器人读取操作人员每日手工放置的开户
14
产品名称文件,根据Excel文件中显示的sheet名称判
断当日需进行开户的客户主体,根据客户主体名称及在本行的核心客户号读取本地存放的开户全要素表文件,根据该文件中sheet名称判断需进行录入的核心系统交易区,模拟人的录入方式对每个交易区的字段逐个设置,同时完成无纸化打印要求。在核心系统各交易区全部录入完毕后,机器人自动生成前端HTML界面,展示开户相关信息,由操作人员核对开户信息及人民币银行结算账户管理系统备案所需账户名称,机器人根据提交的HTML要素在人民币银行结算账户管理系统完成自动备案流程。机器人在完成核心系统开户操作及人民币银行结算账户管理系统备案操作的同时获取开户相关要素,对每个产品对应的账户信息进行记录,在流程运行完成后,自动生成当日开户台账信息表,供业务人员核对、记录。
内部潮闻
Internal Exclusives
15
批量开户流程机器人现已覆盖证券托管账户业务所涉及SGB系统交易区:1601,2801,1606,1163,1233,3951,3819,3885,2804,适用场景已衍生至本行托管类账户批量开户的应用,操作人员可根据不同客户主体的开户流程需求,对客户主体全要素信息表进行配置,以满足不同客户的个性化设置需求。
该流程机器人在上海分行上线至今,平均每天完成25户开户流程,节省该业务原经办人员、复核人员共2人次/天,在保证开户及时性、录入准确性的同时,桥接行内核心系统及人民币银行结算账户管理系统,并整合开户台账信息。在解放原有操作人员处理其他业务的同时,也为分行推广同业及托管业务提供更大的保障,排除后顾之忧。该流程今年3月上旬已在杭州分行部署试运行,后续将对该流程进行产品化包装,推广至有该项业务的分行部署运行,让同业、托管批量开户机器人作为分行稳定可靠的数字员工,为分行推广业务、拉动保证金规模提供更有力的帮助。
16
科普课堂 | 数据科学知多少
数据科学是数据,尤其是大数据背后的科学,其主要研究数据的加工、管理以及计算等活动,我们可以从以下四个方面理解数据科学的含义:
新兴科学
一门将“现实世界”映射到“数据世界”之后,在“数据层次”上研究“现实世界”的问题,并根据“数据世界”的分析结果,对“现实世界”进行预测、洞见、解释或决策的新兴科学。
一、 什么是数据科学
兴业数金 算法金融实验室
如今,随着处理器功能的增长,以及存储成本的降低,全球数据量正以平均年50%的速度增长,我们进入了数据富足时代——大数据时代。大数据时代的到来也催生了一门新的学科——数据科学。你知道数据科学的概念是什么吗?它又有怎样的特点呢?接下来,就让我们一同来探究数据科学的奥秘。
洞见前沿
Insights
17
交叉性学科
一门以“数据”,尤其是“大数据”为研究对象,并以数据统计、机器学习、数据可视化等为理论基础,主要研究数据加工、数据管理、数据计算、数据产品开发等活动的交叉性学科。
独立学科
一门以实现“从数据到信息”、“从数据到知识”和“从数据到智慧”的转化为主要研究目的,以“数据驱动”、“数据业务化”、“数据洞见”、“数据产品研发”和“数据生产系统的建设”为主要研究任务的独立学科。
一整套知识体系
一门以“数据时代”,尤其是“大数据时代”面临的新挑战、新机会、新思维和新方法为核心内容的,包括新的理论、方法、模型、技术、平台、工具、应用和最佳实践在内的一整套知识体系。
18
二、数据科学的使命:从数据到智慧
从数据到智慧数据科学所追求的目标,就是从数据,到信息,到知识,直至智慧的一步步转化与浓缩。数据科学DIKW(Data、Information、Knowledge、Wisdom)层次模型将我们的目标做了一个更加结构化的解析。
图片数据仅仅是一些记录的集合,它是现实世界中一些事件的记录,在表达为有用的形式之前,数据本身并没有含义或价值。而信息是被赋予了意义的数据,信息与数据的区别在于,信息是有意义的,有用的,可以帮助用户决策或者行动(经过统计分析,我们可以知道各时间段的交易量分别有多少)。
知识则是一些信息的组合,经过了人类思维的进一步抽象,分析与概括,它提炼了信息之间的联系,能够回答一些问题(可以通过客户交易量的变化信
洞见前沿
Insights
19
息,总结出各类客户群体的交易规律)。最终,智慧则是启示性的,人类思维对知识的利用产生了智慧,它需要将知识置于特定的场景,灵活运用并最终做出明智的决策和判断(在总结交易规律的基础上,营销人员针对不同的客户群体,制定合理的营销策略)。
数据、信息与知识,都是对过去的记录、提炼及总结,而智慧则意味着我们能够运用知识,对未来做出预测、判断及发现。从数据到智慧,不仅是人们认识程度的提升,也是数据科学最终要达到的目的。
三、数据科学的学科位置
三大领域的交叉学科
数据科学建立在数学与统计、计算机科学、业务领域知识的基础上,数据科学汇聚了这三个领域的知识和技能。例如金融市场中的数据科学家需要了解股票、基金、债券等金融产品的理论与实践,工业领域里的数据科学家则需要了解机械原理。
16
数据科学与人工智能的关系
人工智能与数据科学作为目前学界、业界研究应用的热点,有着较多的重叠,也有不小的差异。一方面人工智能(包括机器学习、深度学习)是数据科学的理论基础之一或是数据科学中常用的技术和方案,二者密不可分;另一方面,目前的人工智能研究成果,更集中于听、说、读、写等感知能力,而在更为复杂的业务场景,可以通过人工智能产生数据结果,人们再利用数据科学的其他方法论产生见解,并从中受益。
20
洞见前沿
Insights
21
数据科学与商务智能(BI)的关系
从数据分析的复杂度以及价值高低两个维度,我们可以将数据分析分为描述性分析、诊断性分析、预测性分析以及规范性分析。从广义上来说,商务智能(BI)也属于数据科学的研究范畴,而狭义上,数据科学的核心体现在层次较高的分析领域。
四、数据科学的未来:星辰大海
数据科学的发展日新月异,我们探索世界,与世界交互的方式,也在一点点的改变。如今,机器学习技术在金融业应用广泛,智能风控、反欺诈、智能投
16
顾、智能营销等场景中都可以见到它的身影;计算机视觉(CV)已经成功的应用到OCR、自动驾驶、人脸检测等诸多领域,培养了一大批独角兽公司;自然语言处理与知识图谱也在蓬勃发展,衍生出机器翻译、智能问答、语义搜索、语音识别等多种实用任务。
在可预见的未来,数据科学的发展方向有可能集中在金融大数据以及时空大数据、图算法、生物神经网络模拟、机器学习可解释性研究、自然语言处理与理解等。所有这些已知的未来,再加上那些我们未曾想象的,将会引领我们进入新的智能世界。
22
洞见前沿
Insights
数据科学的蓬勃发展催生了一系列复杂且精密的数据产品,在我们面对这些产品的时候,一定会好奇这些看似神秘的数据产品,都经历了什么样的生产过程。实际上,所有数据产品的生产,都遵循着一套流程。流程的设计方案并不唯一,最广为人知的数据产品设计流程是CRISP-DM (cross-industry standard process for data mining),即“跨行业数据挖掘标准流程”。今天,我们就从CRISP-DM谈起,聊一聊数据产品的构建步骤,以及数据科学家的工作实践。
23
模型原来是这样做出来的!
兴业数金 算法金融实验室
24
CRISP-DM的起源
1996年,SPSS、戴姆勒-克莱斯勒、NCR三家公司共同成立了一个兴趣小组,目的就是为了建立数据建模的标准流程。1999年,小组正式提出了CRISP-DM,这一方法将数据产品项目的生命周期划分为六个标准阶段,分别是业务理解、数据理解、数据准备、建立模型、模型评估和模型发布。
如上图所示,虽然CRISP-DM的完整步骤包含六个阶段,并且存在连续依赖关系,但是它们的顺序并不是固定的,可以循环出现。是否能够继续进行下一个阶段,取决于之前的工作是否达到最初的业务目标。
洞见前沿
Insights
25
CRISP-DM的步骤
业务理解
数据分析师在业务理解阶段,会花费大量时间与业务部门同事沟通,了解业务问题。该阶段的重点在于确定业务目标、建立从业务到模型的转化,以及制定项目计划。
不同建模任务中的业务目标千差万别,比如对于一家银行来说,它可能希望本行的理财产品销售额上升30%,或者客户流失率降低20%,一个定义明确的业务目标是整个建模工作的基础。确定业务目标之后,数据分析师需要将业务的问题转化为一个数学模型问题。一些典型的数学模型如下:
聚类问题:如构建客户画像,形成用户及产品标签等。
预测问题:如客户流失预测、客户违约预测、产品销量预测等。
26
分类问题:如结合客户消费及信贷,将客户按照商业价值进行划分等。
基于前两项的准备,建模人员就可以制定具体的,可量化的工作计划来评估工作量,然后根据工作量倒排项目计划表,将目标拆解到更小的时间颗粒度,并由专人负责跟进。
数据理解
数据理解的目标主要是熟悉数据的特点,探索数据与数据之间的内在联系,并评估数据质量是否有问题。
数据准备
数据准备是数据挖掘最重要的阶段之一,通常这一阶段所花费的时间和工作量占整个项目的50%-70%。数据准备包含数据选择、数据清洗、构建新特征、数据降维等工作。
洞见前沿
Insights
27
数据选择
在数据选择阶段,一是要划分训练集与测试集,二是要确定需要使用的数据字段。在字段的选取上,可以选择那些与业务目标息息相关的数据字段,也可以采用基于统计学的方法,帮助数据科学家进行数据选择。
数据清洗
常见的数据缺陷包括缺失值、错误值、离群值、编码不一致等。当数据量比较大的时候,建模人员通常将有问题的数据删除,保留合理的数据。但如果数据量本来就比较少的话,也可以通过一些统计学的方法,对问题数据进行修复或插补。
构建新特征
在数据挖掘项目中,最常做的一件事就是衍生数据的生成,建模人员可以利用较少的原始特征,衍生出大量的复合特征,例如通过客户交易流水,衍生出客户平均交易金额、交易次数、交易集中度等指标。
28
数据降维
模型的构建难度与数据的量级呈正相关性,若数据集的特征较多,则可以通过数据降维的方式,减少数据特征,同时避免丢失太多信息,保持模型性能。数据降维的另一个目的是对数据进行可视化。通过数据降维,将数据降为三维或二维的数据,并保持数据之间的关系,数据可视化就会变得很简单。
建立模型
算法选择
建立模型的第一步是选择合适的算法。越复杂的算法并不一定效果就越好,算法的效果取决于训练数据的特点,以及算法参数。在建模阶段,数据科学家可以尝试多种合理的算法,分析其对该问题的适用性。
构建模型
大多数算法都需要对参数进行学习或者调整,比如在分类模型中调整类别的数量等。在每次调整算法参
洞见前沿
Insights
29
数并得到模型之后,建模人员需要根据评价标准,记录模型的效果,比较不同的算法参数及模型效果,确定最佳算法和参数。
模型评估
至此,数据产品项目已经完成了绝大多数的工作,在开始最后的部署之前,还需要进行模型评估。模型的结果有可能达到了最初的业务目标,也有可能没有达到。未达到预期有很多原因,比如业务目标一开始设置的不够合理、与业务目标密切相关的数据未收集到等等。这时候,我们就要回到之前的步骤,来检查哪个环节出现了问题,并进行修复。
模型发布
根据业务要求和运算性能的不同,部署的模型可分为离线模型、近线模型和在线模型三种。离线模型运算的时间较长,通常以小时来计算。近线模型适用于轻量级算法,一般在内存和内存数据库(如Redis)中进行, 运算的速度以秒为单位。而在线模型在内存中运行, 运行的速度以毫秒计。
30
一个数据科学项目的成功,离不开数据科学家与两方的沟通。一方面,数据科学家需要对接前端业务人员,清楚的了解业务需求,这也要求数据科学家储备足够的业务知识。另一方面,数据科学家需要对接后端研发人员,能够向研发人员讲清楚模型逻辑与结构,理解研发人员提出的模型发布、部署时可能存在的问题与障碍。
许多初级数据科学家经常把工作重点放在了建模阶段,然而,资深的数据科学家会花费更多时间用于沟通,来确保项目有明确的业务目标、正确的数据以及良好的部署。经验表明,大约80%的项目时间,都花在建模以外的工作上,这也对数据科学家的综合素质提出了更高的要求。
CRISP-DM的实践
在模型发布这个阶段,算法建模人员需要与研发工程师密切协作,确保业务系统能够正确的调用算法模型。
洞见前沿
31
近年来,数据科学蓬勃发展,汇集了包括数据获取、数据清理、数据分析、机器学习与深度学习、优化方法、数据可视化等等领域和技能,随着市场化进程不断加深,同业竞争进一步加剧,数据科学成为了金融机构保持竞争优势的必要条件。对于银行来说,数据科学已经在包括风控管理,资产管理等领域大放异彩,以数据驱动的方式完善了业务流程,实现了业务的自动化、精确化、个性化,极大提升了业务效率。接下来,本文将介绍数据科学在银行业务中的两大应用:智能风控业务和资产管理,以及在本行、同业内各自的案例介绍。
数据科学在金融领域的应用及案例分析
兴业数金 算法金融实验室
Insights
32
风控是指金融机构风险管理者采取各种措施和方法,降低风险事件发生的可能性,以及风险事件发生后造成的损失。随着大数据、数据科学等技术的不断发展,金融机构通过搭建智能风控模型,对借款方进行风险预测和风险管理,以数据驱动的方式完善了风控流程。
智能风控无处不在,覆盖了信贷产品的全生命周期。金融机构信贷产品管理大致可分为贷前、贷中、贷后三个阶段。智能风控利用数据科学等前沿技术,搭建风控模型,衡量用户的信用、欺诈等风险,为信贷产品的全生命周期管理提供模型支持。模型主要包括信用风险模型、额度模型以及反欺诈模型等等。
同业案例:建设银行智能风控信贷产品
建设银行依托数据科学等新技术,于2018年9月率先在同业推出为普惠金融客户打造的一站式移动金融服务平台。该产品主要从以下几个方面创新服务手
一、智能风控
洞见前沿
Insights
33
段:一是“快”,通过简化申贷流程,引导客户自主完成申贷,全流程线上操作,真正做到秒申、秒批、秒贷;二是“准”:通过自动获取企业及个人资产、税务、征信等数据,实时精准测算企业可贷额度;三是“广”:该产品聚焦全场景应用,丰富了产品体系,扩宽了服务范围。
该产品能够对客户进行类型区分,实现差异化授信。系统综合考虑客户特征积累、信用评价等情况,对客户进行分类管理,提供差异化产品和服务。系统也可以实现信贷额度测算实时化,可见即可贷,促进贷款流程简捷化,智能引导客户自助完成贷款流程。
随着技术的不断发展,互联网给银行客户带来便利的同时,市场上也越来越多的出现了精准性高、手
34
法多样、隐蔽性强的金融欺诈现象,使得金融风险的识别日趋复杂。因此,越来越多的金融机构开始利用数据科学等技术搭建反欺诈模型,如利用知识图谱,通过图谱中的关联关系识别欺诈行为,利用时间序列算法分析客户的历史行为轨迹,利用聚类等算法对客户的相似性进行聚类等。
同业案例:招商银行智能风控反欺诈系统
招商银行作为国内首家推出手机银行客户端的金融企业,搭建了基于金融科技的零售智能风控平台,并与2019年3月公开发布。该系统可侦测范围覆盖线上和线下交易渠道,能够对欺诈行为进行实时拦截。
当用户进行转账等操作时,该产品可以抓取交易时间、交易金额、收款方等多维度数据。随后,风控
洞见前沿
Insights
35
模型会基于这些实时、准实时数据进行高速运算,实时判断用户的风险等级,然后结合模型输出结果,对用户采取不同的核实身份手段,在交易过程中就可以将外部欺诈与伪冒交易扼杀于摇篮之中。此外,该系统还可以通过事后反查的方式,利用先进的图算法和图分析技术,挖掘欺诈关联账户。
该产品通过高维建模,放大数据的维度,打破传统的“抓大放小”策略,同时借鉴聚类的思路,综合机器学习算法和业务特征,进行特征工程、信任评分、图构建及社区发现四项技术,计算客户的距离,进而得到客户的聚集区,使得合法客户和非法客户明显可分;最后,该系统还可以记录客户的生物操作特征,如按压力度、移动速度、倾斜角度等等,对每一个客户操作进行建模,从而区分本人还是非本人操作。实践结果表明,这样的生物识别非常有效。
从2016年2月上线到2019年3月公开发布,该系统累计保护客户交易近32亿笔,月均防止客户损失约3000万元,对交易风险决策的响应速度达到了30毫秒以内,完全达到客户在无感知的情况下,做出风险决策。
36
我行案例:小微企业线上融资项目等
我行针对智能风控各项业务作出了相应的尝试并取得了卓越的成绩。小微企业线上融资项目,是兴业银行中小企业部与兴业数金算法金融实验室合作开发的线上融资产品,也是兴业银行在小微企业信贷领域,第一个由金融科技助推的全线上、全自动、智能化的信贷产品。
基于数据科学的新型风控能力,是发展小微企业线上融资业务的关键所在,贯穿了小微企业线上融资的全生命周期。兴业银行中小企业部和数金算法金融实验室不仅使用了前沿算法进行数据建模,也结合了兴业银行积累的宝贵业务经验,打造了契合兴业银行实际情况的线上融资模型体系。目前小微企业线上融资业务目前正在蓬勃发展,金融科技助推业务初见成效。截至2021年5月9日,小微企业线上融资项目终批金额已超32亿。
此外,天网工程,反洗钱等项目也正在如期展开,进一步丰富了本行的智能风控业务体系。
洞见前沿
Insights
37
资产管理,就是资金的归集与投放,涉及资产端与负债端两个方向。随着数据科学的快速发展,资管机构与数据科学的结合,无疑是大势所趋,主要应用分为智慧投研,智能投顾等。
智能投研:
智慧投研相关技术包括产业链知识图谱,卫星大数据分析,智能金融咨询等等。
二、资产管理
卫星数据分析示意图
卫星数据的研究与运用是一个很好例子。当对一个市场进行调研时,遥感卫星可以持续获得该市场不同时间段的卫星图,可以通过夜间灯光亮度的变化以
38
及车流量的多少,在财务报表发布之前提前获知经营情况的变化。微众银行于2019年底推出了智能资管系统——“揽月”平台,基于卫星数据对不同行业、企业的经营状况与内容进行监控,赋能多领域的投资研究智能化。例如微众将卫星数据应用于企业ESG评级,将环境保护与企业社会责任等因素纳入对企业的评估,考量企业的可持续性发展潜力。
洞见前沿
智能投顾:
相比传统投资顾问以专业素养和从业经验为基础,结合投资者的资产状况、风险偏好、预期收益等为投资者提供的专业投资建议,智能投顾意味着使用数据科学,运用智能算法以及组合投资后的自动化管理技术,帮助用户实现主动、被动投资策略相结合的定制化投顾服务。
智能投顾模型示意图
Insights
39
同业案例:中信银行智能投顾项目
随着招商银行于2016年正式推出相关智能投顾项目之后,各大银行都紧跟步伐,推出了自己的智能投顾产品。起步较晚的中信银行也于18年年初,创立了相关智能顾投助手帮助用户选基择时,自动调仓。依据不同客户的月收支、资产负债情况、房屋价值和投资水平等因子,生成该客户的投资偏好,该产品根据客户的风险等级,生成不同的投资配比。其主打的四种投资配比为:货币增强,固收策略,股债均衡以及股票基金策略。自该产品成立以来,四种不同风险的投资类型带给客户的涨幅分别为16.66%,28.13%,33.64%和58.99%,客均3350元的盈利也为其带来了83%的复投比例,产品达到预期效果。
丰富的同业实践案例表明,数据科学可以帮助金融机构更有效地集中资源,做出明智的决策并提高绩效,实现业务的自动化、精确化、个性化,并降低员工的
时间成本,但其中仍有一些问题亟待解决。例如,对于大部分金融机构来讲,风控和业务是互斥的,若要提高业务量,就必须降低准入门槛;另外,机器学习也存在可解释性的问题,若要模型有更强的业务解释性,就势必要在模型准确性上打一个折扣。因此,如何将传统金融风控的优势与数据科学更好地结合,使之更好地为金融服务,一直是业内外共同努力的方向。
在未来,随着国内数字化进程加快,我们所能获得的数据类型将越来越多,数据质量也将变得愈加优质。依托更详尽的数据,迭代升级算法与模型,上述业务应用场景也都将获得更好的效果。
洞见前沿
40
41
兴业数金 算法金融实验室
AI赋能反洗钱场景 开启风控新格局
近年来,央行对反洗钱的监管要求不断强化和细化,1月15日,中国人民银行发布《法人金融机构洗钱和恐怖融资风险自评估指引》,明确指出法人金融机构应落实有关洗钱和恐怖融资风险自评估的工作要求,识别、评估、监测业务条线的洗钱风险,提升金融体系反洗钱工作的有效性。
Special Colunms
42
反洗钱是指预防通过各种方式掩饰、隐瞒电信诈骗、黑社会性质的组织犯罪、走私犯罪、贪污贿赂犯罪、破坏金融管理秩序犯罪等犯罪所得及其收益的来源和性质的洗钱活动的措施。洗钱行为往往手法多样,隐蔽性强,金融机构对洗钱风险的识别和认知能力仍存在诸多盲区,在反洗钱业务开展中存在诸多难点和痛点:
1、案件调查存在滞后性
金融机构的洗钱案件调查往往在交易发生之后,通过资金链路、交易行为等数据判断是否存在洗钱风险,案件调查存在一定的滞后性。
2、基于规则的传统反洗钱可疑交易误报率、漏报率高
很多金融机构的反洗钱方案都基于规则,基于规则识别的可疑案件往往存在误报率、漏报率高,也导致后续审查劳动力的紧张。
3、难以识别新型洗钱手法
在错综复杂的国际环境下,洗钱团伙的作案形式呈现专业化、手法多变的趋势,传统的反洗钱方法难以及时捕捉手段多变的新型反洗钱模式。
专栏
一、金融机构反洗钱面临的痛点与挑战
Special Colunms
43
二、AI成为反洗钱领域
降本增效、控制风险的驱动引擎
人工智能(Artificial Intelligence,简称AI),简单来说是模拟人的意识和思维过程,利用机器学习和数据分析方法赋予机器人类处理问题的能力。在大数据、计算机科学飞速发展的大环境下,AI技术在金融领域拥有越来越广阔的应用场景,AI技术正在重塑生产方式、赋能千行百业,推动经济社会各领域向智能化加速跃升。
监管科技的核心是人工智能监管,在反洗钱领域,人工智能在很大程度上可以替代人工,帮助金融机构开展对反洗钱行为的监测。AI技术在面对海量交易数据、复杂交易手段的情形下,可以从众多角度挖掘隐藏的可疑交易特征信息,精准识别可疑交易,有效助力反洗钱工作,提升金融机构反洗钱能力。
44
(一)客户身份识别
人脸识别、图像识别等技术,作为读取、收集客户身份信息的重要手段,实现客户身份证件、机构营业执照影印件等的自动收集和标准化处理,并引入权威数据库进行多项要素核验,快速辨别、确认客户身份,有效识别身份证件、营业执照等重要客户标识作假等可疑行为,能快速识别洗钱犯罪份子利用互联网操纵他人账户进行洗钱的违法活动。
(二)洗钱风险评估
1、新开/存量客户风险评级
对新开户和存量客户进行初步风险评级,对于后续反洗钱风险管控具有至关重要的意义。结合客户的基本属性,运用前沿的机器学习算法,可对新开或存量客户进行初步的风险评估,及时排查可疑账户或团体,一定程度上解决了案件调查的滞后性问题。
专栏
三、AI在反洗钱场景中的应用
Special Colunms
45
北京佳格
2、可疑洗钱案宗识别
对于已经发生大量交易的账户,AI技术通过资金链路、交易行为等数据,从多角度考察交易风险等级,对可疑交易风险从高到低排序,重点审查“头部”高风险案件,一定程度上缓解基于规则的传统反洗钱方案的误报率高等问题。
3、洗钱网络团伙识别
在错综复杂的国际环境与社会主要矛盾变化带来的洗钱新特征、新要求、新挑战和新形势下,市场上出现了越来越多精准性高、手法多样、隐蔽性强的洗钱现象。
AI技术能够挖掘出未知的洗钱行为,例如,运用聚类能够检测出恶意群体;运用知识图谱技术能够建立客户资金交易网络,对网络图进行有向图的社区划分,构建具有反洗钱区分度的群组,在此基础上对群体进行风险排序和深度分析,深入挖掘未被传统规则识别的高风险洗钱团伙,提前预警隐藏的洗钱主体,降低群体性攻击风险,有效应对可疑交易漏报率高、无法识别新型洗钱手法等问题。
46
(三)可疑案例报告生成
反洗钱可疑案例报告生成存在数量大、质量低、人工成本高等问题,自然语言处理技术可疑根据历史可疑案例报告内容,自动提取分析要点训练模型,且根据报告修改反馈,实现模型自学习和更新,实现报告的数据生成和自动报送。
反洗钱工作任重而道远,在错综复杂的国际环境与社会主要矛盾变化带来的洗钱新特征、新要求、新挑战和新形势下,如何从数据入手,运用前沿AI技术,快速且准确识别反洗钱行为、防范金融犯罪,是我行及其他金融机构将持续开展的工作。长期以来,我行以全面落实“风险为本”的反洗钱工作要求为指引,将AI技术与反洗钱深层融合,在客户身份识别、洗钱风险评估、可疑案件信息上报等反洗钱各大场景中融入AI技术。运用监督学习模型对客户洗钱风险进行排序,重点筛查“头部”客户洗钱风险,降低了传统反洗钱方案的误报率;同时运用无监督学习模型、知识图谱等AI技术精准识别洗钱团伙、挖掘新型洗钱
手法,降低了传统反洗钱方案的漏报率。
专栏
Special Colunms
47
北京佳格
如需了解更多信息
请联系创新小助手
AI技术有效拓宽了我行反洗钱工作的模式与边界,完善了我行洗钱风险管理体系,有效提高了我行反洗
钱工作的有效性,提升了我行反洗钱的工作水平。