注册

2024Q3青年研

其他分类其他2024-09-24
37

青年研·数据赋能

  • 人工智能实现自动数据标注的探究
  • 大模型技术在零售信贷风控领域的应用研究

人工智能 业务赋能

栏目主编:童心怡
版面编辑:黄若飞

数据标注是通过分类、画框等方式标记对象的特征,作为“教材”让AI学习,将机器难以直接识别的原始数据转换为可理解的信息的过程。然而数据标注工作本身耗时费力,如何提升标注的效率,行业内开始探索利用AI赋能数据标注,自动数据标注的概念应运而生。
自动数据标注,指的是利用算法或规则,自动给出机器预测的标注结果,而不需要人工手动执行标注任务,也被称为“数据预标注”。全自动数据标注很难做到100%的准确率,尤其是在数据复杂或者模型遇到了训练集中没有出现过的新场景时。因此,自动标注通常与人工审核相结合,以确保数据标注的准确性,称为“半自动标注”或“人机协作”。自动数据标注将原先从零开始、手工操作的人工标注作业方式,改造为只需审核修正,是提升数据标注工作自动化、智慧化水平的重要手段。

一、自动数据标注定义

人工智能实现自动数据标注的探究

自动数据标注工作流程

数据架构部 何恺
该文2024-7-13发布于数据治理周周谈

1.数据收集:收集需要标注的原始数据,可以是图片、文本、音频或视频等;
2.预处理:对收集到的数据进行清洗和格式化,确保数据质量,提高自动标注的准确率,包括:去噪、裁剪、归一化等操作;
3.定义标注规则:确定需要标注的信息和要使用的标签类别,包括用于识别对象特点、分类的细节等;

青年研:人工智能实现自动数据标注的探究

4.自动标注:根据原始数据和标注任务类型,配置并调用合适的自动标注模型,对原始数据进行预处理,给出自动标注结果,分两类情况:
A.半自动标注:系统会提供一个初步的标注结果,然后交由人类专家进行审核和修改;
B.全自动标注:系统完全自动地完成标注流程,不需要或者很少需要人工干预;
5.质量检查:系统生成标注后需要进行质量检查,通常涉及到随机抽样和查看标注结果,确保标注的准确性和一致性;
6.生产结果集:将自动标注结果发送给标注员进行修正,并将人工确认过的标注结果存档,完成数据标注。
7.迭代改进:借助反馈循环,同步将标注错误结果及的新的标注数据重新训练标注模型,以适应数据分布的变化或新的任务要求。

二、自动数据标注意义

(一)提升数据标注的效率

使用AI进行自动化的数据标注,可以替代框选、输入文字等繁琐的人工操作,实现数据标注的降本增效,使得大规模数据集标注可以在可接受的交付周期和成本框架内完成。

青年研:人工智能实现自动数据标注的探究

(二)保障标注结果的质量

使用经过验证的AI辅助人工标注员进行标注,可以发挥AI的稳定客观的优势,为最终的标注结果设定“基线”,提升标注结果的一致性和准确性。苏黎世大学的研究发现,ChatGPT在多项文本标注任务中的表现已优于众包人员,其标注准确率比众包人员高出约25%。随着标注数据的不断积累,自动标注算法还可以进行迭代优化,持续改进自动标注的质量。

三、自动数据标注应用

鉴于自动化数据标注的突出优势,业界已有不少企业把AI技术应用到了数据标注场景,证明自动数据标注的落地是切实可行的。
(一)国内多家银行利用AI实现智能数据标注
根据公开报道,国内某商业银行已利用大模型,自动完成客服知识的数据标注,助力提升客服分流效率;也有商业银行使用聚类模型,对数据资产进行智能化主题标注,解决训练样本人工标注工作量大、模型难以自适应数据增长的难题。
(二)亚马逊机器学习平台提供四类自动标注能力
亚马逊机器学习平台SageMaker内置了自动标注引擎,能够为4种标注任务提供自动标注的能力:图像分类、图像语义分割、对象检测、文本分类。亚马逊的自动标注能力使用主动学习(Active Learning)策略,与标注员协作完成标注,显著减少标注所需的成本和时间,并能利用人工标注结果不断提升自动标注模型的标注准确性。

青年研:人工智能实现自动数据标注的探究

四、自动数据标注的实施路径探讨

鉴于自动化数据标注的突出优势,业界已有不少企业把AI技术应用到了数据标注场景,证明自动数据标注的落地是切实可行的。

(1)基于规则的自动标注
某些需要标注的要素或标签,具有特定的格式或关键词,可以借助专家经验总结为规则,对原始数据进行自动扫描,方便标注人员快速定位和判断。
制订预标注规则时,首先应确认原始数据及规则特征是机器易解析的(通常为文本类数据);再由业务人员根据专家经验或业务词库描述每个标签中常见的关键词或格式;最后,将业务人员的规则描述转换为关键词库或正则表达式,即形成自动标注规则。
标注平台在给标注员展示数据时,会根据自动标注规则,扫描原始数据中相匹配的模式,如果命中,则高亮相关短语,或根据模式-标签的匹配关系,自动给文本打上对应的标签,供标注员审核、增删或修正。
(2)基于专用小模型的自动标注
自动标注规则对于数据格式的要求较高,且识别过程固定,无法对实际数据中的各种情况进行准确识别标注,效率提升效果有限。使用专用小模型进行自动标注能够更好地进行泛化识别,并可应用于图像、音视频等数据类型,是当前应用较成熟的路径。根据作用方式的不同可分为两类:
一类是对特定环节实施自动标注。在多环节任务标注中,可选取标注工作流中简单且泛用性强的部分环节实现自动标注,其余由人工进行。以“标注业务表单中所有栏位的位置、内容和栏位标签”为例,标注工作分解为三个工序:

(一)自动数据标注的三种路径

青年研:人工智能实现自动数据标注的探究

先确定文字位置,再识别文字内容,最后打上栏位标签,前两个工序不需要理解表单中文字与栏位的对应关系,可由通用的文字识别模型就可以完成替代人工,在自动框选出页面中的全部文字并识别好文字内容之后,人工标注员只需要给文本框打上栏位标签就可以完成标注了。

AI自动识别文字位置和内容,人工添加标签(来源:百度AI Studio)

另一类是“端到端”自动标注。它是由模型直接根据输入数据给出标注结果。以“人机协作”自动标注方法为例。
标注结果与其训练的AI模型的输出往往很类似,先使用训练中的AI模型对原始数据进行自动标注,输出模型预测的标注结果,标注员只需要对模型输出结果进行审核、修正,就可以得到最终的标注结果,再用标注数据继续训练提升AI模型能力,形成一个“人机协作”的反馈闭环,直至达到投产上线要求。
要启动自动标注的人机协作闭环,有一个手动“冷启动”过程:通过纯人工标注一小批数据,训练出一版基础模型识别效果,之后就可以开启模型进行自动标注并进行人工审核,不断提升模型识别效果。
比如,我们希望训练一个“自动审查出宣传物料中不合规的表述”的分类模型,目标准确率为95%。首先,需要在每个类别下先标注100条数据进行模型的“冷启动”训练;再通过训练后模型对原始文本进行自动要素抽取标注,高亮敏感词及其分类,最后由标注人员复核采纳或修正。假设基础模

青年研:人工智能实现自动数据标注的探究

型的准确率只有60%,人工标注时只需对剩下40%的敏感表述进行查缺补漏即可,已大大降低了人工标注的工作量,同时减少可能的人工注意力不集中遗漏敏感表述的情况。

先确定文字位置,再识别文字内容,最后打上栏位标签,前两个工序不需要理解表单中文字与栏位的对应关系,可由通用的文字识别模型就可以完成替代人工,在自动框选出页面中的全部文字并识别好文字内容之后,人工标注员只需要给文本框打上栏位标签就可以完成标注了。

青年研:人工智能实现自动数据标注的探究

(3)基于预训练通用大模型的自动标注
由于数据标注的数据类型多、标注规则各异,要做到“开箱即用”的端到端预标注能力,目前最可行的路径是使用预训练通用大模型完成。利用大模型完成自动标注其实可以看做一种广义的“知识蒸馏(Knowledge Distillation)”,利用自动标注将大模型在特定领域的知识传递给速度更快、成本更低的专用小模型。
要使大模型胜任具体的标注场景,最简单快捷的做法就是撰写合适的提示词。自动标注场景的提示词,可以理解为将标注规则进行整理、定义并传达给大模型的工具,就好比开始标注前需要准备好标注规则的文档,给标注人员做好培训之后,标注员才能知道如何规范地进行标注。
通过撰写合适的提示词,可以不用做模型训练,就让大模型理解标注任务的要求并输出所需的自动标注结果,实现“开箱即用”的端到端预标注能力。
自动标注的提示词的撰写方法,可归纳为三类:描述型、案例型和思维链型。

青年研:人工智能实现自动数据标注的探究

除了使用提示词让大模型学习标注规则,也可以使用人工确认后的标注数据对大模型进行指令微调。经过指令微调的大模型能更好地遵循标注指令,标注结果更符合标注人员的预期。
用于指令微调的训练数据通常包含三个元素:
指令:说明标注任务,描述标注规则和输出格式。
待标注数据:需要进行标注的原始数据,如客户对话文本。
期望输出:对于给出的待标注数据,标注员复核确认后的标注结果。

(二)自动数据标注优缺点分析

自动标注的三种实施路径各有其优劣,目前还不存在一个单一的方法能够在所有场景达到最好的效果。因此,我们对自动标注实现方法的特点进行综合性分析,并探讨每种方法更为适用的落地场景。

青年研:人工智能实现自动数据标注的探究

五、总结与展望

随着AI需求的增长,人工标注难以满足效率、成本和一致性要求。数据标注正向自动化、智能化发展,提升自动标注能力是提升生产力和开发效率的可行路径。商业银行可根据场景选择适合的自动标注方案,支持AI应用落地。未来,自动化技术将用于更多AI数据准备环节,如智能聚类评测数据、AI算法质检标注结果、数据合成扩充训练集,助力AI在商业银行的规模化应用。

参考文献:
[1] Pan A, Chan J S, Zou A, et al. Do the rewards justify the means? measuring trade-offs between rewards and ethical behavior in the machiavelli benchmark[C]//International Conference on Machine Learning. PMLR, 2023: 26837-26867.
[2] Gilardi F, Alizadeh M, Kubli M. ChatGPT outperforms crowd workers for text-annotation tasks[J]. Proceedings of the National Academy of Sciences, 2023, 120(30): e2305016120.
[3] 吕仲涛. 金融行业AI大模型落地探索与实践[EB/OL]. (2023-09-12) [2024-06-14]. https://mp.weixin.qq.com/s/OJEEn63iILHoJewSt9de-w.
[4] 林勇, 秦旭昆. 基于AIGC的数据资产盘点研究与实践思考[EB/OL]. (2023-10-18) [2024-06-14]. https://mp.weixin.qq.com/s/R9BiVtkNEFU8qX2D5M0f7w.
[5] AWS. Automate Data Labeling[EB/OL]. [2024-06-14]. https://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/sms-automated-labeling.html.
[6] 白帆. 主动学习(Active Learning)概述及最新研究[EB/OL]. (2022-02-05) [2024-06-16]. https://mp.weixin.qq.com/s/RWqnCy4FOJ4ygj6UwLNXpA.
[7] Desmond M, Duesterwald E, Brimijoin K, et al. Semi-automated data labeling[C]//NeurIPS 2020 Competition and Demonstration Track. PMLR, 2021: 156-169.
[8] Kojima T, Gu S S, Reid M, et al. Large language models are zero-shot reasoners[J]. Advances in neural information processing systems, 2022, 35: 22199-22213.
[9] Tan Z, Beigi A, Wang S, et al. Large Language Models for Data Annotation: A Survey[J]. arXiv preprint arXiv:2402.13446, 2024.
[10] IBM. What is instruction tuning?[EB/OL]. [2024-06-18]. https://www.ibm.com/topics/instruction-tuning.

青年研:人工智能实现自动数据标注的探究

大模型技术在零售信贷风控领域的
应用研究

零售数据应用部 刘耀群、夏雪
该文2024-8-31发布于数据治理周周谈

当前促消费、扩内需政策的持续“加码”为零售信贷业务赋予了新使命。一方面,金融机构要聚焦于惠企,致力于为小微企业和个体工商户纾困减负;另一方面,商业银行需要着力推动个人消费提质增效。在此背景下,金融机构纷纷加大市场渗透,加速下沉市场的零售布局。这一趋势迫使金融机构敏捷迭代信贷风控模型,以适应新客群的信用风险特性。同时,零售信贷业务的扩张也吸引了黑灰产利用先进的AIGC技术开展新型欺诈攻击,不断寻找现有风控规则的漏洞。机遇与风险同时驱动着金融机构将大模型技术引入信贷风控领域,构建以“模型对抗”为主的新型风控体系,提升自身对复杂风险环境的应对能力。

零售信贷风控应用现状

01

AI大模型在零售信贷领域的比较优势

02

近年来,金融机构广泛运用的信贷风控模型以“静态风控模型+动态风控策略”的模式为主,更倾向于传统的“策略对抗”。即先借助机器学习、深度学习等算法通过静态的历史金融数据构建风控模型,再通过不断调整风控

1.传统风控模型的局限性

青年研:大模型技术在零售信贷风控领域的应用研究

策略与规则来应对不同的风险场景,其实质是运用过去的数据预测未来的行为。这种模式的不足之处主要体现在以下两点:第一,对大规模、多维度数据的处理与分析能力有限,难以全面挖掘风险因子,传统风控模型多采用决策树、随机森林、评分卡等传统机器学习领域的分类或回归模型方法,高度依赖专家经验与历史数据,在输入没有明确范围的情形下较难发挥作用。第二,灵活性与时效性不足,在现今客群动态变化加快、黑灰产加速利用AI技术开展新型欺诈攻击等新形势下,传统风控模型已逐渐“失效”,风控策略的调整无法实时应对随时出现的信贷风险隐患。

《2023年商业银行风控趋势调研报告》中指出,众多金融机构的风控策略正逐渐从传统的“策略对抗”进入“模型对抗”为主的新时代。与传统风控模型相比,大模型技术具有以下几项突出优势:第一,大模型对复杂数据的学习处理能力更强,能明显提升金融机构对于海量多维数据的处理与分析能力,构建更多元化、更高效的风控模型。第二,大模型技术可以开展动态风控管理,提升风控的自动化与智能化水平,缩短风控模型迭代周期,从而显著增强风控模型应对黑灰产恶意欺诈攻击等外部环境变化的处理能力。

2. AI大模型在信贷风控应用领域的优势

3. 大模型技术在信贷风控应用领域面临的技术挑战

大模型技术在应用于信贷风控领域时仍面临着多方面的技术挑战。在数据方面,信贷风控大模型依赖于高质量、多渠道与多形式的海量数据,如何在保障数据隐私与

青年研:大模型技术在零售信贷风控领域的应用研究

安全的前提下收集、整合数据集来训练与优化大模型仍是一个难题。模型表现方面,信贷风控大模型需要具备较高的泛化能力来应对多场景的信贷风险,而信贷业务的复杂多样性导致大模型难以在所有场景都保持高性能与高准确度。在可解释性方面,由于大模型通常具有复杂的训练逻辑与决策过程,这可能会导致模型生成的风控决策难以解释,从而影响金融机构对于大模型的信任度与接受度。

传统的信贷风控模型以专家模型(Expert Model)和逻辑回归(Logistic Regression)为代表,往往局限于企业财务信息和人行征信信息等结构化数据,并基于决策树、随机森林等传统机器学习方法,通过一套预定义的标准来评估客户信用。尽管在常规场景中这些信息能够提供可用的数据见解,但是这种被动调整风控的策略难以全面审视申请人的信用状况,在准确性和速度上有一定的滞后性。
信贷风控领域的大模型本质就是利用循环神经网络(Recurrent Neural Network)以及长短期记忆网络(Long Short-Term-Memory)的时间识别序列和长时间记忆模式的能力,在短时间内进行海量的数据处理分析。这不仅包括客户征信、身份信息等传统数据,还包括社交媒体活动、客户在线行为和交易历史等非传统数据源以及各种非结构化数据。大模型技术能够将信贷风险所需要的数据要素进行标准化、结构化的处理,形成可用、易用、可扩展的信息,以此识别出这些数据中的时间关联性以及他们的趋势,帮助商业银行更全面地了解申请人的财务行为和信用风险。RNN能够将数据转化为认知特征,从而使风

AI大模型在零售信贷领域的应用探索

03

1.风险识别与评估

青年研:大模型技术在零售信贷风控领域的应用研究

控决策系统增强精细度。通过分析非传统的数据点,预测可能在未来影响其信誉的潜在生活事件,并通过自动化的审批来做授信敞口和定价,无需大量人工干预并可在在几十秒内完成整个流程。这种明显强于传统信审的模式可以帮助商业银行更加全面、准确的预测客户的潜在信用风险。

近两年商业银行信贷加速普惠金融覆盖,客群更加多样。因不同客群的信贷行为、还款意愿和能力差异,通过客群分层更精准识别风险,有助于制定差异化风控策略,提升风险识别效率。需借助模型技术整合客户信息,AI大模型可为不同客群开发定制风险模型,满足多样需求。例如,小企业主的风险评估重点在业务收入、行业趋势等,助力更精细的信贷评估,降低违约风险,同时为传统模型过滤的客户提供服务。

2.欺诈监测与预防

商业银行的传统欺诈监测模型主要依靠静态的、基于规则的方法,例如通过建立一组预定义的规则来识别可疑交易,若一笔交易超过了规则的限定额,或者发生在可疑的地理位置,则会被标记。然而由于黑灰产欺诈策略的动态性,传统模型在准确性和速度上有滞后性,银行难以实时干预。而大模型技术具备实时分析大量交易数据的能力,意味着AI能够自主从大量历史交易数据中总结出客户的交易规律,并准实时地识别出异常模式和潜在威胁。
传统欺诈监测模型依赖于统计方法和历史数据,但在捕捉非线性依赖关系、市场突发变化时往往显得手足无措。而AI大模型所应用的深度学习技术搭配循环神经网络能够很好地为商业银行增强欺诈监测:其具备的自适应性和可扩展性,以及处理大量数据和识别长时间序列中复杂

青年研:大模型技术在零售信贷风控领域的应用研究

交易模式的能力意味着他们可以以更高的精度预测潜在欺诈风险。随着新数据的流入,AI大模型能够自主调整,利用AI对历史数据长时间的“记忆”,从大量交易数据中挖掘模式、找寻规律,完善他们对合法和可疑活动的理解,这在不断变化的网络威胁和欺诈策略环境中尤为重要。

此外,AI大模型能够利用图分析技术的可视化能力,将客户的交易映射到网络或者图结构上:在这样的图中,节点代表个人账户实体,边代表不同账户之间的交易或者关系。例如,若资金在紧密相连的账户之间快速流动,这可能表明存在洗钱计划或者分层交易,旨在掩盖资金的原始来源。考虑到整个交易网络并不是孤立的活动,这有效提高了模型对欺诈检测的准确性和全面性。随着欺诈者不断改进他们的技术,从一种策略转向另一种策略,模型也会随之适应,重新校准它们的监测机制,最终导向一个不断自我更新的防御机制。

总结与展望

04

随着金融科技的不断发展,金融风控正走向数字化、智能化、自动化,其在零售信贷领域的应用场景也逐渐从“强变量”的逻辑性判断转向更多“弱变量”的组合。AI大模型凭借强大的海量计算、语义理解及智能整合能力,能够迅速从这些看似边角料的“弱变量”中找出有效信息,为商业银行精确且迅速地捕捉零售信贷市场动态变化规律提供了强有力的工具,为建立更加全面的信用及欺诈风险评估体系奠定了基础。
在确保数据隐私与安全的基础上,AI大模型技术为商业银行有效应对零售布局的加速下沉提供了坚实的理论与方法支持,有望在未来提升商业银行的风险管理效率,保障零售信贷业务的可持续发展。

青年研:大模型技术在零售信贷风控领域的应用研究

参考文献:
[1] 陈植. (2023-11-28). 信贷风控进入“大模型时代”. 21世纪经济报道, 008.
[2] A.Aljarbouh, “Accelerated simulation of hybrid systems: method combining static analysis and run-time execution analysis.” Rennes 1, 2017.
[3] L.Aziz, Y.Andriansyah, “The Role Artificial Intelligence in Modern Banking: An Exploration of AI-Driven Approaches for Enhanced Fraud Prevention, Risk Management, and Regulatory Compliance.” RCBA-2023, 6(1), 110-123.
[4] Y. Liang, W. Liang, and J. Jia, “Structural Vibration Signal Denoising Using Stacking Ensemble of Hybrid CNN-RNN,” arXiv e-prints, p. arXiv-2303, 2023.
[5] Yusof, S. A. B. M., & Roslan, F. A. B. M. (2023). The Impact of Generative AI in Enhancing Credit Risk Modeling and Decision-Making in Banking Institutions. Emerging Trends in Machine Intelligence and Big Data, 15(10), 40–49.Retrieved from http://orientreview.com/index.php/etmibd-journal/article/view/30.

青年研:大模型技术在零售信贷风控领域的应用研究

FLBOOK仿真翻页电子杂志在线制作平台
联系电话:400-88888888
地址:北京市XX区XX路XX室
网址:flbook.com.cn

Copyright © 2024 陕西妙网网络科技有限责任公司 All Rights Reserved

增值电信业务经营许可证:陕B2-20210327 | 陕ICP备13005001号 陕公网安备 61102302611033号