机器之心原创
作者:吴昕
大模型最让人印象深刻的是它们的「涌现」行为,数以万计的二进制计算决策融合成一种仿佛人类的理解力和创造力,让金融行业看到开发一个专注金融的语言大模型的巨大价值。
近半年时间,素来以新技术最早采用者著称的金融机构以及科技公司纷纷下场:
3 月,美国彭博正式发布百亿级语言大模型 BloombergGPT;
5 月,度小满推出国内首个千亿级中文金融大模型「轩辕」;
6 月,开源金融大模型貔貅(PIXIU) 、聚宝盆(Cornucopia)接踵而至
.....
9 月 8 日,蚂蚁集团在外滩大会上正式发布工业级金融大模型(AntFinGLM) ,同时开放了金融专属任务评测集「Fin-Eval」。
该测试集从五大维度(认知、生成、专业知识、专业逻辑、安全性)28 类金融专属任务评估了金融大模型能力,结果大幅超过当前主流通用大模型。在「研判观点提取」、「金融意图理解」、「金融事件推理」任务上,金融大模型已经达到专家平均水平。
巨头做大模型一定会和自己过往的业务深度融合。除了模型层,蚂蚁集团也发布了两个金融大模型的产业应用。
用户端的支小宝(2.0)是国内首个应用大模型技术的智能理财助理。内测近半年,完成备案工作后上线。
产业端的「支小助」(类似金融版 Copilot)也是蚂蚁集团首个基于金融大模的面向产业的生产力工具。
一、金融大模型:屹立在万亿 Token 上的「知识力」
通用大模型缺少金融领域的专业力、知识力、语言力以及安全力,金融大模型实现落地行业是一个复杂化的系统工程,需要将「四力」形成合力。蚂蚁集团金融行业大模型负责人王晓航在发布会上讲到。
蚂蚁金融大模型具有「四力」,知识力、语言力、专业力和安全力
所谓知识力,主要是指金融大模型的底座能力,模型规模只有足够大(通常百亿以上),才会有「涌现」现象的出现。预训练大模型则需要海量数据。
从目前公开的数据来看,BloombergGPT 的通用数据集包含 3454 亿个 Token,金融领域数据集由彭博在过去四十年的商业经营中积累而来,共包含 3635 亿个 Token。
国内金融大模型「轩辕」(2.0)使用了自身业务中积累的金融领域的 13B(130 亿) Token。恒生电子 Light-GPT 利用了超过 4000 亿个 Token 的金融领域数据。
蚂蚁金融大模型,在万亿量级 Token 通用语料基础上,注入了千亿量级 Token 金融知识 —— 包括全网公开的金融行业语料约 5000 亿 Token 以及蚂蚁独家金融语料约 279 亿 Token,行业领先。
就国内数据市场而言,我国政府数据资源占全国数据资源比重超过 3/4,但开放规模不足美国的 10%,个人和企业可资利用的规模更是不及美国的 7%。在此背景下,具有私域属性的行业数据的重要性就更为凸显。蚂蚁有着多年保险、理财、信贷平台经验,在金融大模型布局上拥有先天优势。
「小模型时代,蚂蚁就积累了深厚的数据资产和产业 AI 的 know-how。」蚂蚁集团金融行业大模型负责人王晓航在大会上讲到,他也多次提到了蚂蚁的金融知识工程。
如果说大模型是一个参数化的知识力容器,那么,知识图谱就是另一种基于符号机制的知识力容器。对蚂蚁金融大模型来说,两种知识力形成互补,缺一不可,金融知识图谱能够指导大模型对金融行业进行正确精准的认知,提高其理解、推理决策的能力。
过去几年,蚂蚁的金融科技团队在金融知识工程上做了大量投入。例如,支小宝团队基于一些研报、新闻、大 V 资讯以及高质量权威合作数据源和数据库,通过合作的一些业务专家和策略专家,对于领域专业知识进行了提炼和萃取,形成了一个标准化基础知识层。算法工程师在此基础上做了一些领域知识的关联和整合,尝试建构金融现象之间的因果逻辑,构建形成匹配金融专业要求的知识图谱、资产图谱和事理图谱等机器可读可用的数字资产。
以支小宝(2.0)为例,背后注入了金融资讯和百科 420 万 +,金融图谱覆盖保险 3000 + 险种 / 2 万 + 常规药 / 7000 + 常见病和几十种就医方式等万级实体和 50 万 + 关系,金融行业 / 板块 / 机构 / 产品 / 管理人 / 资讯等 200 万 + 实体和 1100 万 + 关系,金融数据、公开信息和条款存储量达到亿级。
不过,高质量数据集和知识图谱还只是金融大模型的「知识力」来源,大模型的业务「能力」离不开蚂蚁「从 300 + 真实产业场景中提取了共 60 万 + 高质量指令数据」(貔貅 PIXIU 指令集为 13.6 万)。
金融大模型包括三个部分:上游是预训练语言模型;下游是针对通用任务或特定任务的微调。最后要与人类对齐,基于人类反馈进行强化学习。当我们用足够多的高质量指令集对它进行微调后,大模型才能很好地胜任金融任务,包括从未见过的任务。
当谈到与金融大模型相伴的数据安全与隐私问题时,金融大模型智能算法负责人陈鸿告诉我们,用户的隐私数据在语料当中会被全部清洗掉,避免用户个人信息或者任何能识别出可联想身份的信息进入大模型的训练环节,对大模型来讲,它里面不会压入任何用户的私人数据。
安全部分,我们也做得比较严格。他强调说,不止是训练数据从入库起的每一个环节都会做清洗和过滤,我们还做了对抗样本的技术去训练模型识别这些有害内容,有害内容拦截率现在已经到 99% 以上。
二、出色的「语言力」,巴菲特为什么减持比亚迪?
金融大模型一定要有「语言力」,作为认知和交互的「中枢」,不仅要对用户的金融情感、金融意图,明察秋毫,还要善于总结归纳行业资讯,推理分析行业事件。
金融情绪有自己的特定属性。比如一些特定行情事件发生后,对于持有一些风险资产的人来说,这是个好消息,他可能会很兴奋。但对于一些持有债券、黄金资产的人来说,反而是个坏消息,不会很开心。
金融大模型有一个很重要的涌现能力 In-Context Learning,给到几个例子,不需要调整模型参数,它就能够很好地胜任这些情绪识别任务。蚂蚁金融大模型的情绪识别准确率已经超过 90%。
过去做金融意图识别,让器听懂用户要什么,难度很大。
理财对话往往具有很强的时序、连续性和历史性,用户提问「招商银行怎么样?」,很可能在此之前已经讨论过相关内容。要想听懂用户要求,机器还得有一副好记性,还要能理解上下文。
如果遇到「我要 A、B、C 这三个基金,不要 D、E、F」这样的诉求,机器还得具备逻辑能力,否则只会一股脑儿地将用户提及的六只基金全抛给对方。但是给机器引入逻辑符号也是一件比较困难的事情。
现在,用足够多的高质量指令集进行微调后,蚂蚁金融大模型已经掌握金融意图的识别,识别准确率达到 95%,达到了专家平均水平。即使从未见过的任务,也能胜任。
最有意思的是蚂蚁金融大模型甚至可以像投研专家一样解读行业事件。比如,「巴菲特为什么减持比亚迪?」
它会先从巴菲特的投资哲学、注重什么样的策略开始,然后分析他在投资界的影响力、比亚迪的业务、过去几年的财务状况等,接着分析巴菲特买入 / 卖出的时点、价格、原因。历经二十多个推理环节,最后输出它的解读:「减持原因可能是基于对股票价格与内在价值的判断和风险管理的考虑」,并做出详细解释。
传统方法难以数学建模的这么复杂的分析过程。现在,蚂蚁通过「仿金融专家多智能体协同推理」机制,实现了媲美人类投研专家的水平。
大模型其实本来就有「一人分饰 N 角」能力,可以用不同人设 prompt 召唤出它们。采用 AI Agent 的建模思路,蚂蚁让大模型派生出四个工作小组 —— 计划组、执行组、表达组和评价组 —— 执行不同任务,就像将一个大命题分拆成几个小的问题。只要业务有需要,每个小组还可以继续像这样被分拆,派生更多智能体。这些智能体协同作业,如同一个作战集群,可以快速跑出答案,给到用户。
当然,这里需要补充解释什么是「专家平均水平」?金融数据的标注需要专业人员来做。在蚂蚁集团,通常是两个专业人员打标,第三个人(专家)负责核实 ground truth(比如某个内容到底是不是合规)。蚂蚁金融大模型在某些任务上的识别精度已经达到这样的专家水平,高于负责打标的专业人员的平均水平。
三、「专业力」:调用工具,给你选基
所谓专业力,其实是指大模型调用蚂蚁的「存货」工具,完成复杂金融任务的能力。
除了意图识别,蚂蚁金融大模型有工具理解能力。你用自然语言讲清楚它做什么,然后举一些例子,大模型就可以学会将用户意图转换成一系列的 API 调用,完成更加复杂场景下的应用。
蚂蚁长达十年的积累,平台上有完备的数字化金融工具矩阵,蚂蚁金融大模型可通过理解用户语言,精准调用蚂蚁体系内的这些专业工具,给用户提供相应专业服务。理财侧包括理财选品、产品评测、行情解读、资产配置等 6 大类服务。保险侧包括产品解读、家庭配置、智能核赔、智能理赔等 10 多个智能服务。
举个栗子。你说「帮我挑一只白酒基金」,大模型会先做一个行业研判(背后调用行业研判的 API)了解白酒行业。接着,它要选择相关的基金(调用条件选基的 API)。金融大模型还会针对用户的个人风险偏好、预期回报,做必要的投教信息输出(投教 API),最后形成一个完整闭环服务:根据用户指令分析相应的基金,将要点信息发给用户,并根据行情给用户一些风险提示。
如果用户后续反馈白酒基金怎么又跌了,金融大模型可能会调用并组合产品研判(API)、图表生成(API)、投教(API)以及持仓诊断(API),给到用户完整的服务。
「这里的核心还是在做 NL2API 的事情,将自然语言翻译为合适的 API 调用。」陈鸿说,大模型有代码生成能力,可以写 Python,SQL,自然也能写 JSON,生成字符串给到下游工具 API。
相比之下,原来的技术做法就很机械,蚂蚁积累多年专业工具无法被逻辑地连贯起来,没有闭环,用户很容易「逸出」预设的逻辑,很难获得想要的服务。
当然,蚂蚁金融大模型给到的这种专业服务,不只是调用某个工具,而是这些工具的有效组合,牵涉到推理、规划能力 —— 它知道如何将这些工具组合起来,如何将不同工具的输出整合起来,变成一个完成、连贯的回答,给到用户。
这就不得不提到大模型的思维链能力。对于这类通常由多个步骤构成的复杂任务(比如数学竞赛、写代码、生成脚本),当大模型大到一定临界点时,就会涌现出思维链能能力,过去基本不能解决的问题,变得能够胜任。思维链就像做「因式分解」,把一个复杂的推理问题进行拆解,逐步解决,自然也就更容易得到高质量答案。
现在训练大语言模型的企业和机构很多,但能够训练出思维链并应用的很少。保险核赔自动化可以很好展现蚂蚁金融大模型的思维链能力。
比如,重疾险的赔付往往需要上传许多发票、病例等资料,系统识别后还需人工判断这些材料是否构成一个完整的核赔证据链。蚂蚁金融大模型通过做思维链推理就能自动判断证据链是否闭合,核赔决策准确率达到 98%。过去依靠人工核赔最快也要 1-2 天,现在仅需几秒。
四、回避不了的「安全力」
「安全力」几乎时所有围绕大模型的讨论无法回避的主题,特别是在金融这样的强监管领域,如何让通用大模型这样一个率性不羁的创作者懂得西装白领世界的中规中矩?
从第一天开始,我们就是奔着工业化上线的目的去做,所以蚂蚁金融大模型的安全力功课做得比较细致。王晓航在大会后接受记者采访时谈道。
与主流通用大模型相比,蚂蚁金融大模型有更强的生成内容安全的能力,主要包括三个方面。除了和通用大模型一样要与社会价值观对齐,金融行业内容生成还要遵循更严苛的金融合规要求。比如,不能有强观点、不能直接去推荐买或者推荐卖、预测涨跌等等。
蚂蚁金融大模型采用了一个关键技术 RLHF。RLHF 使大模型基于巨量数据进行持续反馈与强化学习,更好掌握人类的偏好,结果更符合人类预期,比如风险规避水平、投资习惯,当然也包括安全合规。
「我们也用 RLHF 让大模型对齐这些业务上比较复杂的适当性要求,然后也用后置校验的方式去保障这个底线。」陈鸿解释说。
针对大模型最后输出,会用到 Reward model,它是强化学习中的一个核心概念,可以用来评价 Agent 的一次行动的奖励是多少,并以此为信号指导 Agent 的学习。比如,通过给输出打分,看看是否安全合规,利用打出的 Reward 对生成模型进行迭代。
「合规要求都非常细,我们都是跟业务对出来的,然后也经过 RLHF,和人类去对齐这些标准,所以,合规水位会比通用模型要高。」陈鸿说,在线上实际运行的时候还会有例行的巡检,对各种意外的情况做毫秒级的安全拦截。
第三,金融事实是高度动态的,尤其是一些行情数据(比如收盘价、基金涨跌幅度),我们会通过一些工具,比如检索外部实时更新的金融数据库去确保事实准确性,要求也会比通用大模型更高。
针对大模型的幻觉问题,在大规模产业级应用里(比如核赔),蚂蚁采用了大模型与知识图谱相结合的双轮驱动,确保生成内容的专业和严谨。此外,蚂蚁还让大模型生成思维链,一步一步展开思考过程,用概率图模型来检验这些推理链条的置信度,确保事实性幻觉问题的大幅下降。
蚂蚁集团首席技术官、平台技术事业群总裁何征宇在大会上表示,建设大模型安全能力也是未来蚂蚁持续探索和精进大模型的五大能力方向之一。
四、「四力合一」的上与下:底层支持与产业应用
强大底层算力设施为蚂蚁金融大模型提供了一个好的基础和起点。
之前 AI 应用里,很多训练的任务都是单卡或单机就能完成,但在大模型时代,需要千卡、万卡来完成一个任务。这就需要构建智算集群,能够支持万卡级别的高速互联,并且支持各种异构算力,包括 CPU、GPU 等算力的高速互联。
蚂蚁金融大模型走纯自研的技术路线,全栈布局,在底层基础设施方面,目前已建成万卡 AI 集群,为大模型落地应用提供有力支撑。
不过,高性能 GPU 卡多了,在现有工程条件下保证大量的卡的长时间稳定运行,极有挑战性。因为中间容易出现各种状况,导致重启,拉低训练效率。蚂蚁也历经了许多试错,目前千卡规模训练 MFU 业界水平并不理想,蚂蚁的千卡规模训练 MFU 可达到 40%。另外,集群有效训练时长占比 90% 以上。
值得注意的是,蚂蚁金融大模型是直接面向生产的工业级大模型,因此也做了很多推理上的工作。比如,提升系统每秒吐出的 Token 数量。
ChatGPT 推理输出时,都是一个字一个字地出,等它把最后一个字出完了,机器才能执行。系统反应完成大概需要十几秒,在真实应用场景下,这种体验会很差。
目前,蚂蚁金融大模型的「RLHF 训练在同等模型效果下,训练吞吐性能相较于业界方案提升 3.59 倍,推理性能相较于业界方案提升~2 倍,处于业界先进水平。」
离开底层再往上看,金融大模型能否与应用场景结合,解决产业真问题,一直是蚂蚁的关注点。王晓航在大会上表示,销售、服务、风险管理、投研、理赔等,金融业务链条上每一个关键职能,「都值得用大模型技术重做一次。」
具体到消费端,支小宝(2.0)完成从检索式 AI 飞跃到生成式 AI,服务水平趋近于专家水平,能帮助用户深度解读市场信息、并结合用户的财务目标、投资偏好等,提供个性化的配置策略。
这里需要补充一点 —— 支小宝的「情商」也有显著提升。理财市场朝着权益净值化方向发展,更好更专业的陪伴也成为一种必然趋势。陪伴小白用户更理性持有理财产品,「情商」不可或缺。
支小宝(2.0)在回答用户提问后,还会自动「反思」回答准确度,进行自我纠偏。
这种「自省」,主要是指判断自己给到的答案是不是可信。陈鸿解释说。比如,客户问白酒为什么涨,第一步可能是理解他想问什么,接下来可能要调取相应的服务和工具去生成相应回应,最后还会评价自己刚才的生成的结果到底有多可靠。
它知道自己这句话的置信度,然后决定要不要「认怂」,这在小模型时代是很难做到的。
相关推荐
相关内容
洪 樱 成依潇 刘雯娟 黄利飞 新型农业经营主体贷款余额177.2亿元,累计涉农贷款余额达6264.5亿元; 普惠型小微企业贷款余额达2182亿元,支持普惠型小微企业户数50.8万户; 新版手机银行客户数1244万户,收单商户数79万户,线···
全国港口前三季度吞吐量出炉1-9月,全国港口集装箱吞吐量前10名分别是:上海港(第1)、宁波舟山港(第2)、深圳港(第3)、青岛港(第4)、广州港(第5)、天津港(第6)、厦门港(第7)、苏州港(第8)、北部湾港(第9)、日照港(第10)。图片来源于港口圈1-9月,···
定安打出组合拳推动知名企业纷纷落地海南日报记者 李豌 特约记者 孙国富蜜雪冰城全球供应链总部基地和全国冷链物流总部基地项目、煌上煌集团……近年来,大企名企纷纷落地定安。国际投资单一窗口综合管理系统数据显示,2020年5月至今年9月,定安县在库项目36个,签约金额达158.9···
45年·45人·45个典型改革案例丨熊维政:一定要把信阳茶油做上市□本报记者 胡巨成 刘宏冰潜心医药行业40余年,将一家作坊式医药小厂,做成大别山革命老区和全国贴膏剂药业首家上市企业,打造出“百亿级贴膏剂生产基地”的羚锐制药前“掌门人”熊维政,在他60岁时急流勇退,放手交棒,转身创办了信阳信锐油茶股份有限···
山东区划设想,二分滨州,组建渤海市,利津改区,邹平与高青互换近年来,随着我国产业结构的不断调整,经济增长方式也在持续优化,特别是随着交通等基础设施的完善,区域经济开始朝着一体化发展方向迈进。如果用《射雕英雄传》中的一句话来形容,江苏是“东邪”、广东是“南帝”、四川是“西毒”,那么山东则是“北丐”,此···
为什么河南经济是最没有希望的?上车,带你深度了解河南的问题“河南小孩出生就是为了离开河南”,这是我最近一个关于河南经济评论文章下点赞最高的评论。这句话我深深刺痛着自己,因为我自己就是河南人,深知这里面包含了多少无奈和心酸。当人们在聊地域之争的话题时,大家都会为自己的省份争辩几句,然而只有河南人,会···
关注双11丨“88VIP”淘宝天猫全网商品都能用花呗分期免息2023天猫“双11”活动今晚8点正式开始。今年“88VIP”大额券总规模达到200亿,用户可领券额度最高可达860元。支付宝针对“88VIP”淘宝天猫用户还推出花呗分期免息服务,消费者购买大件商品又多了一重实惠。“88VIP”用户购买单价···
每日新闻,60秒知晓世界热点2023年10月31日,星期二,农历九月十七1、31省份前三季度人均可支配收入公布:上海北京首超6万元位居全国前列,浙江天津江苏同属4万+梯队紧随其后;长三角万亿城市经济三季报:合肥增速第一,宁波增速超上半年;2、工行、农行、中行、建行、邮···
2024年城乡居民参保调整,一次性补缴5.9万,每月能领2300元吗?随着时间的推移,社会保障制度也在不断地完善和调整。2024年城乡居民参保也将迎来新的一轮调整。据相关政策规定,未来居民参保需要一次性补缴5.9万,每月能领2300元。这个政策引起了很多人的关注和讨论。对于这个政策,有些人认为一次性补缴5.9···
老百姓:第三季度净利润同比增长32.78% “聚焦发展”战略优势凸显中证网讯(记者 段芳媛)老百姓10月30日晚间披露2023年第三季度报告。公司前三季度实现营业收入160.42亿元,同比增长16.44%;实现归属于上市公司股东的净利润7.17亿元,同比增长17.54%。其中,第三季度实现营业收入52.31···
紧抓机遇开展差异化竞争 骆驼股份积极开拓国际市场骆驼股份 黄剑波/供图 彭春霞/制图证券时报记者 韩忠楠越来越“卷”的新能源汽车赛道,既充满挑战,也酝酿着新的机遇。近期,受益于华为与赛力斯联合打造的全新问界M7的热销,与之相关的汽车产业链在A股市场的热度也随之升温。这当中,为问界M5/M···
宝山罗店:罗南二村 半年跌幅近乎恐怖 郊区老破小太可怕前几天,我们写了几个宝山区二手房系列,美兰湖板块的万科琥珀郡园以半年跌幅近五分之一位列榜首,我以为就是跌幅极限。然后,今天现场去看了位于美兰湖南侧的罗南新村,在那周围详细地看了看,然后比较了一下罗南二村最近成交与4月份左右的成交记录,愕然发···
压倒许家印并不是造车,而是恒大童世界,砸几千亿搞了十几个鬼城恒大集团以其高调的投资和建设项目而闻名,最近引起了人们的广泛关注。与传统地产业务不同,恒大集团的新尝试是在娱乐旅游领域建设恒大童世界。这一巨大的投资计划引发了广泛的争议和讨论。恒大童世界的建设规模之大令人瞩目。据报道,恒大集团计划投资数千亿···
《人民日报》警告奏效?98款,突破1亿台!华为正式宣布导语:在科技的浪潮中,华为从遭遇“极限施压”,到芯片突破和鸿蒙生态的自研,始终展现出卓越的技术实力和坚韧不拔的创新决心。华为面对挑战:技术封锁与自主创新在2019年,《人民日报》发送《人民日报评华为遭"极限施压":科技自立,时不我待》一文,···
中国钢铁大王戴国芳,入狱5年东山再起,再造500强民企狂赚1957亿他从一个收废品的穷小子,摇身一变,登上了中国400富豪榜。他的钢铁厂年销售额已超过1个亿,手下员工超过1千人,他就是钢铁大王戴国芳但是这个钢铁界的王者,却因为一时错误,被捕入狱,还坐了5年牢。出狱后,他不忘初心重操旧业,不仅再次创办炼钢厂,···
油价暴跌倒计时,专家透露:11月国内高油价将消失!随着外资油站的进入,国内加油站市场的竞争格局正在发生重大变化。近日,多位专家在接受记者采访时表示,预计11月国内高油价将不复存在。这一预测的背后,是外资油站的入驻带来的市场冲击和国内油价的持续波动。外资油站的进入,打破了国内加油站的垄断格局···
共话中国经济新机遇丨专访:中国经济展现出发展韧性新华社日内瓦10月30日电 专访:中国经济展现出发展韧性——访联合国贸发会议资深经济学家梁国勇新华社记者陈斌杰联合国贸发会议资深经济学家梁国勇日前接受新华社记者书面专访时表示,中国经济今年前三个季度的增长态势展现出了发展韧性和潜力。中国国家···
润达医疗:目前在上海、北京等地区部分医疗机构已开展LDT相关业务的试行润达医疗近期接受投资者调研时称,目前在上海、北京等地区部分医疗机构已开展LDT相关业务的试行,公司在上海等地区积极和相关部分医疗机构展开合作,共同推进LDT相关业务在医疗机构的开展。未来随着相关政策法规进一步完善,LDT相关业务将给公司带来···
国航率先公布第三季度财报,疫情后首度扭亏在阅读此文之前,希望用您发财的小手点一下“关注”,文章内容来源于网络但是最后会有小编的个人感悟,如有不足之处可以评论指出,谢谢您的支持。民航行业近期公布的积极消息显示了行业的积极向上趋势。多家航空公司在财报中宣布扭亏为盈,旅客运输量也逐步恢···
竹塑革命!中国发改委推动“以竹代塑”三年行动计划。近日,中国国家发展和改革委员会发布了一份重要通知,名为《加快“以竹代塑”发展三年行动计划》,这一举措旨在推动“以竹代塑”产业体系的快速建立。这个消息将给与竹制品、造纸等行业密切相关的产业带来利好消息。竹子作为中国特色植物,广泛应用于造纸、包···