General Artificial Intelligence
▷政策速递
▷焦点新闻
▷评测专栏
▷行业动态
▷特邀续集
通用人工智能
2023.07.01
上海市人工智能行业协会
第4期
"模"都倡议
焦点新闻
报道国内外AGI领域的重大事件、突发新闻和热点话题,为读者提供及时的信息资讯。
评测专栏
评测AGI领域的代表性技术产品和模型,分析其优势、缺陷和改进空间,为读者提供严谨的技术评价。
行业动态
关注AGI领域的投融资新闻和分析,探索AGI产业的发展机遇和挑战,为读者提供有价值的商业洞察。
特邀续集
邀请AGI领域的专家学者、企业家、创新者等,分享他们对AGI的见解、经验和展望,为读者提供深度的思想交流。
通用人工智能
《通用人工智能》是一份专注于通用人工智能(AGI)领域的研究报告,旨在为读者提供最新的政策速递、焦点新闻、评测专栏、行业动态和特邀续集等内容。关注AGI的技术进展、应用场景、风险防范和伦理治理等方面,以客观、专业、前瞻的视角,展现AGI的发展现状和未来趋势。
本期杂志还特别邀请到上海市生成式人工智能质量检验检测中心(筹) 供稿,《通用人工智能》的栏目设置如下:
政策速递
梳理国内外相关政策文件,分享政策背景、目标、措施和影响,为读者提供可靠的政策指引。
目录
2
Dr.Wang
用AI生成
内页
3
上海市生成式人工智能质量检验检测中心(筹) 供稿
4
上海市生成式人工智能质量检验检测中心(筹) 供稿
5
上海市生成式人工智能质量检验检测中心(筹) 供稿
6
上海市生成式人工智能质量检验检测中心(筹) 供稿
7
上海市生成式人工智能质量检验检测中心(筹) 供稿
8
上海市生成式人工智能质量检验检测中心(筹) 供稿
9
人工智能可分为专用人工智能和通用人工智能。专用人工智能,只能通过一套特定的算法,完成特定的任务。通用人工智能又称强人工智能,能像人一样举一反三、触类旁通。比如,它能接收不同类别、有一定规模的数据,包括文字、影像、语音,然后把它们融合在一起,遇到新任务时,就可以快速“想到”做过的相关事情并调用掌握的相关知识,创造性地解决问题、完成任务。
政策速递
人民日报:重视通用人工智能
《生成式人工智能服务管理暂行办法》已经2023年5月23日国家互联网信息办公室2023年第12次室务会会议审议通过,并经国家发展和改革委员会、教育部、科学技术部、工业和信息化部、公安部、国家广播电视总局同意,现予公布,自2023年8月15日起施行。
上海人工智能研究院通过《生成式人工智能服务管理暂行办法》
政策速递
100
为了进一步规范和促进浦东新区无人驾驶装备创新应用,推动智能装备产业高质量发展,保障道路交通安全,根据《上海市人民代表大会常务委员会关于加强浦东新区高水平改革开放法治保障制定浦东新区法规的决定》以及相关规定,结合浦东新区实际,制定本规定。该规定于2023年6月29日浦东新区第七届人民代表大会常务委员会第十五次会议通过。
本规定适用于在特定道路和区域开展无人驾驶装备测试、运营等创新应用活动以及相关监督管理工作。本规定所称的无人驾驶装备,是指符合相关技术标准或者规范,通过智能网联系统完成自动驾驶,执行预定任务的低速轮式装备。
为体现市场化开放合作对接机制,充分发挥投资界、产业界、学术界力量,北京市经济和信息化局组织相关专家对申报加入第二批伙伴计划的单位开展评估。评估最终确定伙伴成员63家,包括北京百度网讯科技有限公司、北京世纪互联宽带数据中心有限公司等算力伙伴10家,中电数据服务有限公司、中国科学院文献情报中心等数据伙伴10家,华为技术有限公司、北京旷视科技有限公司、科大讯飞(北京)有限公司等模型伙伴10家,北京值得买科技股份有限公司、北京爱奇艺科技有限公司、作业帮教育科技(北京)有限公司等应用伙伴24家,北京互联创新工场投资管理有限公司、北京集智未来人工智能产业创新基地有限公司等投资伙伴9家,
此外,为持续充分发挥北京市人工智能领域的技术创新优势和产业资源优势,鼓励推动大模型技术创新应用,发挥市场化供需对接开放平台的倍增效应,经专家综合评估,北京市经济和信息化局继续发布了第二批模型观察员29家,为北京深言科技有限责任公司、启元世界(北京)信息技术服务有限公司、北京衔远有限公司、达而观科技(北京)有限公司等
政策速递
11
政策速递
2023世界人工智能大会圆满闭幕,发出新倡议、介绍新政策、签约新项目、打造新生态
以“智联世界 生成未来”为主题的2023世界人工智能大会今天(8日)在世博中心闭幕。上海市副市长刘多宣布大会闭幕,上海市政府副秘书长庄木弟等出席闭幕式。上海市经济和信息化委员会主任吴金城作大会成果总结。
闭幕式对2023世界人工智能大会进行了精彩回顾。来自上海少年科学院的两位小院士带来了两场科创“演讲秀”,展现了上海人工智能科技创新未来生力军的青春风采。
闭幕式上,上海经济和信息化委员会副主任张英介绍了上海即将出台的大模型创新发展政策要点,将围绕“创新能力、创新要素、创新应用、创新环境”4大方向,重点打造“3项计划+5大平台”。
会上,上海市法学会党组副书记、专职副会长施伟东,上海市人工智能行业协会秘书长、上海市人工智能标准化技术委员会秘书长钟俊浩,商汤科技联合创始人、商汤大装置事业群总裁杨帆,复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏,达观数据董事长陈运文,共同发起《“模”都倡议》,聚焦大模型为代表的人工智能新动能,为高质量发展提供助力。
此外,一批全新人工智能项目进行了现场签约,涵盖了算力、数据、大模型、硬件、软件等不同领域,展现了上海不断突破的创新策源力,不断凝聚的产业新动能,不断刷新的应用新标杆,不断优化的开放新生态。
2023世界人工智能大会累计1400余名嘉宾参会,展览面积超过5万平米,共计举办133论坛。截至8日下午三点,线下参观人数突破17.7万人,全网流量突破10.7亿,比上届增长68%,全网曝光量64.1亿,均创历史新高,辐射2600余家网络与媒体。大会共对接210家上下游企业,达成110亿意向采购金额,推动32个重大产业项目签约,项目投资总额288亿,精彩纷呈、硕果累累。
12
ChatGPT最强竞品Claude2来了:代码、GRE成绩超越GPT-4,免费可用
近日,被很多网友称为「ChatGPT 最强竞品」的人工智能系统 Claude 迎来了版本大更新。Claude 2 正式发布!据介绍,Claude 2 在编写代码、分析文本、数学推理等方面的能力得到加强,并且可以产生更长的响应。更重要的是,用户可以在新的 beta 网站上免费试用,并且 Claude 2 商用 API 的价格与 1.3 版本相同。
焦点新闻
清华第二代ChatGLM2开源!中文榜居首,超过GPT-4,推理提速42%
ChatGLM-6B自3月发布以来,在AI社区爆火,GitHub上已斩获29.8k星。如今,第二代ChatGLM来了!清华KEG和数据挖掘小组(THUDM)发布了中英双语对话模型ChatGLM2-6B。
焦点新闻
《2023年前沿技术十大报告》
在夏季达沃斯论坛(世界经济论坛第十四届新领军者年会)上,《2023年十大新兴技术报告》正式公布,包括了:
柔性电池、 生成式人工智能、可持续航空燃料、工程噬菌体、善心理健康的元宇宙、植物传感器、空间组学、柔性神经电子学、可持续计算、人工智能辅助医疗
羊驼再度进化,“长颈鹿版”LongLLaMA 来啦,上下文长度冲向 100K ,性能不减
撑起了开源大模型一片天的 LLaMA 家族再添新成员,LongLLaMA 横空出世。对标原始的 LLaMA 模型,伴随着 Prompt 长度的增加,LongLLaMA 表现出了极佳的性能,在上下文长度为 100k 时正确率才出现明显的下降,并且仍然可以达到 94.5% 的正确率。
马斯克创立xAI
马斯克宣布 xAI 公司正式成立。马斯克表示,推出 xAI 的原因是想要“了解宇宙的真实本质”。xAI 公司的目标是了解宇宙的真实本质,虽然是一个独立的实体,但会与“X 公司”、特斯拉和其他公司有密切的合作关系。
13
焦点新闻
李飞飞「具身智能」新成果!机器人接入大模型直接听懂人话
李飞飞团队具身智能最新成果来了:大模型接入机器人,把复杂指令转化成具体行动规划,无需额外数据和训练。新方法实现了零样本的日常操作任务轨迹合成,也就是机器人从没见过的任务也能一次执行,连给他做个示范都不需要。可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔充电线都能完成。
大约一年前,李飞飞在美国文理学会会刊上撰文,指出计算机视觉发展的三个方向:具身智能、视觉推理、场景理解。李飞飞认为,具身智能不单指人形机器人,任何能在空间中移动的有形智能机器都是人工智能的一种形式。
正如ImageNet旨在表示广泛且多样化的现实世界图像一样,具身智能研究也需要解决复杂多样的人类任务,从叠衣服到探索新城市。遵循指令执行这些任务需要视觉,但需要的不仅仅是视觉,也需要视觉推理理解场景中的三维关系。最后机器还要做到理解场景中的人,包括人类意图和社会关系。机器人结合大模型可能正是解决这些问题的一个途径。
美国首次批准纯电垂直起降飞行汽车 Alef Aeronautics Model A
美国联邦航空管理局FAA刚刚批准了Alef Aeronautics公司一款叫做Model A的飞行汽车,这是一款纯电驱动的垂直起降无翼可飞行汽车,这意味着它可以合法的在美国空中飞行,在行业内尚属首次。根据Alef Aeronautics公司的声明,这款飞行车行驶里程为200英里,而飞行距离为110英里。显然就续航里程来看还是相当初级的,仅仅是个早期概念,但在业内抢得头筹。
普林斯顿大学等发布首个完整「成年果蝇」大脑连接组
来自普林斯顿大学等机构的研究者发布了果蝇的全脑连接组,这是首个完整的成年果蝇大脑神经连接图。该研究对整个果蝇大脑的重建所得到的连接图已经足够完整,足以被称为连接组。
与秀丽隐杆线虫(300 个神经元,小于 10^4 个突触)和果蝇第一龄幼虫(3,000 个神经元,5×10^5 个突触)相比,其连接组有了明显的飞跃:连接组不仅仅是数量上超越了果蝇半个大脑,它还涵盖了果蝇中央大脑的食道下区(SEZ),该区域对味觉和机械感知等非常重要,此外,连接组还涵盖了从果蝇大脑向下驱动运动神经元的过程。
总体来说,这项工作奠定了某些基础,既可以深入研究目前和预期中正常的苍蝇连接组,也可助力未来的性双态、经验依赖的可塑性、全脑规模发展和疾病等方向的研究。
14
又一届国际AI顶会被“攻占”:华人学者占据半壁江山,清华腾讯团队纷纷拿奖
ACL(Association of Computational Linguistics)起源于1962年,源自美国一个小而专注的学术组织,其宗旨是推动计算语言学的发展。在当时,计算机科学才刚刚起步,人工智能更是还处于婴儿阶段的学术概念,但ACL早在60多年前就已经预见了的科技的巨浪,今年已经是第61届大会。
ACL 2023 在加拿大多伦多揭晓了三篇“年度最佳”学术论文,其中有两篇都有华人研究者的身影。值得注意的是,不仅是最佳论文,在此次的所有获奖论文中,有华人学者参与和由华人团队领导的研究几乎占据了半壁江山。
在39个杰出论文中,全部都由华人研究者组成的研究团队达到了六个,有华人参与的杰出论文占一半以上。这些研究者所来自的中国机构既有清华大学、复旦大学、南京理工大学等高校,也有华为、腾讯等大型企业。
ACL会议每年都会产生大量的顶级研究论文,推动了自然语言处理技术的快速发展,这些新思想、新技术往往也会被业界快速应用和商业化。最重要的是,ACL培育了一代又一代的AI领袖和研究者,是全球AI领域最重要的人才池。
Meta重新定义多模态
Meta推出了一个基于Transformer的多模态模型——CM3leon,在文生图和图像理解领域都取得了绝对的突破,堪称同类最佳。显然,Meta的这项研究,为多模态AI定义了一个全新的标准,预示着AI系统完全可以在理解、编辑、生成图像、视频、文本这些任务上自由切换。同时,CM3leon的推出,正式标志着自回归模型首次在关键基准上,与领先的生成扩散模型的性能相媲美。
CM3leon的多功能架构,让它能够在文本、图像和构图任务之间流畅地自由转换。除了文生图的功能,CM3leon还可以为图像生成标注、回答有关图像内容的问题,甚至可以根据边界框和分割图的文本描述创建图像。这种将模态组合成单一模型的情况,在此前在公开披露的AI系统中是前所未有的。
总的来说,Meta认为,CM3Leon在各种任务上的出色性能,是朝着更真实的图像生成和理解迈出的重要一步。而这样的模型,最终可以帮助提升创造力并在元宇宙中实现更好的应用。
焦点新闻
15
焦点新闻
Google DeepMind掌舵人Demis Hassabis专访:合并后「超级单元」内幕,以及如何开展下一代模型研究
近日,《Verge》采访了 Google DeepMind 的新任CEO Demis Hassabis。Demis Hassabis透露,DeepMind 与 Google Brain两个团队文化的相似程度要高于外界的报道。整个融合过程非常顺利和愉快。过去的十年中,有大量合作项目,彼此非常了解。两个独立团队合作有意义,可以消除重复性的工作。新团队被称之为「超级单元」(super unit)。他们即将推出的下一代多模态大型模型「Gemini」就结合了 DeepMind 和 Google Brain 两个世界一流研究团队的最佳思路。
Demis认为,真正的研究从来都不是一条直线,也不可能在开始研究前就知道答案,研究总是伴随着不确定性,我们无法准确预测实现 AGI 的时间表。在未来的五到十年内,我们可能会趋近于逐步提升的状态,也可能在现有技术的扩展方面遇到瓶颈,导致系统的性能和收益递减。
他表明,Google希望做到「既大胆又负责任」,这是我们努力追求的目标。所谓「大胆」,指的是对 AI 为世界带来的好处持乐观态度,从而帮助人类应对我们面临的最大挑战(例如,疾病、气候、可持续发展等问题)。而「负责任」指的是确保我们以尽可能多地保持审慎态度,尽可能提前预测产品可能带来的影响。
同时他也提出,聊天机器人只是冰山一角。AI 的类型远不止生成式模型,规划、深度强化学习、决策和推理等能力将在下一波浪潮中再次回归。两年后,我们将会谈论全新类型的产品、体验和服务。Google DeepMind 将专注于构建下一代产品。
Midjourney的免费替代SDXL1.0来了
随着技术的不断进步,AI工具的发展也在持续推进。Midjourney迎来了一款免费替代SDXL1.0的新版本。SDXL是一个庞大的模型 (2.6B个Unet参数),比之前的SD模型更慢,需要更多的显存。其能力增强不少。在用户偏好方面,SDXL甚至与Midjourney v5.2大致持平。
它实现了更好的图像-文本对齐,且在处理低分辨率训练图像 (基于图像尺寸进行模型调整) ,随机裁剪(基于裁剪位置进行模型调整) 以及非方形图像的处理 (基于宽高比进行模型调整) 上有了显著改善。SDXL还具有一个可选的改进阶段,专训练用于从高质量图像中去噪少量噪声 (当已经存在大量信号时)
16
智源「悟道3.0」Emu模型开源,「多模态-to-多模态」全能高手
首个打通从多模态输入到多模态输出的「全能高手」,统一多模态预训练模型 Emu 开源,来自智源研究院「悟道·视界」研究团队。
Emu超越了此前 DeepMind 的多模态大模型 Flamingo,刷新8项性能指标;并且模型能力覆盖图像与文本的生成及视频理解,更通用,能完成任意图生文以及文生图的多模态任务。这一突破来自于 Emu 创造性地建立了多模态统一学习框架与视频数据的大量采用,最终得以实现对任意形式的多模态的上下文序列进行图文任意模态的补全,即对于任意模态进行下一步自回归预测。
Emu 在众多常用测试基准上表现出极强的零样本性能,展现了模型在遇到未知任务时强大的泛化能力。其中,Emu 在图像描述 COCO Caption 的 CIDEr 得分为112.4,且模型对图片的描述中包含丰富的世界知识。此外,Emu在图像问答 VQAv2 和视频问答 MSRVTT 数据集上也展现了强劲的视觉问答功能。
谷歌聊天机器人Bard重大升级,可支持中文、识图、存档
美东时间周四,谷歌对其人工智能(AI)聊天机器人Bard进行了版本更新。谷歌宣布,将向欧盟和巴西的更多用户开放Bard服务,这些地区拥有数亿人口,这是该产品自今年2月发布以来最大规模的扩张。Bard被添加了更多语言功能,还拥有了图像分析功能,用户可以上传图片,并要求Bard提供有关图片的信息,或者要求它根据图片制作标题。
Bard 工程副总裁 Amarnag Subramanya 在本周四的博客文章中表示,此次更新是 Bard 迄今为止最大的能力扩展,并写道:「随着时间的推移,我们将 Bard 引入更多地区和更多语言上,我们将继续以自身 AI 原则为指导,纳入用户反馈,并采取措施保护人们的隐私和数据。」
新版本功能包括支持包括中文在内的40多种语言(含图形界面),图像识别(需要在账号设置中将显示语言改为英语),对话朗读、聊天记录和对话分享,代码可导出到Replit,回复内容可编辑。
焦点新闻
17
评测专栏
评测专栏
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
在这篇文章中,作者从定量和定性两个方面对此类模型的训练进行了系统和全面的研究。设置了 20 多种变体,对于网络结构,比较了不同的 LLMs 主干和模型设计;对于训练数据,研究了数据和采样策略的影响;在指令方面,探讨了多样化提示对模型指令跟随能力的影响。对于 benchmarks ,文章首次提出包括图像和视频任务的开放式视觉问答评估集 Open-VQA。
作者提出了 Lynx(猞猁)——进行了两阶段训练的 prefix-finetuning 的 GPT4-style 模型。在第一阶段,使用大约 120M 图像-文本对来对齐视觉和语言嵌入 (embeddings) ;在第二阶段,使用 20 个图像或视频的多模态任务以及自然语言处理 (NLP) 数据来调整模型的指令遵循能力。模型结构如下图。
作者测评了现有的开源多模态 LLMs 模型在 Open-VQA、Mme 及 OwlEval 人工测评上的表现。可以看到 Lynx 模型在 Open-VQA 图像和视频理解任务、OwlEval 人工测评及 Mme Perception 类任务中都取得了最好的表现。其中,InstructBLIP 在多数任务中也实现了高性能,但其回复过于简短,相较而言,在大多数情况下 Lynx 模型在给出正确的答案的基础上提供了简明的理由来支撑回复,这使得它对用户更友好。实验结果显示 Lynx 模型表现最准确的多模态理解准确度的同时,保持了最佳的多模态生成能力。
如下图是在Open-VQA 图片上的测试表现。
18
达闼机器人获超10亿元C轮融资,曾赴美上市失败
近日服务机器人开发商达闼机器人股份有限公司(以下简称“达闼机器人”)获得超10亿人民币C轮融资,由知识城集团,上海国盛投资集团联合领投。
达闼机器人成立于2015年,总部位于上海,在北京、深圳、成都、合肥和珠海等地设立分支机构。主要产品包括云端智能机器人开发平台,以CloudGinger为代表的人形服务云端机器人,按实际应用可分为配送、巡逻递送、清洁、售货等多功能型云端机器人;主要用于酒店、学校、商超、产业园区等生活场景。
回溯达闼机器人的发展历程,截至目前已完成4轮融资。该公司在A轮、B轮与B+轮融资额均达到或超过1亿美元,投资方包括软银中国资本、启明星辰、深创投、中关村发展集团、金地集团、富士康等。该公司在2019年7月曾尝试赴美上市,但此次上市被迫以失败告终。
行业动态
和光舒卷完成天使轮融资
和光舒卷是一家智能制造工业软件提供商,致力于在全球制造业数字化创新升级的当下,以计划驱动工业制造上下游的协同融合,不断提升订单交付能力和供应链整体运营效率,协助商业伙伴实现工业数字化顺利转型升级,并为工业制造领域提供集产销计划、供应链计划、生产执行计划于一体的数字化制造运营解决方案。近日,和光舒卷完成天使轮融资。本轮融资由云启资本独家投资,诚维资本担任本轮融资财务顾问,其资金主要用于产品及技术研发投入、人才引进及加速市场布局等业务。
汤姆猫连投两轮的西湖心辰:一年半内把高情商大模型“做到国际顶尖”
一家杭州大模型创业公司,最近成为了资本的宠儿,7月10日,获得了汤姆猫第二笔战略融资,金额过亿,除了汤姆猫,蓝驰创投、BV百度风投、凯泰资本、西湖科创投、西湖教育基金可持续发展平台在此之前也投资了它。
这家被投的明星创业公司就是西湖心辰。今年年初,前美团联合创始人王慧文计划收购西湖心辰,但与创始团队多次接触后,未达成合作。西湖心辰创始人蓝振忠回应道,“我有决心把心辰打造成中国的Open AI,且认为目前心辰的打法更适合中国国情。”7月中旬,西湖心辰正式推出了自研的西湖大模型,以情商智商俱佳为特色,目标是打造陪伴10亿人的AI。
行业动态
19
特邀续集
终极“揭秘”:GPT-4模型架构、训练成本、数据集信息被扒出来了
一直以来,大家都对 GPT-4 的模型架构、基础设施、训练数据集、成本等信息非常好奇。奈何 OpenAI 嘴太严,很长时间以来,大家也都只是猜测这些数据。
不久之前,「天才黑客」乔治・霍兹(George Hotz)在接受一家名为 Latent Space 的 AI 技术播客采访时透露出一个小道消息,称 GPT-4 是由 8 个混合专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。虽然此消息无法验证,但其流传度非常高,也被部分业内人士认为非常合理。最近,更多的消息似乎被泄露了出来。
7.11日,SemiAnalysis 发布了一篇付费订阅的内容,「揭秘」了有关 GPT-4 的更多信息。文章称,他们从许多来源收集了大量有关 GPT-4 的信息,包括模型架构、训练基础设施、推理基础设施、参数量、训练数据集组成、token 量、层数、并行策略、多模态视觉适应、不同工程权衡背后的思维过程、独特的实现技术以及如何减轻与巨型模型推理有关的瓶颈等。作者表示,GPT-4 最有趣的方面是理解 OpenAI 为什么做出某些架构决策。
此外,文章还介绍了 A100 上 GPT-4 的训练和推理成本,以及如何拓展到下一代模型架构 H100 。根据 Deep Trading(一家算法交易公司)创始人 Yam Peleg 的推文(目前已删除),可整理得以下关于 GPT-4 的数据信息。该数据非官方,仅供参考。
1、参数量:GPT-4 的大小是 GPT-3 的 10 倍以上。文章认为它 120 层网络中总共有 1.8 万亿个参数。
2、确实是混合专家模型。OpenAI 能够通过使用混合专家(MoE)模型来保持合理成本。他们在模型中使用了 16 个专家模型,每个专家模型大约有 111B 个参数。这些专家模型中的 2 个被路由到每个前向传递。
3、MoE 路由:尽管文献中对于选择将每个 token 路由到哪个专家模型的高级路由算法进行了大量讨论,但据称 OpenAI 在当前的 GPT-4 模型中采用了相当简单的路由方式。该模型大约使用了 550 亿个共享参数来进行注意力计算。
4、推理:每次前向传递的推理(生成 1 个 token)仅利用约 2800 亿个参数和约 560 TFLOP 的计算量。相比之下,纯密集模型每次前向传递需要大约 1.8 万亿个参数和约 3700 TFLOP 的计算量。
20
特邀续集
5、数据集:GPT-4 的训练数据集包含约 13 万亿个 token。这些 token 是重复计算之后的结果,多个 epoch 中的 token 都计算在内。
6、GPT-4 32K:在预训练阶段,GPT-4 使用了 8k 的上下文长度(seqlen)。而 32k 序列长度版本的 GPT-4 是在预训练后对 8k 版本进行微调而得到的。
7、Batch Size:在计算集群上,几天时间里,batch size 逐渐增加,最后,OpenAI 使用 batch size 达到了 6000 万!当然,由于不是每个专家模型都能看到所有 token,因此这仅仅是每个专家模型处理 750 万个 token 的 batch size。
8、并行策略:为了在所有 A100 GPU 上进行并行计算,他们采用了 8 路张量并行,因为这是 NVLink 的极限。除此之外,他们还采用了 15 路流水线并行。
9、训练成本:OpenAI 在 GPT-4 的训练中使用了大约 2.15e25 的 FLOPS,使用了约 25,000 个 A100 GPU,训练了 90 到 100 天,利用率(MFU)约为 32% 至 36%。这种极低的利用率部分是由于大量的故障导致需要重新启动检查点。如果他们在云端的每个 A100 GPU 的成本大约为每小时 1 美元,那么仅此次训练的成本将达到约 6300 万美元。
10、使用专家混合模型时的 tradeoff:在使用专家混合模型时存在多方面 tradeoff。研究人员已经证明使用 64 到 128 个专家比使用 16 个专家能够实现更好的损失(loss),但这仅仅是研究的结果。在许多任务中,更多的专家模型很难泛化,也可能更难收敛。且由于进行了如此大规模的训练,OpenAI 选择在专家模型数量上更加保守。
12、Multi-Query Attention:OpenAI 和其他机构一样,也在使用 Multi-Query Attention(MQA)。由于使用 MQA 只需要一个注意力头(head),并且可以显著减少用于 KV 缓存的内存容量。即便如此,32k 序列长度的 GPT-4 也绝对无法在 40GB 的 A100 GPU 上运行,而 8k 序列长度的模型则受到了最大 batch size 的限制。
13、连续 batching:OpenAI 实现了可变 batch size 和连续 batching。这样做是为了允许一定程度的最大延迟,并优化推理成本。
14、视觉多模态:它是一个独立于文本编码器的视觉编码器,二者之间存在交叉注意力。该架构类似于 Flamingo。这在 GPT-4 的 1.8 万亿个参数之上增加了更多参数。在纯文本的预训练之后,它又经过了另外约 2 万亿个 token 的微调。
15、推测式解码(Speculative Decoding):OpenAI 可能在 GPT-4 的推理过程中使用了推测式解码技术(不确定是否 100%)。这种方法是使用一个更小更快的模型提前解码多个 token,并将它们作为单个 batch 输入到一个大型的预测模型(oracle model)中。
16、推理架构:推理运行在由 128 个 GPU 组成的集群上。在不同地点的多个数据中心存在多个这样的集群。推理过程采用 8 路张量并行(tensor parallelism)和 16 路流水线并行(pipeline parallelism)。每个由 8 个 GPU 组成的节点仅具有约 1300 亿个参数。
这应该是迄今为止关于 GPT-4 最为详细的数据揭秘。目前还不能求证是否真实,但也值得大家研究下。正如原文作者所说,「有趣的方面是理解 OpenAI 为什么做出某些架构决策。」
11、推理成本:GPT-4 的推理成本是 1750 亿参数的 Davinci 模型的 3 倍。这主要是因为 GPT-4 需要更大规模的集群,并且达到的利用率要低得多。据估计,在用 128 个 A100 GPU 进行推理的情况下,8k 版本 GPT-4 推理的成本为每 1,000 个 token 0.0049 美分。
21
特邀续集
电话:021-62037717
网址:www.sh-aia.com
邮箱:saia@sh-aia.com
地址:上海市浦东新区世博村路231号
(汇博中心)330室