智研简报2023第5期文字版-FLBOOK

智研简报

Sdaict Monthly

智能计算计算未来

2023年05月第5期 | 总29期

中国 · 济南

山东产业技术研究院智能计算研究院

CONTENTS

面向“政产学研金服用”，打造研究机构与企业间体系化、标杆化及标准化合作模式

智研快讯

马斯克Neuralink，获批人体实验！

【CICC原创】大模型技术发展研判及应用思考

陈益强院长参与指导的首个前沿康复数智技术亮相2023数博会

我国低空智联网无人自主飞行

技术获得重要突破

技术前沿

泰山产业领军人才、用户感知与智能健康行业专家--王成博士

部门解读 | 《山东省院士工作站管理服务办法》

行业资讯

2023中国国际大数据产业博览会（简称数博会）于5月26日至28日在贵阳国际会议展览中心开展，立体化展示东数西算、数据要素流通、产业数字化、数字产业化等多个方面的新产品、新技术、新模式和新方案，呈现数字经济发展新成果和新成效。

关注智慧康复　创新诊疗应用

党的二十大报告中明确提出了推进健康中国战略，把保障人民健康放在优先发展的战略位置，完善人民健康促进政策。促进优质医疗资源扩容和区域均衡布局，坚持预防为主，加强重大慢性病健康管理，提高基层防病治病和健康管理能力。

目前，全球每6人中就有1人可能在一生中罹患卒中，每6秒就有1人死于卒中。全世界范围内每年大约有1370万人中风，其中约有580万人因此死亡，约三分之一幸存者将遗留不同程度的残疾，是全球死亡和残疾的主要原因。随着我国人口老龄化和现代化进程的加速，脑卒中发病率呈逐年持续上升且年轻化趋势，脑卒中患者康复成为当前医疗创新改革紧迫的任务和挑战。

在山东产研院智能计算研究院院长陈益强、首都医科大学附属天坛医院神经外科刘海博士的共同参与指导下，贵阳市二医（金阳医院）在全国率先建成首个5G智慧康复诊疗中心，面向脑卒中疾病群体提供一整套完整的智能评估，诊断，治疗，监测，服务于一体的数字化康复诊疗解决方案。

陈益强院长参与指导的首个

前沿康复数智技术亮相2023数博会

智研快讯

NEWSLETTERS

创新人才

政策导读

2023数博会成果巡展情况：

现场开展了基于计算机视觉的智能康复评估，展示基于5G的远程居家康复服务应用创新，患者可居家自主康复全流程和主动康复训练模式。

为了增强体验效果，现场还提供基于虚拟现实的高精度传感器进行展示。

5G智慧康复诊疗中心是在5G网络基础上利用计算机视觉捕捉技术，高精度可穿戴感知技术，采用AI算法，最快3分钟即可完成康复评估诊断并智能匹配康复方案，满足患者在院、居家康复所需，实现全病程管理和服务。通过搭建5G智慧康复信息化服务平台，为康复医疗服务的全面延申打下坚实基础。

创新亮点：

（1）打通居家康复最后一公里，为普惠康复提供可实现路径。

（2）革命性降低康复医疗成本，降低医保和患者经济负担。

（3）扩大康复医疗服务半径，通过互联网的手段解决康复医疗资源不对称、时间空间成本高的行业难题。

（4）从被动康复走向主被动融合康复，基于人工智能AI算法及大数据分析体系，量身定制专业康复方案。

（5）将既往康复量表主观评估提升为数字化、标准化、智能化评估，颠覆康复诊疗模式。

（6）先进的康复闭环服务理念，配套软件+硬件+服务体系，实现不同场景下患者的康复评估—干预治疗—监测反馈—再评估的闭环服务。

学习和人工智能算法等方面积累了大量的技术经验和技术资源。2020年，入选山东省委组织部“泰山产业领军人才”。

王成博士承担和参与过多项国家课题（如国家863课题，合同号2001AA114201），省内外课题（如山东省科技型中小企业创新能力提升工程、北京市自然科学基金项目、北京市科技计划)等，发表数篇国内外高水平学术论文(SCI,EI,CCF指定IEEE知名国际会议等)，是IEEE Ubiquitous Intelligence and Computing 2017学术会议现场发言嘉宾。王成博士非常注重知识产权和成果转化，已申请（包含授权）核心专利20余项。

王成博士参加了山东省最高规格的创业大赛——第二届“创业齐鲁.共赢未来”高层次人才创业大赛。大赛上，全省共有71家企业和50个创业项目脱颖而出，王成博士凭借“基于边缘计算的移动医疗智能芯片研发与应用 ”项目荣获优胜奖，该成果的广泛应用将全面带动山东医疗康复事业的发展。

王成博士还担任了很多社会学术工作，如：宁波中国科学院信息技术应用研究院智能健康技术研究中心副主任，中国现场统计研究会医药食品优化专业委员会常务理事，北京生物医学工程学会理事等。

王成博士是我院在智慧医疗领域特聘的学术专家，他深耕智慧医疗领域，专注开展移动医疗智能芯片研发与应用，接下来，王成博士将与智研院一起在医疗智能芯片和医疗康复领域开展前沿技术研究和科技成果转化，为山东省的医疗康复事业注入新的活力。

泰山产业领军人才、用户感知与智能健康行业专家--王成

创新人才

INNOVATIVE TALENTS

王成，工学博士，副研究员

中科信息产业研究院智能康复技术实验室主任

国家主动健康大学联盟副秘书长

山东产业技术研究院智能计算研究院特聘专家

政策导读

部门解读 | 《山东省院士工作站管理服务办法》

“

”

为深入贯彻落实党的二十大精神，加快实施创新驱动发展战略和科教强鲁人才兴鲁战略，吸引中国科学院、中国工程院和海外顶尖学术权威机构的院士（以下统称院士）等高层次科研人才来我省创新创业，服务黄河流域生态保护和高质量发展国家战略，推动绿色低碳高质量发展先行区建设。根据中共中央办公厅、国务院办公厅进一步弘扬科学家精神和深化院士制度改革的有关要求，结合我省实际和院士工作站发展需要，在深入调研和充分征求意见的基础上，省科技厅研究制定了《山东省院士工作站管理服务办法》（以下简称《管理办法》）。

王成博士长期从事可穿戴计算、传感器信号处理、机器学习等相关领域的技术研究与开发，在智能终端的研制、集成电路的设计和验证、云计算、机器

技术前沿

ADVABCED TECHNONLGY

马斯克Neuralink，

获批人体实验！

Neuralink官方账号发布推特表示：这是Neuralink团队与FDA密切合作的令人难以置信的工作成果，代表着重要的第一步，有朝一日我们的技术将帮助许多人。马斯克随后转发这条推特，并向Neuralink表示祝贺。

Neuralink 公司的这一临床获批，可谓一波三折。2022年11月，马斯克表示，Neuralink公司的首个人体植入脑机接口将在6个月内进行。而在2023年3月初，FDA拒绝了Neuralink公司的临床试验申请。

此外，FDA在拒绝其人体试验申请时，提到了需要解决的“数十个问题”。这些问题包括几个关于该设备安全性的问题，包括是否可以在不伤害大脑的情况下移除它，以及对其设备中锂电池担忧，以及连接在植入物上的微电线在大脑中迁移的可能性。

马斯克的脑机接口，又有大动作了！

5月26日，Neuralink正式官宣：

已经获得了FDA（美国食品药品监督管理局）的批准，启动我们首个人体临床研究！

一、出台背景

二、主要内容

《管理办法》共6章20条，重点在明确各单位职责、严格备案要求和加强日常管理等方面作了修改完善。

第一章总则，明确了院士工作站备案管理的目的意义和建设定位，突出了院士工作站是推动产业链创新链资金链人才链融合发展的创新平台，提出院士工作站的承建单位是备案主体。

第二章组织管理，明确了省科技厅、各市科技局、承建单位及院士工作站的各方职责，突出了省科技厅“加强顶层设计，把握建站方向和重点领域”、市科技局“围绕产业链部署创新，重点鼓励头部企业、链主企业等牵头建设”等工作职责。

第三章备案条件及程序，明确了院士工作站备案条件、备案方式和程序，提出了合作建站的院士年龄、建设数量、全职在站时间以及合作期限等要求。为保障院士工作站建设质量，《管理办法》对建站院士的年龄进行了规范，申请备案时合作院士原则上不超过80周岁。

第四章运行管理，规范了院士工作站的过程管理，对绩效评价、续签、变更、取消备案、撤销备案等作了具体说明，明确了绩效评价四个等次及优秀等次比例（不超过30%）、撤销备案的情形及约束条件（2年内不得申请备案）等。

第五章支持政策，明确了院士工作站建设的支持措施，包括支持承担省重点研发计划（竞争性创新平台项目）、举办科技交流活动、建设新型研发机构等。

第六章附则，规范了院士工作站的标牌样式，明确了《管理办法》有效期限。

人类大脑可以说是有史以来最复杂的生命结构，虽然距离完全理解大脑还有很远的距离，但这并不妨碍神经科学领域的科学家们不断取得新进展。

人类大脑大约有860亿个神经元，它们之间有100万亿个连接，这无疑是一个异常庞大的天文数字，要知道，整个银河系“也才”4000亿颗恒星。神经科学家们在绘制这些大脑神经元及其相互连接的复杂作用方面已经取得了一些重大进展。

除了基础科研层面的进展外，近年来脑机接口（BCI）领域也开始受到关注。其中最引人注目的就是伊隆·马斯克（Elon Musk）创立的脑机接口初创公司 Neuralink。

创立之初，马斯克曾表示将在2020年底开始进行脑机接口植入的人体试验，但这一目标显然没有完成。

2022年11月，马斯克在一场直播中表示，Neuralink公司的首个人体植入脑机接口将在6个月内进行。

然而，2023年3月，据路透社报道，Neuralink公司的临床试验已经被FDA拒绝了，对于FDA提出的数十个问题，Neuralink可能无法及时解决FDA提出的问题。

Neuralink是一家成立于2016年的脑机接口公司，自成立以来，Neuralink一直在招募学术界的顶尖神经科学家参与研发脑机接口设备。

Neuralink公司称， Link脑芯片是一种新型脑机接口，将来能够增加我们与大脑视觉皮层、听觉皮层、触觉皮层和运动皮层的连接，从而帮助治疗瘫痪、帕金森病、癫痫等各种神经系统疾病。还能扩展我们与他人、与世界及与我们自己的互动方式。

Neuralink开发的这款Link脑芯片，通过外科手术机器人植入头骨，芯片一端的上千根微型电极与大脑神经元连接。芯片通过无线充电，并通过蓝牙与诸如手机或电脑等设备连接，从而记录或参与调控神经元活动。

马斯克表示，Neuralink将专注于两项初步应用，第一个是恢复视力，即使是那些天生失明的人，他们仍然有恢复视力的可能性，因为大脑皮层中感知视觉的部分仍然存在。第二个是帮助严重瘫痪者，帮助瘫痪者用意念使用智能手机，且能比普通用户用手使用智能手机更快速。在此基础上，Neuralink还希望更进一步，在大脑和脊髓中植入多个 Neuralink脑机接口，帮助四肢瘫痪者重新行走。他还表示，自己将来也会植入脑机接口。

值得一提的是，Neuralink的主要竞争对手Synchron公司，开发了无需开颅手术、通过微创手术进行颈静脉植入脑机接口的技术，并率先获得了FDA批准在美国进行了首次脑机接口人体临床试验。

摘自：澎湃新闻

北斗伏羲公司基于北京大学程承旗教授创建的地球剖分理论及利用公司主导编制的北斗网格国家标准相应的空域网格导航图专利技术，通过创建的精细到米级的北斗立体网格空域图，在国内率先实现了楼宇、树木、气象、地形与飞行器空间关系多要素实时计算，实现了多飞行器随时随地无飞手自主飞行。

飞行内容包括空域图实景展示及在空域图上任意设置飞行起止点，依靠平台自主研发的网格计算、网格避障等算法，自主计算出能够在楼宇间穿梭飞行的飞行路径。此项技术支持多无人机路线自动规划，空域红绿灯自动避障。后台平台可高效查看实时生成的航路路径，点击右上角网格开关，还可查看空域图中的建筑等立体网格模型。打开空域航路管理列表，可选择给多架无人机发出任务指令，指令下发后，点击起飞，即可远程遥控无人机起飞升空。视频右上方显示无人机升空画面，视频右下方显示无人机自带摄像头拍摄到的空中场景。同时在平台中也可以实时动态查看飞行无人机当前位置及飞行轨迹。无人机监控页面能实时接收无人机飞行状态，起飞、巡航、巡航到达终点等动态信息。

北斗立体网格空域图系统可以支持国内各城市或乡村开展安防、应急、物流等多类型应用，其中用户召唤无人机送水服务的场景具有广泛代表性。视频中可以看到用户提出请求，后台实现低空空域飞行路线实时规划，线路提交，空域管理列表中看到提交的无人机飞行任务清单、监控页面对无人机下达起飞指令，无人机接到起飞指令后自主起飞、巡航、到达用户身边实现为用户送水服务的全流程。

低空智联网无人器自主飞行，标志着北斗伏羲公司投入数亿资金打造的北斗三维网格空域图底座平台系统开始走向实用，这是我国低空空域管理技术的重大突破，是国务院最新颁布的率先开放120米低空空域政策的重要技术保障，标志着北斗地面车辆导航向地面-空中综合导航成为现实，该项成果的突破，也将为国内主要地区建立无人机、飞行汽车低空智联网示范区提供坚实的平台基础。

行业资讯

INDUSTRY INFORMATION

我国低空智联网无人自主飞行

技术获得重要突破

低空智联网是指在低空空域3000米以下，具体按照不同地区融合运用网络化、数字化和智能化技术构建的智能化的数字网络体系，是低空领域的新基建。低空智联网中具体的飞行器可以包括无人机（UAV），空中出租车，飞行汽车等。它们可以为各种服务提供支持，如货物和人员运输、环境监测、灾害救援等。低空智联网的发展对我们数字经济和国民生活生产都有着重要的价值。

2023年5月15日，国家空域主管部门领导在北京北斗伏羲公司观看了北斗伏羲低空智联网无人器自主飞行实景展示，重点展现了无人机在楼宇间自主导航穿梭飞行。传统技术，无人机是在楼宇等下垫面复杂环境下飞行，均需要提前勘测飞行路线或需要飞手实地操控飞行，这种方法在灵活性，安全性，智能性上均存在巨大的提升空间。

本质上来讲，ChatGPT是一个大语言模型（Large Language Model, LLM）, 这是一个概率模型，基于上下文输入来度量下一个词汇出现的可能性，即完成“词语接龙”。语言模型技术始于上世纪70年代，ChatGPT是OpenAI自2018年推出生成式预训练（Generative Pre-training, GPT）模型，在经历过GPT-1、GPT-2、GPT-3、InstructGPT等多代模型迭代后，在GPT-3.5基础上发展出来的产物（OpenAI于3月14日发布了基于GPT-4的改进版，拥有更强大的语言处理能力）。进一步拆解其核心技术要素，可以认为，ChatGPT并非AI原始理论技术创新产生的重大突破，而是产品思维驱动的重大集成创新成果，是OpenAI坚持生成式AI、长期技术积累，量变产生质变的重大成果，同时其强大的自然语言处理能力，也是迈向通用人工智能（Artificial General Intelligence, AGI）的阶段性成果。

（2）ChatGPT技术发展脉络

自然语言处理技术自诞生以来，先后经历了4种主要任务处理范式。第一种是非神经网络下的完全监督学习，由人工设计一系列特征模板输入模型，模型性能高度依赖所设计的特征和专家知识；第二种是基于神经网络的完全监督学习，由人工进行数据标注，神经网络用于自动特征提取；第三种是“预训练-精调”（Pre-train and Fine-tune）范式，首先在超大规模文本数据集上基于自监督方式预训练一个具备较强泛化能力的通用模型，然后再根据下游任务特点对模型进行针对性微调，从而进一步减少人工参与；第四种是预训练结合提示（prompt）学习范式，在得到预训练模型后，使用时不再进行模型微调，而是将对任务的描述以提示方式输入模型，模型自动适配下游任务。

如前所述，ChatGPT经历了多轮模型迭代。GPT-1于2018年被提出，是在Google于2017年提出的变换器（Transformer）模型基础上发展起来的大语言模型，拥有1.17亿参数，采用“预训练-精调”范式，初步具备了一定泛化能力。GPT-2于2019年被提出，拥有15亿参数，OpenAI希望彻底无需针对下游任务微调而实现模型适配，因此采用了提示学习范式，实现了在零样本或小样本下良好的内容生成和表达能力。GPT-3延续GPT-2的方式，进一步将参数规模扩大到1750亿，并使用45TB语料数据进行训练，性能已相当强大，可完成自然语言处理的绝大多数任务。在OpenAI放弃模型微调的同时，Google坚持采用模型微调技术，并于2021年9月提出采用指令微调（Instruction Fine-Tuning, IFT）技术的大模型FLAN，其在许多任务上的表现超越了GPT-3。为此，OpenAI重新采用微调，即在GPT-3基础上增加IFT技术，于2022年初推出InstructGPT，由于混合了人类指令，InstructGPT在理解人类意图和拟人化表达方面已非常突出。为进一步提升模型逻辑推理能力，OpenAI采用159 GB的Python代码语料在GPT-3上进行训练，产生了具有强大代码理解/生成能力和逻辑推理能力的模型Codex。最后，InstructGPT与Codex相结合，形成了GPT-3.5的基础架构,即ChatGPT的基础模型。

行业资讯

INDUSTRY INFORMATION

【CICC原创】大模型技术

发展研判及应用思考

中国科学院自动化研究所研究员，蒲志强

近年来，随着人工智能（Artificial Intelligence, AI）技术的深化发展，大模型（Large Model,也称基础模型，即Foundation Model）技术应运而生。特别是2022年11月底OpenAI发布ChatGPT，一时间引起国内外强烈反响，如同2016年AlphaGo围棋AI战胜人类顶级棋手李世石一样，全社会对AI模型所能达到的智能化水平产生了全新认知。本报告首先对ChatGPT发展情况进行概要介绍和对比分析；在此基础上，分析提出大模型发展带来的启示和思考，特别是对决策智能大模型发展进行分析研判；最后，对当前大模型技术应用提出若干发展展望。

一、ChatGPT相关介绍

（1）ChatGPT总体情况

ChatGPT是由OpenAI于2022年11月30日上线的通用语言处理平台，能以自然语言为交互方式，实现问题回答、文案撰写、文本摘要、语言翻译、计算机代码生成等任务。自发布以来，ChatGPT引起国内外广泛关注，成为“刷爆朋友圈”的现象级应用。据瑞银集团（UBS）发布的研究报告显示，ChatGPT在2023年1月份（发布后2个月）的月活跃用户数已达1亿，成为史上用户数增长最快的消费者应用；相比之下，TikTok历经9个月才实现月活用户数破亿，Instagram为30个月，Meta为54个月，Twitter为90个月。此外，ChatGPT使人工智能内容生成（AI Generated Content, AIGC）技术成为新的热点。

ChatGPT的另一关键技术是人类反馈的强化学习（Reinforcement Learning with Human Feedback, RLHF），即人类标注员对模型的一系列问答结果进行评分，以此训练一个符合人类判断的奖励模型，基于此奖励模型采用近端策略优化（Proximal Policy Optimization, PPO，2017年由OpenAI提出强化学习算法进行预训练后的模型精调。试验表明，RLHF能极大提升模型表现，仅采用13亿参数的模型即表现出超越原本拥有1750亿参数但未采用RLHF的微调模型或原始的GPT-3模型。OpenAI联合创始人John Schulman认为，RLHF才是ChatGPT的秘密武器。而RLHF技术于2017年即由OpenAI联合DeepMind及Google Brain团队提出。

（3）ChatGPT的局限

当前，ChatGPT展现出通用的意图理解能力（大语料数据训练、人类指令微调、人类反馈的强化学习）、强大的连续对话能力（采用8192个语言单元进行显式建模）、突出的代码生成能力（采用代码和文本混合学习）等特点，但仍存在如下局限性：

缺乏概念构建能力。以ChatGPT为代表的系列大模型本质上仍是一个黑盒概率模型，即使能给出令人满意的结果，但内在并未形成真正的概念范畴，无法进行知识逻辑推演和解释，尚无法形成对真实世界的本质认知。

缺乏自主学习能力。以ChatGPT为代表的系列大模型基于静态数据驱动的学习范式，模型训练成本高，理论上无法实现新知识的快速学习，即当人类输入增量知识后，模型无法及时实现新知识的学习。

缺乏实体交互能力。ChatGPT等大模型主要以文本为核心处理对象，即使是涵盖图、文、音的多模态大模型也仍属感认知范围，缺乏与包含强不确定性和开放边界元素的真实物理世界的交互和决策控制能力。

缺乏垂域泛化能力。ChatGPT等大语言模型在通用语境下已展现出强大能力，但在各垂直细分应用领域，大模型的性能表现仍需提升，特别是对于模型准确性要求严格的应用，此外还需攻克终端资源约束下的大模型部署问题。

二、大模型核心价值与发展启示

（1）大语言模型的核心价值

如果说机器学习实现了学习算法的统一，深度学习实现了模型架构的统一，那么大模型则实现了模型本身的统一。大语言模型是当前一轮大模型的成功典范，其本质是以自然语言理解为内核，构建起人-机间互理解、互操作的高效、高性能媒介通道。因此，直观上来看，与人机交互、人机协同、人机融合最相关的领域将最直接体现大模型的应用价值。正向来看，大模型将人对世界的模糊、抽象认知转化为可精确表达、高度量化的特征，供机器进一步计算、推演，解决人机高效交互协作问题。反向来看，大模型将机器高度精确

却难以窥探的黑箱计算结果转化为人可理解、可接受的形式进行呈现，解决AI的可解释性问题。例如，大模型可对人的历史经验、判断偏好、直觉认知进行精确理解，变成可供计算的特征表达；反过来，机器的推理计算过程及结果可以自然语言形式输出，供人实时掌握情况并做进一步决策。

人机混合智能是AI的高级形态，而大语言模型展现出的通用性为我们粗浅地勾勒出通用人工智能的图景，因此，大模型为迈向更高级形态的AI奠定了重要的阶段性基础。

（2）大模型发展带来的启示

应谨防关键领域技术突袭。当前，人工智能技术正以史无前例的速度自我迭代，据估计，AI领域约每3个月便会产生一种世界范围内具有重大影响的主流算法。作为对比，传统科学技术的迭代更新较慢，例如，当今全世界控制领域90%以上使用的比例-积分-微分（PID）控制器始于上世纪20年代；即使是迭代较快的集成电路领域，摩尔定律告诉我们，其迭代速度也大概为18-24个月。不久前，我们仍慨叹市面上各种聊天机器人的智能水平较低，ChatGPT的横空出世瞬间颠覆了这一认知。因此，在当前国际关系日益复杂的局势下，我们应谨防关键领域对手的技术突袭，特别是当我们步入多方面并跑的“无人区”领域时，而AI的加速发展使得技术突袭的“黑暗森林法则”越来越成为可能。

应重新审视“人工”的作用。人工智能的发展离不开“人工”的参与，而随着AI技术的迭代，“人工”所扮演的角色也在逐步更迭。早期的监督学习时期，人主要扮演数据标注角色，数据标注被认为是技术含量很低的工作，并一度出现了各种数据标注工厂。到了近些年发展出的指令学习，人不再简单给出标签数据，还需要按要求给出数据指令。而在RLHF中，人需要提供AI模型的输出反馈，从而训练一个良好的奖惩函数。在ChatGPT的代码生成中，具有良好人工注释的训练代码是其掌握推理编程能力的重要基础。随着AI 的发展，“人工”的作用越来越精细。例如，在智能指控领域，高度专业化的人工标注数据、人类指挥员经验和人机混合训练方式，可最大化发挥大模型作用，应提前进行部署。

应审时度势迎接创新范式变革。近些年，AI正加速为其他学科内在发展提供颠覆性范式创新，例如，2020年的AlphaFold展现出惊人的蛋白质结构预测效率，2022年的AlphaTensor发现了迄今效率最高的矩阵乘法运算法则。AI为科学研究和技术创新范式带来了全新机遇和挑战，人工智能驱动的科学研究（AI for Science）也成为当前国际瞩目的热点方向，国家科技部、自然科学基金委也于今年3月联合启动了AI for Science专项部署。为此，应重新审视这一变局下的科技创新范式。例如，在智能指控领域，一是如何以智能技术先行带动体系创新，如概念设计、战法创新，二是重新梳理创新成果体系，重视算法等软实力打造，以及大模型加持下的技术集成、模型训练方式创新等。

开发者手动搭建或系统随机生成训练环境。DeepMind搭建的3D多智能体协作和竞争开放环境XLand，为具有强大环境适应性的多智能体算法训练提供了多样化任务空间。这些研究使得深度强化学习在逐步开放的环境中得以适用，而虚拟环境的重要性使得人工智能三要素“算法、算力和数据”在决策智能研究中变为“算法、算力和环境/模型”。但如前所述，上述环境的边界仍为虚拟世界内的简单边界，无法覆盖真实世界任务的复杂性。

因此，总体来说，相比感知智能大模型，决策智能大模型刚刚起步，且当面向真实环境时，模型的适用性将受到极大考验。

（2）决策智能大模型为何更具挑战

相比于感知大模型，决策大模型更具挑战，当前尚处于初步探索阶段。究其本质原因，首先在于决策范式难以统一表达。感知大模型处理的对象相对具有统一的表达手段，例如图像统一采用像素表达、文本统一采用编码表达、语音统一采用声频信号表达，在统一进行信号级表达后即拥有了大模型统一处理的基础；但决策问题千差万别，有个体决策、也有群体决策，有抽象问题、也有现实问题，当前尚没有对决策问题的统一建模、表达和处理范式。无论是Gato还是AdA，均采用大语言模型中的核心部件Transformer作为模型内核，这类模型在处理语言信号时表现优异，但在刻画决策问题时的性能尚需进一步验证。其次，决策是相比感认知更上层的任务，相对难度更大。当前大模型主要处理感认知问题，借助人机交互辅助人做决策，而决策智能则旨在让机器自主决策，如单体与集群无人系统中的自主决策，任务本身难度更大。此外，同样由于信号的可统一表达性，当前我们在图、文、音领域已形成大量优质训练样本，理论上互联网中一切可获取到的数据均可用于训练，相比之下，决策智能领域尚未建立类似数据样本集。尽管强化学习等方法为无需样本、而是从与环境的交互中获取数据提供了有效手段，但随之而来的环境建模合理性、准确性等问题产生了新的挑战。

（3）决策智能大模型发展思路

一是延续当前预训练思路继续深化研究。采用Transformer等基础模型框架，这是一种在短期内极有可能快速见效的思路。大语言模型等预训练大模型已经大获成功，Gato、

三、决策智能大模型展望与思考

当前流行的ChatGPT等大模型主要聚焦在图、文、音等媒体内容的感知理解层面，与之相对应，与指挥控制息息相关的智能认知与决策则是更具挑战性的难题，决策智能大模型是否能快速实现并落地，成为当前广受关注的话题。在此，对决策智能大模型研究现状进行概述，并对其发展路径提出相关思考。

（1）决策智能大模型发展概况

随着预训练模型的兴起，训练一个可完成多种决策任务的智能体在近年来引起广泛关注。DeepMind于2022年上半年提出能够处理数百种任务的“通才”人工智能模型Gato，融合了多模态和多任务，智能体可同时完成玩Atari游戏、生成图像、和人类聊天、控制机器人手臂堆叠积木等不同模式的任务。但本质上，Gato是一种监督学习模型，可认为首先学会了各种任务，然后对相关能力进行集成，并未在真正意义上实现面向不同任务的能力迁移和自主学习。进一步，DeepMind在2023年初提出可在开放任务空间实现匹配人类适应能力的自适应智能体AdA（Adaptive Agent）, 该模型基于DeepMind自研的开放任务环境XLand进行训练，后者可在虚拟空间产生超过1040种开放任务，被视为可训练通用智能体的游戏“元宇宙”。AdA的技术核心包括三方面：1）在一个巨大、平滑且多样化的任务分布中进行元强化学习；2）一个参数化的基于注意力的大规模记忆结构策略；3）一个有效的自动课程学习机制，为智能体安排恰当的下一阶段训练任务。尽管训练好的AdA模型可在零样本或少样本条件下完成测试任务，但本质上XLand中的任务具有高度相似性，且均为虚拟环境中的任务，当面向真实应用时，真实世界中本质开放性、强不确定性和大量建模细节将给模型带来巨大挑战。

决策智能算法的通用做法是智能体通过深度强化学习等方法，在虚拟空间中不断与环境交互来学得策略，因此内容丰富的虚拟环境对于提高算法通用能力至关重要。当前，已有大量用于提升智能体决策能力的虚拟环境。OpenAI使用内容动态生成（Procedural content generation, PCG）技术开发的Procgen环境，为算法在不同游戏任务下的泛化能力提供了一个测试基准。Facebook提出一个沙盒游戏的环境构建框架MiniHack，可以由

AdA等决策大模型也方兴未艾，这类模型均采用预训练思路，通过构建巨大的神经网络模型、并在大量样本上充分训练来表征难以精确量化的内在推理逻辑。这种“大力出奇迹”的范式虽不够“优美”，但ChatGPT产生的性能突变确实让我们看到了这类大模型在复杂问题表达和求解上的能力，尽管当前阶段尚有大量问题无法解释而只能简单归结为巨大参数条件下的行为“涌现”。可以预见，这类范式将成为未来短期内的主流，且能够在各垂直应用领域取得应用表现上的进展。一个亟待解决的难题是，如何保证在虚拟环境中训练的智能体能够在真实环境中表现良好，即实现虚拟向真实迁移（Simulation to Reality, Sim2Real），Sim2Real问题有多种解决路径，其研究刚刚起步，是保障决策智能大模型实际落地的关键。

二是另辟蹊径深入探索智能本质机理。这是一种需要长期探索、但有可能产生本质颠覆的思路。ChatGPT这类大模型尽管表现突出，但无法实现概念知识的自动提取和推理，这与人的认知逻辑具有显著不同（尽管尚无法评判高低）。从本质来看，人类社会是建构在一系列概念范畴及其相互关系之上的，如在哲学基础框架上，通过引入不同概念从而衍生出经济学、法学等不同社会科学范畴，这与大参数表征、大数据训练的大模型思路显著不同。因此，如何综合运用多学科理论分析工具，探索智能产生的本质（或阶段本质）机理，是需要长期坚持的研究思路。坚持这一思路的必要性还在于，ChatGPT这类大模型的一个潜在风险在于，其“大力出奇迹”范式可能因短期内表现“过好”而“锁死”某一学科的研究进展（暂且“夸张”地类比为三体世界中的“智子”），进而在长期来看阻滞其发展，因此我们应一方面高度重视大模型带来的颠覆性变革，另一方面坚持百花齐放、继续探索智能本质机理，并在各基础领域做好相应理论和工程铺垫。

四、大模型技术应用展望

大模型极大推动了科研范式创新和成果体系革新，其意义深远、应用广泛。在此仅抛砖引玉，提出几方面展望。

（1）虚拟想定场景生成

强化学习等AI方法为不显式依赖数据、而在与环境交互中实现智能进化提供了手段，“算法+算力+环境”成为这一范式的核心要素，因此虚拟环境的有效生成至关重要。大模型在商用领域推动了AIGC发展，相似地，在博弈推演领域，可依托大模型强大的内容生成能力，实现虚拟推演想定的场景生成。

（2）人机混合智能推演

大模型为人机自然、高效互操作、互理解提供了重要媒介，为人的经验、偏好、直觉、常识等具有高度抽象和良好可解释性的知识与机器可精确量化表达的数据驱动范式建立了相互融合的桥梁。研究人机高效混合推演方法，正向将人的经验、偏好等转化为机器指令，反向将机器的量化推理结果进行可解释性表达，其本质是知识与数据两类范式的协同驱动。

（3）特定领域专用大模型

当前预训练大模型在通用问题上已具备较强的认知推理能力，但由于缺乏训练样本，其在特定专用领域表现尚显不足。为此，应超前布局，充分发挥理技融合体制优势，融合科研部门、工业部门和各应用部门力量，研发面向特定领域的专用大模型。探索领域内的人工数据采集、标注方法，形成面向特定领域的大规模专用数据集，为大模型在特定智能领域应用奠定基础。

（4）虚实迁移的决策智能

决策智能是当前指挥控制中的核心，深度强化学习等方法为智能体自主学习进化提供了有效手段，但由于其训练是在虚拟环境中实现的，虚实迁移是当前技术手段的关键瓶颈。应发展从虚拟向实体迁移的博弈决策智能技术，拓展算法在应对不确定性和开放问题中的适用边界，为大模型在真实物理环境中的鲁棒应用提供关键支撑。

（5）大模型开放创新生态

开源开放是推动人工智能发展的重要手段。在开源方面，国外Pytorch、Tensor及国内大厂推出的系列开源平台，为人工智能算法快速发展奠定了基础；在开放方面，自2018年以来，我国在各细分行业认定了一大批人工智能开放创新平台，旨在以数据、接口、服务等方式为学界、个人开发者、小微用户提供AI模型便捷使用工具。而大模型的发展，将模型构建方法工具的统一推进到模型本身的统一，因此应以大模型为契机，重新梳理构建开放创新生态，形成既充分开放、又可赋能一大批应用的算法服务平台，实现概念、技术先行，牵引体系智能发展的新范式。

电话：0531-88287262

官网：www.sdaict.ac.cn地址：济南市高新区旅游路8661号

智研简报2023第5期

内容简介

为您推荐

热门标签

产品服务

关于我们

网络条款

其他

联系方式