智研简报2023第9期文字版-FLBOOK

智研简报

Sdaict Monthly

智能计算计算未来

2023年09月第9期 | 总33期

中国 · 济南

山东产业技术研究院智能计算研究院

CONTENTS

面向“政产学研金服用”，打造研究机构与企业间体系化、标杆化及标准化合作模式

智研快讯

Nature：人工智能芯片！

山东标准化研究院领导一行莅临我院座谈交流

ChatGPT重磅更新！可以通过图片和语音命令交互

技术前沿

我院智慧农业团队与山东产研卫星院开展项目交流

《元宇宙产业创新发展三年行动计划（2023－2025年）》

行业资讯

9月4日，山东标准化研究院信息技术研究中心副主任、教授级高级工程师熊绍东、科促中心邓祥武主任、教培中心徐丽一行来我院座谈交流，智研院项目管理部负责人杨建进行了接待。

座谈会上，熊绍东副主任介绍了山东标准化研究院的总体情况，开展教育培训、职业技能认定的情况等，我院项目管理部负责人杨建介绍了研究院的基本情况、行业布局和公共实训基地的建设情况，随后，双方就公共实训基地的建设方面展开了深入的探讨。

山东标准化研究院领导表示，希望两院以本次座谈为契机，进一步加强交流合作，共同探索创新人才培养模式、产业化人才培养路径，输出高素质技能人才，助力区域经济的快速发展。

山东省标准化研究院始建于1980年，是目前山东省唯一专业从事标准化研究与服务的省级社会公益类科研单位。主要业务包括标准信息资源建设、物品编码和统一社会信用代码管理；社会管理与公共服务、现代服务业、农业、工业、WTO/TBT、物流、信息安全、智慧城市等领域的标准化研究和技术服务；承担全省市场监管系统和企事业单位相关工作人员的教育培训，组织实施市场监管行业特有职工（工种）的职业技能鉴定等。

山东标准化研究院领导一行

莅临我院座谈交流

智研快讯

NEWSLETTERS

项目进展

政策导读

AI 为什么会有创造力？

范畴论刻画大模型创造力的来源

2023年9月8日，我院智慧农业团队负责人代锋、刘子辰博士、遥感工程师马成龙到访山东产研卫星信息技术产业研究院（以下简称“山东产研卫星院”）进行“广西甘蔗贷后监控项目”合作交流，山东产研卫星院执行院长侯波、遥感工程师沈源、齐钊出席了交流会，数据部副部长吴自勇通过线上会议的方式参与了交流。

交流会上，山东产研卫星院遥感工程师齐钊介绍了齐鲁卫星的发展现状、遥感智能化应用场景、行业应用及布局等，智研院智慧农业团队负责人代锋、刘子辰博士、遥感工程师马成龙分别介绍了智研院在农业领域的布局规划、重点示范项目、广西农业项目情况等，双方就“广西甘蔗贷后监控项目”需要论证的技术问题展开了深度沟通。

项目进展

PROJECT PROGRESS

我院智慧农业团队与

山东产研卫星院开展项目交流

山东产研卫星院执行院长侯波指出：“广西甘蔗贷后监控项目”有着重要的战略意义，该项目的实施将极大地推动遥感技术在中国南方的应用。山东产研卫星院数据部副部长吴自勇、遥感工程师齐钊、沈源表示：山东产研卫星院将提供全方位配合，支持智研院在该项目上的研发工作，一起攻坚克难。

最后，双方表示将不断加强交流合作，争取通过“广西甘蔗贷后监控项目”的成功落地，突破南方多云特性环境下遥感技术应用难题，在中国南方地区做出有竞争力的遥感产品，打造中国南方遥感技术典型应用示范项目。

政策导读

《元宇宙产业创新发展三年行动计划（2023－2025年）》

“

”

近日，工业和信息化部、教育部、文化和旅游部、国务院国资委、国家广播电视总局办公厅联合印发《元宇宙产业创新发展三年行动计划（2023－2025年）》（下文简称《行动计划》），为更好地理解和执行《行动计划》，现就相关内容进行解读。

近日，工业和信息化部、教育部、文化和旅游部、国务院国资委、国家广播电视总局办公厅联合印发《元宇宙产业创新发展三年行动计划（2023－2025年）》（下文简称《行动计划》），为更好地理解和执行《行动计划》，现就相关内容进行解读：

一、《行动计划》出台的背景是什么？

党的二十大报告指出，推动战略性新兴产业融合集群发展，构建一批新的增长引擎。元宇宙是人工智能、区块链、5G、物联网、虚拟现实等新一代信息技术的集大成应用，是具有广阔空间和巨大潜力的未来产业。发展元宇宙产业将极大开辟数字经济的新场景、新应用、新生态，培育经济新动能。特别是发展虚实融合互促的工业元宇宙，将进一步加速制造业高端化、智能化、绿色化升级，是新型工业化建设的重要发力点之一。当前，新一轮科技革命和产业变革正在向纵深演进，全球元宇宙产业加速发展，各国持续加强政策支持和资源投入。我国制造业体系全、场景多、市场大，数字经济蓬勃发展，具备发展元宇宙产业的坚实基础，但在关键技术、产业生态、领军企业、标准治理等方面仍存在短板弱项。为加速凝聚业界共识，集聚资源推动关键技术创新，构筑协同发展产业生态，形成推动元宇宙产业发展合力，工业和信息化部等5部门共同印发《行动计划》。

二、《行动计划》的工作目标是什么？

《行动计划》按照长远布局和分步落地思路，从近期和远期两个层面做了系统谋划和战略部署。近期，到2025年综合实力达到世界先进水平。具体衡量标准上，包括元宇宙技术、产业、应用和治理等全面取得突破，培育3－5家有全球影响力的生态型企业，打造3—5个产业发展聚集区，工业元宇宙发展初见成效，打造一批典型应用，形成一批标杆产线、工厂、园区，元宇宙典型软硬件产品实现规模应用，并在生活消费、公共服务等领域出现一批新业务、新模式和新业态。远景上，也从技术能力水平、产业体系、元宇宙新空间方面提出了发展目标，即核心技术实现重大突破，形成全球领先的元宇宙产业生态体系，打造成熟工业元宇宙，营造健康可持续的产业发展环境，建成泛在、通用、无感的元宇宙空间，推动实现人类生产生活方式的整体跃升。

三、《行动计划》主要内容是什么？

主要内容可以将要概括为：5大任务，即“构建先进元宇宙技术和产业体系”“培育三维交互的工业元宇宙”“打造沉浸交互数字生活应用”“构建系统完备产业支撑”“构建安全可信产业治理体系”。14项具体措施，包括“加强关键技术集成创新”“丰富元宇宙产品供给”“构筑协同发展产业生态”“探索推动工业关键流程的元宇宙化改造”等，它们紧紧围绕5大任务，进一步明确细化了各自的发力方向和突破点。4项工程，即“提升关键技术”“培育产业生态”“工业元宇宙赋能”“强化产业基础”，它们从技术、生态、赋能、产业基础等不同维度，进一步谋划布局产业突破口，为带动示范任务一、二、三、四的实践落地提供了重要支撑平台。

四、如何构建先进元宇宙技术和产业体系？

《行动计划》针对我国核心技术不强、产品不丰富、产业规模偏弱等发展瓶颈问题，提出进一步强化人工智能、区块链、云计算、虚拟现实等技术在元宇宙中的融合创新，加快关键技术布局，加紧基础软硬件的研发创新，在高端电子元器件、建模软件等重点方向尽快取得突破。在元宇宙产品供给方面，围绕社交、文娱、办公等现实需求，在元宇宙入口、虚拟空间应用工具和平台上着重发力。同时，《行动计划》倡导做强市场主体，培育元宇宙龙头企业和专精特新企业，建设一批元宇宙创新应用先导区、科技园区和产业园，打造特色化产业集群，并探索用户参与的技术创新和内容生产新模式新业态。

五、如何通过发展元宇宙赋能新型工业化？

《行动计划》提出以构建工业元宇宙、赋能制造业为主要目标，大力探索虚实互促的制造业创新变革，在工业关键流程的元宇宙化改造、重点行业工业元宇宙布局、探索工业元宇宙创新应用模式三个方向发力。其中建设工业元宇宙基础通用模型数据库，打造高精度、可交互、沉浸式的工业虚拟映射空间；探索基于元宇宙的产线运维、产品监测新模式，打造工业元宇宙的营销平台和虚拟培训系统；开发面向不同产品的个性化全生命周期管理系统，围绕资产设备、订单数据等开展供应链金融服务等，都是通过发展工业元宇宙赋能新型工业化的重要措施。

六、《行动计划》如何构建系统完备产业支撑？

《行动计划》从完善产业标准体系、提升创新支撑能力、打造一流基础设施三个方面提出了意见措施，重中之重的要点：一是建设元宇宙产业标准规范体系，包括产业链标准以及基础共性、互联互通、安全可信、隐私保护、行业应用等方面的国家标准、行业标准和团体标准。二是构建可信元宇宙产品评估评测体系和健全元宇宙知识产权保护体系。三是建设云边一体、算网一体、智能调度、绿色低碳的新型算力，打造元宇宙基础设施综合管理平台等。

七、为顺利推进《行动计划》的落地实施，有哪些保障措施？

一是强化统筹协调。统筹协调各部门，加强产业、创新、财政、金融、区域等政策协同。深化央地协作，鼓励地方结合实际制定针对性强、可操作的政策措施，优化产业布局。二是优化人才培养。包括支持高等院校加强元宇宙相关学科专业人才培养，鼓励企业与高校、科研机构联合培养人才，支持建设元宇宙技能技术人才实训基地，加大海外高层次人才引进力度等。三是深化国际合作。深度参与元宇宙国际治理规则和标准制定，做好国际元宇宙治理规则与国内的衔接，推动建立多边、民主、透明的国际元宇宙治理体系。加强元宇宙国际交流合作，推动国内国际双循环相互促进。

技术前沿

ADVABCED TECHNONLGY

Nature：人工智能芯片！

具有数十亿参数的人工智能（AI）模型可以在一系列任务中实现高精度，但它们加剧了传统通用处理器（例如图形处理单元或中央处理单元）的低能效。模拟内存计算（模拟 AI）可以通过在“内存块”上并行执行矩阵向量乘法来提供更好的能源效率。然而，模拟人工智能尚未在需要许多此类图块以及图块之间神经网络激活的有效通信的模型上证明软件等效（SWeq）准确性。

有鉴于此，美国IBM 研究中心S. Ambrogio(一作兼通讯)等人展示了一款14 nm的模拟 AI 芯片，该芯片结合了跨 34 个区块的 3500 万个相变存储器件、大规模并行区块间通信和模拟低功耗外围电路，可实现12.4 万亿次 / 秒 / 瓦运算性能，能效是传统数字计算机芯片的14倍。作者展示了小型关键字识别网络的完全端到端 SWeq 精度，以及更大的 MLPerf 循环神经网络传感器 (RNNT) 上接近 SWeq 的精度，其中超过4500万个权重映射到跨越5个芯片的1.4亿个相变存储器件上。

一、芯片架构

作者展示了芯片的显微照片，突出显示了34个模拟块的 2D 网格，每个块都有512×2048PCM 交叉阵列。当持续时间向量从模拟快发送到OLP时，芯片有效地实现了基于斜坡的模数转换器 (ADC)。所有权重配置、MAC操作和路由方案均由每个图块上可用的用户可配置本地控制器(LC) 定义。本地SRAM存储定义数百个控制信号的时间序列的所有指令，从而实现高度灵活的测试并简化设计验证，与预定义状态机相比，面积损失较小。作者验证了持续时间可以在整个芯片上可靠地传输，最大误差等于5ns（较短持续时间为 3ns）。

图1 芯片架构

图2 可重构架构和路由

二、KWS任务

为了演示芯片在端到端网络中的性能，实现了多类KWS任务。作者采用了 FC网络，实现了 86.75% 的分类准确度。为了在芯片上实现完全端到端的传输，作者进行了一系列修改，最终端到端实现总共使用四个图块。为了提高MAC精度并补偿外围电路的不对称性，引入了MAC不对称平衡（AB）方法，测得的KWS精度为86.14%，完全在 MLPerf SWeq“等精度”极限 85.88%之内。

图3 端到端 KWS 任务

三、芯片上的RNNT映射

作者实施了MLPerf数据中心网络RNNT作为行业相关的工作负载演示。当 RNNT等大型DNN以降低的数字精度实现时，整个网络的最佳精度选择可能会有所不同。研究表明即使使用激进的量化，不易受影响的层或整个网络块仍将提供较低的 WER，而高度敏感的块即使对于少量的权重量化也将表现出较高的 WER。对每个单独的层重复此过程以识别最敏感的层，接着将 MLPerf 权重映射到分布在5个芯片上的142个图块上。在总共 45,321,309 个网络权重和偏差参数中，45,261,568 个被映射到模拟存储器（权重的 99.9%）。

图4 用于语音转录的MLPerf RNNT网络

四、准确度结果

作者展示了2513个音频查询的完整 Librispeech 验证数据集的权重映射和编程后的实验WER。总WER为9.475%，与SW 基线相比总体下降了 2.02%。在本实验中，通过芯片推断完整的Librispeech验证数据集并保存输出结果。然后将这些输入到芯片 2 中，依此类推，输入到所有 5 个芯片中。即使在PCM漂移超过1周后重复进行，且没有任何重新校准或重量重新编程，RNNT WER 也仅下降了 0.4%。

图5 在 MLPerf RNNT上使用Librispeech进行WER实验

五、电源和系统性能

作者还测量了推理操作期间每个芯片的全部功耗。所有控制和通信电路均以 0.8V 驱动。芯片最佳功率性能为12.40 TOPS/W。通过将积分时间减半，芯片的 TOPS/W 可以再提高 25%，但 WER 会额外降低1%。随着重量的增加，使用本文报道的芯片的模拟人工智能系统可以在3.57W的功率下实现6.704TOPS/W，比MLPerf的最佳能效提高了14 倍，WER 为 9.258%。

图6 MLPerf RNNT功率和系统性能

行业资讯

INDUSTRY INFORMATION

ChatGPT重磅更新！

可以通过图片和语音命令交互

自诞生以来，ChatGPT的大部分更新主要在于，这个基于AI的机器人可以做什么、可以回答哪些问题、可以访问哪些信息，以及如何改进其基础模型等方面。这一次，OpenAI正在调整使用ChatGPT的方式。

北京时间9月25日晚，OpenAI在其官网宣布，目前正在推出ChatGPT的新版本，除了通过常见的文本框交互外，现在它正在学会以新的方式理解人类的问题，比如通过大声说话或者上传图片。

具体而言，在语音方面：第一，允许用户进行语音对话，提供更直观的交互方式；第二，支持在iOS和Android移动应用上使用；第三，提供5种不同的语音选择；第四，通过新型文本转语音模型和语音识别系统实现。

这应该感觉就像与苹果的Siri交谈一样，只是OpenAI希望，通过改进基础技术使其说出更好的答案。目前，大多数虚拟助手，如亚马逊的Alexa，都在以大语言模型（LLM）为基础进行改进。

OpenAI在其官网宣布，目前正在推出ChatGPT的新版本，除了通过常见的文本框交互外，现在它正在学会以新的方式理解人类的问题，比如通过大声说话或者上传一张图片。

据OpenAI介绍，新的语音功能由一个新的文本到语音模型提供支持，该模型能够从文本和几秒钟的语音样本生成“类似人类的音频”。OpenAI似乎还认为该模型的潜力不止于此，其正在与流媒体音乐服务平台Spotify合作，将播客翻译成其他语言，同时保持播音者的声音。合成语音有许多有趣的用途，而OpenAI可能会成为该行业的重要组成部分。

然而，只需几秒钟的音频就能构建出功能强大的合成音色，这也为各种问题性用例敞开了大门。“这些功能还带来了新的风险，比如恶意行为者冒充公众人物或实施欺诈的可能性”，OpenAI在其宣布新功能的博文中写道。OpenAI表示，出于这个原因，该模型不会广泛被使用，而更多受到特定用例和合作伙伴的限制。

在图像方面，第一，允许用户上传图像与ChatGPT进行交互；第二，支持多张图像；第三，提供移动应用上的绘图工具；第四，使用多模态GPT模型（Generative Pre-Trained Transformer，生成式预训练Transformer模型）理解图像；第五，在接下来的两周内首先面向Plus（付费订阅用户）和企业用户推出；第六，语音和图像功能的推出采取渐进策略，以确保安全性；第七，要注意模型局限性，避免高风险场景下对其依赖。

图像搜索有点类似于Google Lens的功能，用户拍摄自己感兴趣的任何东西的照片，ChatGPT去尝试了解用户在询问什么，并做出相应的回应。用户还可以使用应用程序的绘图工具帮助明晰自己的诉求，或配合图像进行说话或写入问题。

这是ChatGPT希望实现的一个互动特性：与其进行一次搜索得到错误答案，然后再重新进行一次搜索，不如在进行的过程中提示AI机器人完善答案。

不过，显然图像搜索也有其潜在问题。比如，如果用户询问的是关于一个人的情况，ChatGPT该如何反应？OpenAI表示，他们故意限制了ChatGPT“分析和直接陈述关于人的能力”，这既是为了准确性，也是为了隐私原因。这意味着对于AI的一个极具科幻色彩的想象——看着某人然后问AI“那是谁”，并不会很快实现。

行业资讯

INDUSTRY INFORMATION

AI 为什么会有创造力？

范畴论刻画大模型创造力的来源

在回答这个问题之前，我们可能先要回答一个更重要的问题：AI有没有创造力？

几年前，我和朋友们讨论这个问题的时候，大家往往认为AI只能作为一个高级工具存在，擅长的是重复简单机械劳动，不可能有创造力。但ChatGPT出现以来，人们对AI能力有了更多想象，所以往往更关心诸如AI是否会毁灭人类这种生死攸关的大问题，对AI的创造力反而不那么关心了。

但相比世界毁灭这种宏大而又不可捉摸的未来，也许AI的创造力反而是一个值得仔细分析的课题。当然，在此之前，我们还要回答一个更基本的问题：什么是创造力？

这个问题已经被哲学家、心理学家、教育学家等多个领域的专家研究了很多年，我原本没有资格置喙。但是已有的相关定义和结论往往偏文科一些，今天我想从范畴论的角度给出一个更明确的定义。这个工作一样基于我ICML'2023发表的论文，不过那篇太偏技术了，我们今天讲得soft一些。

在ChatGPT首次推出将近一年后，OpenAI似乎仍在寻找，如何为其AI机器人增加更多功能和能力而不会产生新的问题和缺点。OpenAI也试图通过有意限制其新模型的功能，来维持“更进一步”和“降低风险”这两者之间的平衡。但这种方法可能不会永远奏效。随着越来越多的人使用语音控制和图像搜索，并且ChatGPT越来越接近成为一个真正多模式、有用的虚拟助手，维持住这个护栏会变得越来越困难。

从神经网络到大模型

2012年Alexnet问世的时候，我正好是个一年级的博士生。那时的神经网络给AI圈带来了很大的冲击，人们第一次意识到这个东西要比传统的机器学习算法强大很多。

但那种冲击更多是方法论层面的。虽然大家对神经网络的效果感觉很惊讶，但是普遍还是认为它只是一种效果好一点的机器学习工具罢了。后来的一些AI大事件，我也能用类似的方法自圆其说。比如AlphaGo之所以能赢，是因为它算力强，加上神经网络强大的图像分析能力，很正常。比如星际争霸AI玩得溜，是因为AI微操厉害，人手可点不过它。比如 AlphaFold 算蛋白质厉害，那是因为人类本来就不擅长算折叠这种高维任务。

但是Dall-E的出现，给了我很大震撼。当你输入一段文字之后，Dall-E可以帮你绘制一幅相应的图片。一个广为流传的例子是“牛油果椅子”，即：

输入：an armchair in the shape of an avocado. （一个牛油果形状的椅子）

输出：

当时的我非常震惊，这种震惊来源于一种对于未知的恐惧。我非常确定，我之前从来没有见过这样的图片，也就是说，世界上不存在牛油果椅子这样的设计，或者至少不存在这么多种牛油果椅子的设计。也就是说，这里面大部分的图片，在模型的训练数据集中是不存在的。这对于统计学习理论框架来说是极为糟糕的一件事情：模型到底为什么能在几乎没有见过类似作品的情况下，完美地画出这些图片？据我所知，传统的理论框架无法解释这件事。

而这，就是我们今天要谈的创造力。我认为，如果能设计出一种世界上从来没有的牛油果椅子，模型一定是拥有了创造力。

什么是创造力？

但是在谈论这些模糊不清的概念的时候，我们一定要小心。很多人会反驳说，这个不算是创造力，真正的创造力是XXX。我想，创造力可以分为很多种，而我们今天只是谈其中的一种，这种创造力我称之为“同象”。同象对应的英文是isomorphism，一般被翻译成同构。但是在一些更强调内部复杂关系的地方，我觉得同象更合适一些。

狭义的同象，就是给定一句文字描述，能够生成与之对应的图像。这个时候，文字的象和图像的象是一致的。但是，什么是象，什么是一致呢？

用范畴论的语言来说，象是一个projective limit——但是我们今天不要讲那么抽象。简单来说，象就是一个大的对象的内部各种小对象之间关系的集合。打个比方，当我们分析“一个牛油果形状的椅子”这句话的时候，我们心中有好几个小对象，比如“一个”，“牛油果”，“形状”，“椅子”。它们彼此之间都有关系，比如一个是修饰椅子的，牛油果和形状是连在一起的，它们一起修饰椅子，等等。

当我们分析一个牛油果椅子的图片的时候，图片中一样有一把椅子，椅子是牛油果形状的。图片中的这些特征彼此之间也有关系，而这个关系本身，与文字中的 “牛油果形状”，还有“椅子”的关系，是能够对应起来的。这个时候，我们就说图片中的象，和文字中的象，是一致的。

更一般地来说，我们可以定义任何两个模态之间的象的一致性。我们只要明确两个模态中的基本元素（例如之前的文字、图像特征）有对应，元素关系也有对应，就得到了一对“同象”。

同象算不算一种创造力？我觉得算。用贴切的图像表达文本信息，或者用合适的音乐表现场景氛围，或者制作恰到好处的表情包表达情感，这些都是构建跨模态的同象对象，是拥有创造力的表现。

最新的 DALL·E 3 生成的人形秋天树叶组成的乐队

AI为什么有创造力？

不过，为什么模型可以拥有这种能力？光从统计学习理论的角度不容易解释清楚，毕竟模型能够生成大量之前从来没有见过的图片。但是从关系的角度就不难理解这件事情。我们很早就知道，模型拥有理解各个模态中基本元素的能力。不论是生成出一些猫猫狗狗的图片，还是分辨出图片中动物的类别，神经网络都可以做得很好。

在基本元素的基础之上，我们还需要刻画元素与元素之间的关系。这些关系的集合，加上基本元素本身，也就是象，可以使用一个高维向量来表达——这件事情对神经网络来说也并不困难。但是对于多个模态，模型可能会需要使用不一样的高维向量表达不同模态的象，因此“同象”的创造力就变成了一种高维向量的对齐。

在这个情况下，模型为了展现从模态 A 到模态 B 的创造力，只需要简单三步走：

1. 表达模态 A 中的象，记为向量ν A

2. 将ν A 与模态 B 中的高维向量ν B 对齐，计算出ν B

3. 计算模态 B 中的象，使其的表征等于ν B

从这个角度来看，同象类型的创造力，是完全可以通过计算的方式表达的。当然，有朋友可能会说，这个本质不就是CLIP算法么？似乎我只是换了一种通俗的说法，把CLIP的算法又描述了一遍而已。

事实并非如此。如果我们能够深入理解模型创造力的来源，就可以利用它强化象的描述能力，实现更强大的创造力。例如，ControlNet就是在文字的基础上，加入了额外的图像描述，使得模型能够更清晰地理解用户想要表达的象，从而构建更好的作品。如下图：

关于ControlNet的具体介绍，可以参考别的知乎文章，例如：ControlNet v1.1：完整指南：https://zhuanlan.zhihu.com/p/631292050

当然了，画画只是一个例子，对于其他同象类别的创作任务，通过提升模态的表达能力，一定也可以提升模型的创作效果。

回到题目，AI为什么会有（同象）创造力？因为同象这种创造力可以被分成三步刻画出来，并不神秘。不过我认为，其他类型的创造力在范畴论中也有相应刻画，等着我们去发现。换句话说，人类的创造力，其实也就是各种各样的计算而已。

电话：0531-88287262

官网：www.sdaict.ac.cn地址：济南市高新区旅游路8661号

智研简报2023第9期

内容简介

为您推荐

热门标签

产品服务

关于我们

网络条款

其他

联系方式