智研简报
Sdaict Monthly
智能计算 计算未来
2023年10月第10期 | 总34期
中国 · 济南
山东产业技术研究院智能计算研究院
双击编辑文字
双击编辑文字
2023年10月25日-26日,中标华信(北京)认证中心组织审核专家对我院ISO20000信息技术服务管理体系进行了年度监督审核。审核专家经过全面、严格、细致的指导和审核,对研究院开展信息技术服务工作给予了充分肯定。最终,研究院顺利通过ISO20000信息技术服务管理体系年度监督审核。
ISO20000是一项关于信息技术服务管理系统(ITSM)的国际标准,是全球标准化管理认证体系里含金量最高的国际认证之一,其目的是提供建立、实施、运作、监控、评审、维护和改进IT服务管理体系的模型。通过遵循ISO20000标准,可以建立一个可持续改进的IT服务管理体系,提高客户满意度,降低成本和风险,并提升业务水平。
CONTENTS
目录
面向“政产学研金服用”,打造研究机构与企业间体系化、标杆化及标准化合作模式
01
智研快讯
计算机视觉的十年:深度学习带来变革,经典元素仍主导特定挑战
重磅|智研院顺利通过ISO20000 信息技术服务管理体系年审
04
02
技术前沿
《算力基础设施高质量发展行动计划》配套解读
03
Science 发文,随着
人工智能走向多模态, 医疗应用倍增
行业资讯
重磅|智研院顺利通过ISO20000
信息技术服务管理体系年审
智研快讯
NEWSLETTERS
政策导读
中国科学技术大学吕琳媛:探索复杂世界的简单规则
05
ISO20000年审
本次ISO20000年审的顺利通过,标志着研究院在信息服务的精细化、制度化、规范化管理方面保持着较高水平,在提升综合业务管理水平上取得了新进展。研究院将以此为契机,以国际标准为标杆,以更高标准、更严要求为客户提供高质量、高水平的产品与服务。
政策导读
《算力基础设施高质量发展行动计划》配套解读
“
”
近日,工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等6部门联合印发《算力基础设施高质量发展行动计划》(以下简称《行动计划》)。为更好地理解和实施《行动计划》,结合各方关注问题,现对有关政策要点解读如下:
比达到40%。存储力方面,存储总量超过1800EB,先进存储容量占比达到30%以上。应用赋能方面,围绕工业、金融、医疗、交通、能源、教育等重点领域,各打造30个以上应用标杆。
五、《行动计划》部署了哪些重点任务?
《行动计划》共部署25项重点任务,在完善算力综合供给体系方面,从建设布局、算力结构、异构协同、标准体系等方面进行部署;在提升算力高效运载能力方面,从运载质量、接入网络、算力调度等方面进行部署;在强化存力高效灵活保障方面从存力技术、存储产业和存算网协同等方面进行部署;在深化算力赋能行业应用方面,重点在工业、教育、金融、交通、医疗和能源等方面进行了工作部署;在促进绿色低碳算力发展方面,从提升算力碳效水平、引导市场应用、赋能行业发展等方面进行了部署;在加强安全保障能力建设方面,从提升网络安全、强化数据安全、推荐供应链安全等方面进行部署。
六、在完善算力综合供给体系方面,有哪些具体工作部署?
《行动计划》多方面统筹考虑算力供给建设,从算力设施布局、算力结构配置、边缘算力部署、标准体系建设等方面进行引导,提升算力综合供给能力。一是优化算力设施建设布局。促进东西部地区算力高效互补和协同联动;加强对数据中心上架率等指标的监测,指导整体上架率低于50%的区域规划新建项目加强论证;支持我国企业“走出去”,以“一带一路”沿线国家为重点布局海外算力设施。二是推动算力结构多元配置。推动算力资源多元发展,逐步提升智能算力占比;推动智能算力与通用算力协同,满足不同类型算力业务需求。三是加速边缘算力协同部署。推动“云边端”算力泛在化分布、协同发展,支撑低时延业务应用;加快行业算力建设布局,支撑传统行业数字化转型。四是构建算力标准体系。加快研制面向算力业务需求的基础共性标准,完善相关要求和技术方法,同步探索支持算网融合产业化发展的标准建设。五是开展算力供给提升行动。开展国家算力中心典型案例遴选,举办中国算力大会,发布《中国综合算力指数》。
七、在提升算力高效运载能力方面,有哪些具体工作部署?
《行动计划》以网络支撑算力应用为核心,从网络创新技术、算力接入网络、枢纽网络传输、协同调度机制等方面进行引导,提升算力高效运载能力。一是优化算力高效运载质量。探索构建布局合理、泛在连接、灵活高效的算力互联网。增强异构算力与网络的融合能力,实现计算、存储的高效应用;促进数据处理器(DPU)、无损网络等技术的研发
一、什么是算力基础设施?
算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力中心等算力基础设施向社会提供服务。算力基础设施是新型信息基础设施的重要组成部分,呈现多元泛在、智能敏捷、安全可靠、绿色低碳等特征,对于助推产业转型升级、赋能科技创新进步、满足人民美好生活需要和实现社会高效能治理具有重要意义。
二、《行动计划》的出台背景是什么?
习近平总书记指出,要加快新型基础设施建设,推动数字经济和实体经济融合发展。随着数字经济时代全面开启,算力正以一种新的生产力形式,为各行各业的数字化转型注入新动能,成为经济社会高质量发展的重要驱动力。算力基础设施作为算力的主要载体,是支撑数字经济发展的重要资源和基础设施,对于实现数字化转型、培育未来产业,以及形成经济发展新动能等方面具有重要作用。
当前,新一轮科技革命和产业变革正在向纵深演进,算力基础设施的重要性不断提升,各国持续加大投入。我国算力基础设施发展成效显著,但与推动数字经济与实体经济深度融合、实现经济社会高质量发展的目标任务相比,与应对国际市场激烈竞争的要求相比,仍有一定差距。为进一步凝聚产业共识、强化政策引导,全面推动我国算力基础设施高质量发展,工业和信息化部等6部门联合印发《行动计划》。
三、《行动计划》的基本原则和主要内容是什么?
《行动计划》结合算力基础设施产业现状和发展趋势,明确了“多元供给,优化布局;需求牵引,强化赋能;创新驱动,汇聚合力;绿色低碳,安全可靠”的基本原则,制定了到2025年的主要发展目标,提出了完善算力综合供给体系、提升算力高效运载能力、强化存力高效灵活保障、深化算力赋能行业应用、促进绿色低碳算力发展、加强安全保障能力建设等六方面重点任务,着力推动算力基础设施高质量发展。
四、未来3年,算力基础设施发展将有哪些具体目标?
《行动计划》从计算力、运载力、存储力以及应用赋能四个方面提出了到2025年发展量化指标,引导算力基础设施高质量发展。
计算力方面,算力规模超过300EFLOPS,智能算力占比达到35%。运载力方面,国家枢纽节点数据中心集群间基本实现不高于理论时延1.5倍的直连网络传输,重点应用场所光传送网(OTN)覆盖率达到80%,骨干网、城域网全面支持IPv6,SRv6等新技术使用占
与应用。二是强化算力接入网络能力。逐步实现城区重要算力基础设施间时延不高于1ms,大力提升边缘节点灵活高效的入算能力。三是提升枢纽网络传输效率。推动算力网络国家枢纽节点直连网络骨干节点,逐步建成集群间一跳直达链路,国家枢纽节点内重要算力基础设施间时延不高于5ms。四是探索算力协同调度机制。鼓励各方探索打造多层次算力调度框架体系,探索实现算力的一体化调度应用。五是开展算网融合发展行动。探索建设多层级算力调度平台、打造算网城市标杆、实施“算力强基揭榜挂帅”。
八、在强化存力高效灵活保障方面,有哪些具体工作部署?
《行动计划》从存储技术、存储产业和存算网协同等方面,对强化存力高效灵活保障进行部署。一是加速存力技术研发应用。促进全闪存、蓝光存储等存储技术的创新发展,紧抓存储闪存化升级的机遇,实现算力中心存力与存储产业的共同发展。二是持续提升存储产业能力。通过关键存储部件自主研发能力的提升,推动存储产业上下游协同发展,支撑算力中心存储建设。三是推动存算网协同发展。在技术上推动存算网协同相关技术研发,在算力中心建设上合理配置存算比例,在应用上支撑数据在算力中心内及算力中心间的高效流动。四是开展存算协同发展行动。进行数据中心存储能力成熟度研究,鼓励使用自主存储设备,发布《中国存力发展报告》。
九、如何推动算力基础设施进一步向绿色低碳方向演进?
《行动计划》着力引导算力基础设施绿色低碳发展。一是提升资源利用和算力碳效水平。通过对算力中心的设计建设、技术选型和设备选择等方面的引导,提升算力碳效水平。二是引导市场应用绿色低碳算力。积极引入绿色能源,采用源网荷储等技术,实现可再生能源的融合开发、就近消纳,提升算力设施绿电使用率。三是赋能行业绿色低碳转型。推动算力在重点行业发挥应用赋能作用,促进企业经营活动数智化发展,构建“算力+”绿色低碳生态体系,助力各行业绿色低碳发展。
十、如何保障《行动计划》落地实施?
《行动计划》的落地实施,需要各级政府,以及基础电信运营商、第三方数据中心服务商、互联网企业等各类市场主体在算力基础设施建设运营中发挥各自优势,互促互补、形成合力。《行动计划》提出了4方面的保障措施。
一是加强统筹联动。加强部门协同,分工做好重点任务组织保障,合力推进算力设施发展。二是加大金融支持。加大对算力基础设施创新发展的金融支持力度,推动符合条件的项目申报发行基础设施领域不动产投资信托基金,鼓励金融机构加大对绿色低碳算力基础设施的信贷支持力度。三是深化交流协作。充分发挥产业联盟、标准组织的组织引导作用,推动交流与合作。支持算力企业走出去,加强国家交流与合作。四是强化平台支撑。完善中国算力平台和数据采集机制,探索算网存资源的协同对接,有效推动产业链上下游技术创新协作、资源共享。
技术前沿
ADVABCED TECHNONLGY
Science 发文,随着
人工智能走向多模态,
医疗应用倍增
近日,美国斯克里普斯研究所(Scripps Research)的基因组学主任兼教授 Eric Topol 在《Science》发表了题为《As artificial intelligence goes multimodal, medical applications multiply》的观点文章。
机器没有眼睛?但如果你遵循深度学习模型的进展来准确解释医学图像,你就会知道。
在过去的几年里,大量的研究不断证明「机器眼」的力量有多么强大,不仅可以与医学专家相比,而且可以检测人类不易辨别的医学图像中的特征。例如,视网膜扫描包含人类无法看到的丰富信息,但机器可以,为人类生理学的多个方面提供了一个入口,包括血压、血糖控制、帕金森氏症、阿尔茨海默氏症、肾脏和肝胆疾病的风险以及心脏病发作和中风的可能性。
作为一名心脏病专家,不会想到心电图的机器解读会提供有关个人年龄、性别、贫血、患糖尿病或心律失常的风险、心脏功能和瓣膜疾病、肾脏或甲状腺疾病的信息。同样,将深度学习应用于肿瘤组织的病理切片也可以提供有关起源位点、驱动突变、结构基因组变异和预后的见解。
尽管这些用于医学图像解读的机器视觉功能可能看起来令人印象深刻,但它们预示着 AI 改变医学的潜在更广阔的领域。未来的重大转变是能够超越狭隘的单模态任务(仅限于图像),并扩大机器功能以包括文本和语音,涵盖所有输入模态,为多模态 AI 奠定基础。
尽管图像解释方面的大部分进展都归功于监督学习,这需要完全注释的输入和基本事实,但发展到多模态 AI 的一个主要要求是使用自监督和无监督的学习形式。这取代了对数据注释的繁重需求,而这种需求在大规模输入下是不可能实现的,正如大型语言模型(LLM)所见。
但实现 ChatGPT 等 LLM 所需的不仅仅是学习类型的差异或大量输入。这需要 Vaswani 及其同事于 2017 年推出的一种称为 Transformer 的新模型架构,超越依赖从一个时间步到下一个时间步(如句子中的每个单词)的反馈的循环神经网络,以包含所有数据( 例如,句子中的所有单词)。这些 LLM 的进展最终导致了 GPT-4,它是多模态的,因此能够处理所有形式的数据,包括文本、音频、语音和图像。值得注意的是,GPT-4 和当今其他主要基础模型(例如 Bard、LLaMa 和 PALM-2)的输入均来自维基百科、互联网和成千上万的书籍。没有用于训练的特定医疗数据,这需要监督微调。
现在,LLM 是多模态的,不再仅限于文本输入和输出,它们的名字应该被认为是用词不当——就像「生成 AI」一样,因为这些模型在生成之外的许多其他功能上表现出色,例如编辑文本。无法准确命名这些模型反映了它们广泛的功能,当考虑它们在医学中的用例时,这一概念进一步得到强调。
Transformer 模型具有在医学中执行多模态 AI 的新功能,可以实时分析一个人的多层大数据和我们的知识库。许多隐藏在每个人独特性之下的高维数据现在都可以被捕获。这些层包括通过成像的解剖学,通过传感器的生理学生物标志物,基因组,微生物组,代谢组,免疫组,细胞水平转录组,蛋白质组和表观基因组。包含实验室结果、家族史、非结构化文本和个人纵向随访的电子健康记录数据也是丰富的数据来源。
Transformer 模型架构图
这种多模态 AI 具有广泛的数据驱动应用的潜力。对于有患慢性疾病风险的人,虚拟健康助理可以经常提供有关他们数据的反馈,以实现预防或更好地管理已有疾病。以一个患有高血压和糖尿病的人为例,他患心脏病的多基因风险评分很高。虚拟助手不仅可以帮助患者控制血压和血糖,减少这些可改变的风险因素,还可以根据患者的身体活动、睡眠、压力、视网膜照片、医疗记录中的非结构化文本和最新医学文献,对患者进行分析和指导。目前已经有针对糖尿病、高血压、肥胖和抑郁症等特定疾病的虚拟 AI 聊天机器人健康助手,但还没有一个能做到全面或预防。
个人的多模态数据也可以使远程监测成为现实,从而实现相当于重症监护病房的连续生命体征采集的「居家医院」。经过验证的算法可以在任何症状出现之前准确地预见到一个人的恶化迹象,并且需要进行干预,无论是远程还是派遣医务人员,许多患者将来都可以避免住院。多模态 AI 还有其他几个用例,例如数字孪生,通过提供数字传真,可以为患
有新诊断的人提供信息,从而找到成功的治疗方法。另一个应用是流行病监测,通过地理定位、可穿戴传感器、症状、疫苗接种状况、废水结果和其他数据层进行个性化的时空实时风险评估。
流行病监测
尽管早期医疗保健领域的 LLM 应用受到了很多关注,例如,通过美国医疗执照考试的能力,为患者提供医疗问题的答案,或者通过与患者对话的自然语言处理减轻临床医生的文书负担,多模态 AI 是一个更深层次的分析挑战。到目前为止,已经整合了几层数据,例如电子健康记录和基因组学,但还没有达到相关和分析的复杂性、深度和广度。要实现多模态 AI 在医学领域的非凡潜力,这是一个相当大的持续挑战。
除了分析障碍之外,还有许多其他障碍。LLM 通常会对自己的回答过于自信,这是「经常错误,从不怀疑」的特点。除了 LLM 的胡言乱语的倾向之外,还存在固有的偏见、对数据隐私和安全的担忧、模型性能随着时间的推移可能恶化、对监管批准理由的质疑、医疗实践对变革的抵制、需要令人信服的前瞻性证据来证明益处等问题。
尽管如此,前所未有的大规模计算能力和对大量人类数据的自监督学习的融合,为以前无法实现的医疗应用奠定了基础。未来几年,医学 LLM 的多能性可能会催生虚拟健康助理和家庭医院,提供高度准确和个性化的医疗保健方法。
行业资讯
INDUSTRY INFORMATION
计算机视觉的十年:
深度学习带来变革,
经典元素仍主导特定挑战
近些年来,计算机视觉(CV)的发展势如破竹,渗透到了我们生活的方方面面。对于大众而言,这可能像是一项新鲜且令人兴奋的科技创新,然而,实际上并非如此。
事实上,计算机视觉已经有几十年的发展历程,早在20 世纪 70 年代,已经为今日所使用的众多算法打下了坚实基础。然后,在大约十年前,一种当时还在理论发展阶段的新技术浮现眼前:深度学习,一种利用神经网络解决高度复杂问题的 AI 形式,只要你有足够的数据和计算能力就能驱动它。
随着深度学习的持续进步,我们开始认识到它在解决某些计算机视觉问题上的表现十分出色。对于目标检测和分类等挑战性问题,深度学习的应用效果特别理想。从这时开始,"经典"的计算机视觉与基于深度学习的计算机视觉开始出现明显的区别。
什么锁住了经典CV?
然而,深度学习的崛起并未将经典计算机视觉贬低为过时技术;两者仍在并行发展,帮助我们明确哪些问题更适合借助大数据来解决,哪些问题应当继续使用数学和几何算法来处理。
尽管深度学习能够革新计算机视觉,但这种神奇的改变只有在有适宜的训练数据可供使用,或者在网络能独立地、在明确的逻辑或几何约束下进行学习时才能显现。
在过去,经典计算机视觉被用于物体检测,识别特征(如边缘、角点和纹理)甚至对每一个图片像素进行标记(语义分割)。然而,这些过程都非常复杂且耗时。
要检测物体,需要熟练掌握滑动窗口、模式匹配和穷举搜索等技术。提取和分类特征则需要工程师开发定制的方法。在像素级别上区分不同类别的对象需要大量的工作来划分不同的区域,即使是最有经验的计算机视觉工程师也并不总能正确地区分图像中的每个像素。
深度学习变革目标检测
相较而言,深度学习,尤其是卷积神经网络(CNN)和基于区域的卷积神经网络(R-CNN),已经使得物体检测变得相对简单,特别是与Google 和 Amazon 等大公司出品的大·图像数据库结合使用时。只需通过训练良好的网络,无需明确的手动规则,算法就能在各种情况下检测目标,且不会受到视角的限制。
在特征提取方面,深度学习只需要一个有效的算法和丰富多样的训练数据,既能防止模型过拟合,也能确保在投入生产后面对新数据时获得高度的准确性评分。在这项任务上,CNN 表现得尤为出色。此外,当深度学习被应用于语义分割时,U-net 架构表现得非常好,消除了复杂的手动处理的需求。
回看“经典算法”
虽然深度学习无疑已经彻底改变了计算机视觉的领域,但在同时定位和映射(SLAM,Simultaneous Localization and Mapping )以及运动结构(SFM)等特定挑战上,经典计算机视觉的解决方案仍然优于较新的方法。这些问题都涉及到使用图像来理解和描绘物理空间的尺寸。
SLAM 主要针对构建和更新某个区域的地图,同时跟踪代理物体(通常是某种类型的机器人)在地图中的位置。这种技术使得自动驾驶和机器人吸尘器等成为了可能。
SFM 也同样依赖于先进的数学和几何知识,但其目标是使用从无序图像集中获取的多个视角来创建物体的三维重建。它适用于不需要实时、即时响应的情况。
最初,人们认为正确执行 SLAM 需要大量的计算能力。然而,通过使用近似方法,计算机视觉的先驱者们能够使计算需求更加易于管理。
相比之下,SFM 更为简单:与通常涉及传感器融合的 SLAM 不同,该方法只利用相机的固有属性和图像的特征。与许多由于范围和分辨率限制而无法进行的激光扫描相比,这是一种经济高效的方法。其结果是对物体的可靠且准确的表示。
前方的路
深度学习仍然无法像经典计算机视觉一样解决某些问题。工程师们应继续使用传统技术来解决这些问题。当问题涉及复杂的数学和直接观察,且难以获取适当的训练数据集时,深度学习的强大和笨重可能无法生成优雅的解决方案。可以用“瓷器店里的公牛”这个类比来形容这种情况:就像 ChatGPT 在基本算术方面肯定不是最高效(或最准确)的工具一样,经典计算机视觉将继续主导特定的挑战。
经典计算机视觉向基于深度学习的计算机视觉的部分过渡给我们带来了两个主要的启示。
首先,我们必须认识到,全面替换旧技术,尽管更简单,但却是错误的。当一个领域被新技术打破时,我们必须谨慎关注细节,并逐个案例确定哪些问题将从新技术中受益,哪些问题仍然更适合使用旧方法。
第二个启示是,虽然过渡带来了可扩展性,但它也带来了一种苦乐参半的情感。传统方法确实更多的是手动操作,但这也意味着它们既是艺术,又是科学的结合。从图像中提取特征、物体、边缘和关键元素所需的创造力和创新力,并不是来自深度学习,而是来自深思熟虑。
随着我们逐渐远离经典计算机视觉技术,而工程师有时候更像是计算机视觉工具的整合者。虽然这对行业来说是“好事”,但却遗憾地放弃了那些更具艺术性和创造性的元素。未来的一个挑战将是尝试以其他方式将这种艺术性融入进来。
理解取代者
在未来的十年中,预测“理解”将最终取代“学习”,成为网络开发的主要关注点。重点将不再是网络能学到多少知识,而是它能深入理解信息的程度以及我们如何在不给予过多数据的情况下促进这种理解。我们的目标应该是让网络能在最少的干预下得出更深入的结论。
在计算机视觉领域,接下来的十年肯定会带来一些惊喜。也许经典计算机视觉最终会变得过时。也许深度学习也会被一种尚未被我们听说过的技术所取代。然而,至少目前来说,这些工具是处理特定任务的最佳选择,构成了未来十年计算机视觉发展的基础。无论如何,这都将是一段非常有意义的旅程。
2021年,一艘货轮意外在苏伊士运河搁浅,给全球经济带来“多米诺骨牌”式影响,每天由此减少的贸易额高达90亿美元,为什么小小一艘货轮能堵住全球供应链?同样地,为什么一条网络谣言可以引爆全网大规模舆情?难道一只蝴蝶轻轻振翅,真能卷起千里之外的一场风暴吗?
这些问题看似毫不相关,但仔细思考就会发现,这些复杂现象均有一个共同点:它们都发生在由大量主体通过相互作用构成的复杂系统中。2021年诺贝尔物理学奖颁发给了意大利物理学家乔治·帕里西教授(Giorgio Parisi)以表彰他对复杂系统理论的开创性贡献。年轻时的乔治·帕里西教授也曾在罗马火车站,对空中成千上万只鸟儿成群飞翔的景象着迷。他常伫立良久,观察、拍摄鸟群。基于对鸟群的观察数据,帕里西教授用统计物理方法揭开了鸟群飞行的奥秘。原来每只鸟只需要遵循三个最基本的原则,就可以复现鸟群飞翔的奇景。这三个基本原则为:(1)靠近视野中的邻居,每只鸟都希望与视野中的同伴携行;(2)与视野中的邻居保持一致的飞行方向;(3)当与邻居过于靠近时,调整方向,避免碰撞。
所以,鸟群飞行的奥秘不在于每只鸟,而是它们之间的相互作用。鸟群飞行如此复杂,但背后规则竟如此简单!研究鸟群这样的系统时出现一个魔咒:我们惯于依赖的还原论(还原论(Reductionism)是一种哲学思想,认为复杂的系统、事物、现象可以将其化解为各部分之组合来加以理解和描述。)失效了。
二、什么是复杂系统?
还原论虽然不能理解鸟群的集体行为,但对理解飞机就很有效,尽管飞机的零件也不计其数,功能也眼花缭乱,但只要我们明白每个零件的作用,就能完全理解飞机的飞行原理。我们称飞机这样的系统为复合系统(Complexed systems),而像鸟群、大脑这样的系统,即使我们研究清楚了系统的所有组成部分(如每只鸟、每个神经元),也无法理解系统整体涌现的奇观(如鸟群飞舞、意识涌现),这样的系统就是复杂系统(Complex systems),如图1所示。复杂系统研究旨在解决的核心问题就是探索复杂系统背后的简单、普适规律。
图1 复合系统与复杂系统
行业资讯
INDUSTRY INFORMATION
中国科学技术大学吕琳媛
探索复杂世界的简单规则
导语
为深入贯彻落实国务院《新一代人工智能发展规划》、《全民科学素质行动规划纲要(2021-2035年)》及《中国科协关于新时代加强学会科普工作的意见》,传播自动化、信息及智能科学领域新知,搭建多主体参与、多样化传播的共建共享平台,打造以“科普专家+科普教育基地+科普作品+科普活动”四位一体的“科普之翼”,中国自动化学会特面向社会广泛征集自动化、信息及智能科学领域科普成果。中国自动化学会将陆续发布征集到的通俗易懂、妙趣横生的科普作品,诚邀您的关注。
2022年11月27日,2022年度十大基础研究关键词在青年科学家50²论坛重磅发布,其中“复杂系统与高阶网络”入选本年度基础研究关键词。复杂科学关注由大量主体通过非线性相互作用构成的复杂系统,探索各类复杂系统背后所蕴含的普适规律。而从高阶视角对复杂系统进行建模,研究高阶网络的结构和动力学等问题逐渐成为复杂系统研究的新前沿。本科普文章整理自吕琳媛教授在青年科学家50²论坛所作学术报告,对相关研究方向和成果进行了介绍。
一、复杂世界,简单规则
夕阳下,鸟儿成群舞动,时而疏散,时而聚拢,不断变化着空间排序却能互不相撞,既能飞越障碍也不会彼此失散。鸟群如何在空中舞蹈、鱼群如何在水中变幻?
牛顿建立了机械性、确定性的物理王国。像小球从斜面滑下的故事时刻都被牛顿力学牢牢控制。在这个确定性王国里,只要我们给定了系统的初始状态,那万物都将按照确定的规则运行。1961年的冬天,气象学家洛伦茨(Edward Norton Lorenz)构建了一个精巧的数学模型,希望能预测天气,却意外地发现了另一个世界。计算机千分之二的系统误差(0.0001秒)竟会得到截然不同的结果。所谓“差之毫厘,谬以千里”。他把这个高度非线性的天气模型输入到计算机中,得到的状态轨迹竟像一只张开翅膀的蝴蝶。于是就有了大家非常熟悉的蝴蝶效应(如图2所示),这一效应形象地表现了非线性系统对初值的敏感性,也体现了复杂系统一个有趣的现象——混沌。
图2 蝴蝶效应起源
实际上,大多数我们熟悉的真实系统,既不是混沌的,也不是完全秩序的,而是处于两者之间,我们称之为混沌与秩序的边缘状态。复杂性科学正是诞生于混沌与秩序边缘的科学。1984年,在盖尔曼、安德逊和阿罗等人的支持下,一批从事物理、经济和计算机领域的科学家在圣塔菲伊苏区中一个租来的女修道院中组建了圣达菲研究所(Santa Fe Institute)。该研究所如今已经成为世界知名的复杂科学研究中心。以圣塔菲研究所成员为代表的一大批学者,尝试突破牛顿以来的还原论思维桎梏,理解涌现、混沌等复杂系统现象。
三、如何探索复杂世界的简单规则——网络科学
圣塔菲研究所的创始人之一乔治·考温曾说,他们正在开创二十一世纪的科学。如今,未来已来!经过科学家们三十多年来的努力,如今复杂科学又迎来了一个新发展阶段——应用复杂网络来刻画、研究复杂系统。网络科学应运而生。网络科学的核心思路,就是应用复杂网络对各类复杂系统进行建模。在现实世界中,大到全球生态系统和全球物流系统,小到细胞内的蛋白质交互系统,都可以用复杂网络进行建模(如图3所示),其中节点表示系统的组成元素,连边表示元素之间的相互作用,通过研究系统抽象而成的网络结构
及其上的动力学,就可以理解网络所对应的复杂系统的规律。
图3 多种复杂网络实例
社交网络是我们日常生活中最为熟悉的网络,每个人作为社交网络中的节点,通过线上线下关系联系起来。回到刚开始的问题,为什么一条网络谣言可以引爆全网大规模舆情,我们又应该从何入手、控制舆情呢?解决这些问题的关键在于在社交平台上找到谣言传播过程中的关键人物,以及识别和切断重要的传播路径。归结起来就是对两个关键科学问题的探索:如何挖掘网络中的重要节点,以及如何挖掘网络中的重要链路。这两个问题的研究在网络科学中被称为网络信息挖掘(如图4所示)。
图4 网络信息挖掘
1. 如何挖掘网络中的重要节点?
对于第一个科学问题:如何基于已知的网络信息挖掘出对网络结构和功能产生重要影响的节点,其实是如何对节点进行排序的问题。在解决这一问题的方法中,依据节点的核数进行排序是一种经典的方法(即K-core分解),它刻画了节点在网络中的位置。这就像一个剥洋葱的过程,把网络一层一层剥掉,越晚剥掉的节点处于网络中的核心位置,这个节点的影响力也就越大。但这样的方法大多适用于静态的、简单的网络。而在现实生活中我们面对的网络大多数都是大规模、含权、演化、有向的。面对这样的复杂网络时,我们又该如何快速高效地计算核数,挖掘出重要节点呢?
受到科学家H指数的启发,我们定义了一个局部H算子,将算子H作用在有限的实数序列上,得到y=H(x1,x2,...,xn)。H算子的定义为在实数序列(x1,x2,...,xn),最多找到y个不小于y的数(如图5所示),这个概念与H指数的概念完全一致。当我们把H算子作用在网络的节点度序列上时,返回的y值就称为该节点的一阶H指数,将H算子进一步作用在某节点的邻居的一阶H指数上时,可以得到该节点的二阶H指数。经过这样连续的作用,就能得到节点的H指数序列。有趣的是,这个序列可以被严格证明为收敛于节点的核数。
图5 H算子定义示意图
因此,通过H算子,我们把长期以来被认为毫不相关的三个指标:度、H-指数与核数联系了起来,我们称这一发现为网络的DHC定理(如图6所示)。这个定理对于演化、含权、有向网络同样适用。基于该定理就可以通过分布式的方式仅基于网络节点局部的信息快速计算节点的核数,从而快速准确地挖掘出复杂网络中的重要节点。
图6 DHC定理
我们发现,在微博网络中应用DHC定理去识别关键用户,只需要监测不到四万分之一的微博用户就可以跟踪95%以上的重大食品安全舆情。此外,这一方法还可以应用在国家创新力分析、重要脑区识别、城市媒体影响力分析等多个领域中。
2. 如何挖掘网络中的隐含链路?
对于第二个科学问题,如何基于已知的网络结构信息和可能的节点属性信息,估计两个未连接节点之间产生连接的可能性?这个问题被称作链路预测,社交网络中的“好友推荐”就是典型的链路预测问题的应用。在链路预测研究中,数据和算法直接决定了预测精度。当获得一个较差的预测结果时,我们就往往会探究怎么设计更好的算法。但却忽略了一个非常关键的问题:分析的数据本身是否是可预测的,即如何刻画网络数据的可预测性。
我们认为,如果随机从网络中抽取出一小部分链路,网络的特征向量空间受到的影响很小,就说明网络是具有规律性的,即可预测性高的。在这种思路的基础上,我们应用类似于量子力学中对哈密顿量做一阶微扰的方法,假定减少或者加入少量链接所产生的微扰,只对特征值有影响,而对特征向量没有影响,这样就可以观察微扰后通过这种办法重构的邻接矩阵和真实邻接矩阵的差异。我们提出了一个度量这种差异的指标——网络的结构一致性。一致性越强则表示该网络的可预测性越大。依据这个思路,我们进一步提出了基于网络结构微扰的链路预测模型(如图7所示)。这个方法在预测丢失的链路以及甄别网络中添加的噪音边两方面都明显超过了经典的层次结构模型和随机分块模型等等。相关算法不仅可以用在社交领域的关系预测中,还可以用在乳腺癌、肺癌、心衰等多种致病基因的预测,预测精度高于传统的系统生物学方法。
图 7 网络结构一致性计算
网络信息挖掘具有非常广泛的应用场景。目前已有部分研究成果应用于网络舆情监控、致病基因预测、医保欺诈识别、电子商务服务等实际系统中,产生了一定的社会经济价值。二十大报告中强调了产业链供应链对于国家安全的重要性,要求着力提升产业链供应链韧性和安全水平,网络信息挖掘的相关方法也能应用于相关研究中发挥作用。产业链供应链天然就是一张网,可以用复杂网络进行描述刻画(如图8所示),其中供应链是上下游企业为实现将产品或服务交付给最终用户而形成的产-销关系网络,产业链是各产业之间依据一定经济技术联系、空间布局形成的相互关联网络。通过构建网络,就可以通过识别重要节点,提前发现可能被“卡脖子”的产业;通过识别重要链路,优化重要链路及提前预警薄弱环节等,结合从微观节点到宏观网络全局的视角,提出产业链供应链的优化升级策略,保障产业链供应链的自主可控和安全高效。
图 8 复杂网络视角优化产业链供应链网络
四、网络科学新前沿——从低阶到高阶
图论作为复杂网络的重要基石之一,其源头最早可以追溯到欧拉的哥尼斯堡七桥问题。直到1998年小世界网络、1999年无标度网络的突破性进展,掀起了网络科学过去二十多年的研究热潮。目前,我们在节点和连边层面对网络的结构、动力学、预测和控制有了较成熟的理解。然而随着研究的不断深入,研究人员发现很多现实系统中不仅包含节点对之间的二元关系,还包括以群、组的形式发生的高阶相互作用,比如,一篇学术论文可能是由多名学者共同完成的;生物信号传递、基因表达调节等生命过程需要多种蛋白质的参与;在大脑神经网络中,包括记忆在内的很多认知功能,都依赖于神经元群的编码和信号同步。这种高阶相互作用难以用基于二元交互关系的网络进行很好地描述。当我们回溯网络科学的起源时,会有一些新的思路(如图9所示)。我们发现,欧拉另外一个重要贡献——欧拉示性数以及庞加莱的洞公式等研究为网络科学提供了新的思路,可以用来研究多节点相互作用的高阶结构和动力学问题,从而将网络科学的研究推进到高阶网络分析的时代。高阶网络分析使我们可以获得对网络的结构和功能更深刻的洞见,并有望在一些已有难题上突破瓶颈、获得新发现。
图 9 网络科学发展历程及未来前沿挑战
从社会过程到神经科学的众多复杂系统实例上,高阶拓扑分析都展示出了巨大潜力。网络高阶结构中,最基本的就是圈((Cycle):一个由相同起点和终点构成的封闭路径。)结构,包括团((Clique):无向图中顶点的子集,一个团中每两个不同的顶点必定相邻。也就是说,其导出子图是完全图。)和洞((Cavity):网络中圈的无关等价类中的最小圈。)(如图10所示)。而人脑中团和洞,前者作为信息处理和记忆的单元,后者作为跨脑区信息整合和分发的功能基础,对于人脑的并行处理与高级认知活动至关重要。进行网络高阶拓扑分析的首要任务是要找到网络中的高阶结构。但目前为止,关于网
络高阶结构的研究还没有形成系统的理论方法。比如绘制大脑完整的高阶结构图谱现在仍是一个巨大的挑战。
图10 团、洞结构示意图
寻找网络高阶结构的关键在于,如何计算网络结构。我们借鉴庞加莱对几何体剖分的思想,把网络看成一个几何体,然后对它进行类似的剖分,分解成全齐性子网络。然后再采用一些二元域上的向量空间和边界算子对网络进行描述和计算。基于此,我们就可以计算出网络中的团、洞结构,以及拓扑不变量,最后呼应欧拉-庞加莱公式,进一步验证计算的准确度(如图11所示)。我们将这套方法应用在线虫的神经网络中,计算出线虫神经网络全部团、洞的数目,绘制了线虫神经网络完整的高阶结构图谱。而这些团、洞结构的生物学意义还有待进一步解读。
图11 高阶网络分析理论框架
应用高阶网络分析来理解大脑会是一个全新的视角。团、洞等高阶结构在大脑中非常关键,这也将促进我们对脑功能相关的神经环路的理解和认识,为临床应用和开发类脑计算框架提供了新思路。比如,我们对孤独症患者大脑神经网络的分析显示,与健康人相比,孤独症患者脑网络中的“团少洞多”。团在一定程度上反映了局部并行处理信息的能力,洞反映了大脑对不同脑区信息整合的能力。这就说明孤独症患者局部并行处理信息的能力有所降低,但是跨脑区信息整合的能力得到提升。但是具体而言,这些团、洞结构如何以特定的组织方式形成,它们与认知和疾病之间究竟有何关联?这都是未来需要进一步研究的重要问题。
在未来,网络科学与人工智能的结合将有着巨大潜力。它不仅有望解决当前的挑战,比如说现代数字化社会的安全和治理问题,同时也将催生一些新的科学问题和应用技术,在社会、经济等众多领域发挥重要作用(如图12所示)。从1984年圣塔菲研究所成立、复杂性科学诞生,到2021年诺贝尔物理学奖授予复杂系统研究,复杂科学在短短几十年里迅速成长,但它仍然像一个青春期的孩子,既稚嫩又代表着未来。复杂科学方兴未艾,中国学者未来可期!
图12 网络科学与人工智能结合的应用场景
电话:0531-88287262
官网:www.sdaict.ac.cn地址:济南市高新区旅游路8661号