中国·济南
山东产业技术研究院智能计算研究院
2022
05 / 24
智研简报
智/能/计/算 计/算/未/来
我院成功召开第一届理事会第三次会议
联邦学习前路如何?杨强:已到“合久
必分”的状态
12 / 02
英伟达让AI“演技”再上台阶:
仅靠语音驱动1张照片说话,惊讶恐惧表情狠狠拿捏
CONTENTS
目录
面向“政产学研金服用”,打造研究机构与企业间体系化、标杆化及标准化合作模式
01
智研快讯
《关于开展科技人才评价改革试点的工作方案》政策解读
智研院成功召开第一届理事会第三次会议
04
05
02
AI为人类开药方:准确预测
9000名癌症患者适用药物!
智研院成功召开
第一届理事会第三次会议
2022年11月21日,山东产业技术研究院智能计算研究院(以下简称“智研院”)第一届理事会第三次会议圆满召开。本次会议积极落实新冠肺炎疫情防控的有关要求与号召,采取线上分会场的形式开展,分别在山东产业技术研究院、济南市科技局、中国科学院计算技术研究所、智研院设立了分会场。产研院院长孙殿义、副院长雷斌、院长助理王慧涛、技术经济部部长丁华,济南市科技局吴琳,智研院院长陈益强、副院长杨晓东及各部门负责人参加了会议,产研院副院长、智研院理事长雷斌主持了会议。
会议审议通过了调整智研院理事会成员的提议,第二届理事会成员调整为:产研院副院长雷斌担任理事长,智研院院长陈益强担任副理事长,济南市科技局吴琳、产研院技术经济部部长丁华,智研院副院长杨晓东担任理事。
陈益强院长从团队建设、学术委员会成立、横纵向课题、知识产权、产学研合作、创新园建设、重点项目开展情况等方面进行了智研院2022年工作汇报,得到了理事会的充分认可。
智研快讯
NEWSLETTERS
政策导读
06
联邦学习前路如何?杨强:已到“合久必分”的状态
03
智慧建筑平台成功开发案例——门与五金综合智能平台
行业资讯
技术前沿
英伟达让AI“演技”再上台阶:仅靠语音驱动1张照片说话,惊讶恐惧表情狠狠拿捏
项目进展
孙殿义院长表示,智研院将继续发挥在智能计算产业的人才、技术、资源优势,加强与新加坡南洋理工大学的合作,推动NTU项目在山东落地;加速RISC-V SoC芯片与山东高速、潍柴动力等龙头企业的产业对接;在智慧医疗和智慧农业两个重点应用方向,以示范应用为牵引,推动底层技术的不断创新。
雷斌理事长表示,智研院要不断集聚科技人才,推动科教融合,激发创新活力,引领产业发展,为山东省人工智能产业做大做强提供支撑。吴琳理事表示济南市科技局高新处将继续推进智研院举办单位调整的相关事项,期待智研院在智能计算领域取得更大的突破。
接下来,智研院将在第二届理事会的带领下,在全体职工的共同努力下,按照新的战略部署和发展规划,砥砺奋进,戮力前行,焕发新活力,再创新辉煌!
建筑业是中国国民经济重要支柱,然而建筑行业整体数字化水平相较落后,传统建筑业产值高、盈利能力低、运营效率低严重制约了建筑业高质量发展。在建筑行业,门与五金对建筑结构的功能实现发挥着重要的作用,但行业集中度低,专业水平不足是该领域存在的突出问题,导致在建筑建造过程中,常常出现功能缺失或错误,产品品质无法保证,安装施工不标准不规范等后果,因此,亟需通过一种智能信息化平台,打通数据孤岛,流程孤岛,决策孤岛,实现对门与五金工程的智能化项目管理,τ提升行业整体水平。
我院开发的门与五金综合智能平台,通过AI+BIM智能设计模块,智能决策模块,B2B交易系统,提供高度专业精准的门控五金方案,保证门与五金产品的可靠性和准确性,改变门与五金工程建造及供给模式。
通过门与五金综合智能平台的成功应用,加速打造全建筑生命周期般若平台,通过智能设计、数字孪生、智能决策功能,实现建筑项目全过程的工期可控、造价可控、品质可控,推动山东省智能建筑行业快速发展。
项目进展
PROJECT PROGRESS
智慧建筑平台成功开发案例--
门与五金综合智能平台
第一届理事会第三次会议
2022
政策导读
《关于开展科技人才评价改革试点的工作方案》政策解读
“
”
近日,中央全面深化改革委员会第二十六次会议审议通过《关于开展科技人才评价改革试点的工作方案》(以下简称《试点方案》)。科技部等八部门联合印发《试点方案》(国科发才〔2022〕255号)。科技人才与科学普及司相关负责同志对《试点方案》的制定背景、基本考虑、试点任务和组织实施等进行了解读。
1.请简要介绍开展科技人才评价改革试点的背景?
科技人才评价是人才发展的基础性制度和深化科技体制改革的重要内容,对培育高水平科技人才队伍、产出高质量科研成果、营造良好创新环境至关重要。
党中央、国务院高度重视科技人才评价工作。习近平总书记在2021年两院院士大会上的重要讲话中指出,要“破四唯”和“立新标”并举,加快建立以创新价值、能力、贡献为导向的科技人才评价体系;在中央人才工作会议上的重要讲话指出,要完善人才评价体系,加快建立以创新价值、能力、贡献为导向的人才评价体系,为进一步深化科技人才评价改革指明了方向、明确了要求。
2018年,中央办公厅、国务院办公厅分别印发《关于分类推进人才评价机制改革的指导意见》、《关于深化项目评审、人才评价、机构评估改革的意见》,对分类健全评价标准、改进创新评价方式、加快推进重点领域评价改革、健全完善评价管理制度、推进“三评”改革等作出系统部署。各地方和相关部门认真落实中央要求,出台破“四唯”等一系列相关改革举措,科技人才评价改革取得积极进展。但与广大科研人员的诉求和实现高水平科技自立自强相比,科技人才评价改革还存在落实难、落实不到位的问题,科技人才“获得感”不强。
为深入贯彻党中央关于科技人才评价改革要求,中央深改委把开展科技人才评价改革试点工作作为重点改革任务,由科技部牵头负责推进。科技部会同有关部门认真落实中央深改委部署和中央人才工作会议精神,研究形成《关于开展科技人才评价改革试点的工作方案》,拟通过改革试点,聚焦国家重大科技创新活动,探索科技人才分类评价的新标准、新方式、新机制,突出国家使命导向,形成可复制可推广可落实的经验,推动构建以创新价值、能力、贡献为导向的科技人才评价体系。
2.试点工作的基本考虑是什么?
本次试点工作的思路是,聚焦“四个面向”,围绕国家科技任务用好用活人才,创新科技人才评价机制,以激发科技人才创新活力为目的,以“评什么、谁来评、怎么评、怎么用”为着力点,以“破四唯”和“立新标”为突破口,以深化改革和政策协同为保障,按照创新活动类型构建以创新价值、能力、贡献为导向的科技人才评价体系,引导各类科技人才人尽其才、才尽其用、用有所成,为实现高水平科技自立自强和建设世界科技强国提供有力人才支撑。
本次试点工作的改革路径是,着眼更好支撑实现高水平科技自立自强,坚持问题导向、分类推进、使用牵引、协同实施的基本原则,从单位内部和外部环境两个方面进行系统部署,推进改革试点任务。单位内部主要从根据不同科技创新活动类型探索新的评价指
标、方式、周期、内部制度等进行系统设计;外部环境主要从有关部门推动“三评”改革联
动、构建行业特色的人才评价体系、调整机构绩效评估指标、推动落实科研相关自主权等方面部署任务,通过内外协同联动,探索形成有利于潜心研究的科技人才评价体系。
本次试点工作的目标是,通过2年的试点,探索形成不同创新活动类型的科技人才分类评价指标和评价方式,科技人才发现、培养、使用、激励的评价机制更加完善,有利于科技人才成长和更好服务国家科技任务的创新环境不断优化,形成可操作可复制可推广的经验做法。
3.试点工作的主要着力点有哪些?
本次试点工作中着力把握以下几点:
一是牢牢把握“立新标”的试点目标。进一步明确不同创新活动类型的人才评价导向,结合实际研究提出具体的人才评价指标,并配套实施有利于评价指标落地的评价方式、评价周期、单位内部制度和外部保障机制。
二是强化国家使命导向。把“国家重大攻关任务”纳入创新活动类型,从加大承担国家重大任务考核评价权重、把完成国家任务纳入单位评估重要内容等方面提出试点任务,引导激励科研单位和科研人员积极承担国家重大任务。
三是突出“三评”改革联动。落实科技人才分类评价改革要求,推进项目评审、机构评估联动,在科技计划项目评审、科研机构创新绩效评估、科技人才计划评选中破除“四唯”,完善科技计划项目管理中的人才评价机制,推动落实试点单位科研自主权。
四是强化改革协同推进。结合试点单位主管部门的行业特点和主体工作,部署体现行业特色和部门主责主业的试点任务;同步部署地方科技人才评价改革综合试点任务,为区域科技人才评价改革推进探索经验路径。充分集成现有改革政策,强化政策创新。
4.试点工作主要有哪些重点任务?
本次试点坚持德才兼备,在加强对科技人才科学精神、学术道德等评价的基础上,按照承担国家重大攻关任务、基础研究、应用研究和技术开发、社会公益研究4类创新活动部署试点任务。其中,承担国家重大攻关任务的科技人才的评价以支撑服务国家重大战略
POLICY INTERPRETATION
需求为导向,基础研究类人才的评价以学术贡献和创新价值为导向,应用研究和技术开发类人才的评价以技术突破和产业贡献为导向,社会公益研究类人才的评价主要以服务支撑能力和社会贡献为导向。针对每一类创新活动,从构建符合科研活动特点的评价指标、创新评价方式、完善用人单位内部制度建设等方面提出相应试点任务。同时,强调要树立国家使命导向,对承担和支撑国家科研任务,特别是急难险重科研攻关任务、国家重大科技基础设施建设任务并作出贡献的科研人员在考核评价上加大倾斜力度。对地方科技人才评价改革部署综合试点任务,要求试点地方聚焦本次改革试点重点任务,结合本地区实际,突出区域科技创新和人才发展特色,加强体制机制改革、政策创新和资源集成,对地方人才评价改革进行系统设计,推进综合改革试验。
5.如何推动试点落地见效?
科技人才评价改革是一项系统工程,复杂程度高、改革难度大,关乎科研人员切身利益。本次试点工作中央高度重视、社会普遍关注、科研人员热切期盼。试点工作的顺利开展和取得实效需试点有关部门、地方和单位积极推动、狠抓落实、形成合力。
为确保本次试点取得实效,试点工作建立完善的工作体系,明确工作机制、责任分工、进度安排,共同推动试点任务落地落实。科技部作为主责部门,要肩负起组织推动责任并率先改革。试点单位主管部门要探索完善具有行业特色、突出主责主业的人才评价体系,加强对试点单位指导、服务和政策支持。试点地方要突出区域特色,进行改革系统设计,加强试点工作的指导监督、政策支持和服务保障,形成支撑区域创新发展的地区经验。试点单位要结合单位使命宗旨和国家创新需求,明确改革试点的具体内容,完善人才评价相关制度,打通“最后一公里”,保障试点工作顺利推进。
根据试点工作安排,科技部会同有关部门和试点地方建立了试点工作推进机制,将加强对试点工作的指导监督、跟踪推进和验收评估,做到边试点、边总结、边提升,为形成以创新价值、能力、贡献为导向的科技人才评价制度积累经验、探索路径。
技术前沿
ADVABCED TECHNONLGY
AI为人类开药方:准确预测
9000名癌症患者适用药物!
只需一个AI,9808名癌症患者对药物的临床反应,全能预测。
而且结果和临床观察表现一致。
这就是由纽约市立大学Lei Xie团队带来的最新成果CODE-AE(context-aware deconfounding autoencoder)。
它提出一种新型的上下文自编码模型,可以预测不同患者对药物的特异性反应。
这将对新药开发和临床试验产生重大影响。
要知道,传统模式下一种新药开发、试验、完全上市,中间需要近10年的时间,消耗的资金也空前庞大,动辄就是10亿美元。
周期会如此之长,是因为新药在人体内的反应难以预测,往往需要反复试验进行测试。
而如果AI能够利用数据进行预测,将大幅缩短新药上市时间,降低成本。
目前,该研究登上Nature子刊《Nature Machine Intelligence》。
简单来说,CODE-AE是利用新药在体外细胞验证上的数据,来预测药物在人体身上会产生的反应。
预训练主要用了自监督学习,构建一个特征编码模块,将体外细胞数据和患者数据的未标记基因表达谱,映射到嵌入空间中。这样一来可以把一些混杂因素排除掉,让两种数据的潜入分布一致,以消除系统偏差。
这样就避免了AI模型训练对患者临床数据的依赖。
过去AI在临床反应预测上效果一直不算好的最大原因,便是想要收集海量、连续临床反应数据实在是太难了。
从机制上来看,研究人员将药物生物标志物分为了源域(source domain)和目标域(target domain)。
源域表示和测试样本不同的领域,但是有丰富的监督信息,在这里可以理解为体外细胞验证的数据。
目标域是测试样本所在的领域,无标签或只有少量标签,也就是患者数据。
将不同领域的数据特征映射到同一个特征空间,使其在该空间中的距离尽可能近。
于是在特征空间中对源域训练的目标函数,就可以迁移到目标域,提高目标域上的准确率。
放在该研究背景下,源域和目标域都是药物生物标志物的数据特征,即药物靶标的数据特征。
具体来看模型框架,主要分为三个部分:预训练、微调和推理。
预训练主要用了自监督学习,构建一个特征编码模块,将体外细胞数据和患者数据的未标记基因表达谱,映射到嵌入空间中。这样一来可以把一些混杂因素排除掉,让两种数据的潜入分布一致,以消除系统偏差。
微调阶段,是在预训练的基础上再加一个监督模型,并利用已经标记的体外细胞数据来进行训练。
最后在推理阶段,先从预训练中获得的患者去歧对其嵌入,然后再利用调优后的模型,来预测患者对药物的反应。
在这种模式下,CODE-AE具备两个特点。
第一,它可以提取不连贯样本中的常见生物信号和私有表示,从而排除掉由于数据模式不同带来的干扰。
第二,将药物响应信号和混杂因素分离后,还可以实现局部对齐。
总结来看,CODE-AE可以理解为在标记和无标记数据的非相干数据模式嵌入空间中,选择唯一特征的过程。
为了论证模型的有效性,研究人员对9808位癌症患者的药物适用情况进行预测。
如果模型对患者情况预测出的位点结果,和他使用的药物靶点有关,就证明预测是正确的。
然后,研究人员将患者分为100个聚类,将59种药物也分为30个聚类。
通过这种分析方法,可以让具有相似药物反应谱的患者被分在一起。
在此,我们以肺鳞状细胞癌患者(LSCC)和非小细胞肺癌患者(NSCLC)的聚类为例。
在59种药物中,LSCC最敏感的药物为吉非替尼、AICAR和吉西他滨。
其中吉非替尼、AICAR的作用靶点都是一种表皮生长因子受体(EGFR),吉西他滨常被用于没有EGFR突变的非小细胞肺癌治疗。
论文表示,和这些药物作用模式一致,CODE-AE发现使用吉非替尼、AICAR的患者,药物反应图谱相似。
也就是说,CODE-AE发现了患者治疗的正确靶点,即可以预测适用药物。
据了解,该研究团队下一步将开发CODE-AE对新药临床反应在浓度、代谢方面的预测功能。
研究人员表示,该AI模型还有可能被调整为用于预测药物对人体的副作用影响。
值得一提的是,Nature子刊《Nature Machine Intelligence》专门关注人工智能和生命科学跨学科应用研究,每年收录论文平均数量在60篇左右。
2022年,联邦学习论文数量出现大幅跃升,成为了屡登顶会的香饽饽:
NeurIPS发布联邦学习论文41篇,较前一年有近30%的增长幅度;ICML则在2022年收录联邦学习论文74篇,几乎成倍于2021年。
这个规律同样存在于顶会AAAI、AISTATS、KDD及CVPR中。
联邦学习论文在顶会频现,相应的,相关产业实践也进行得如火如荼。
这个现象的最好解答者,自然是联邦学习领域的国内最知名大牛:香港科技大学计算机与工程系讲座教授和前系主任、中国人工智能学会(CAAI)荣誉副理事长、微众银行首席人工智能官杨强教授。
不仅因为他是CAAI,AAAI,ACM,IEEE,AAAS等多个国际学会Fellow,能够解惑一二。
更能激起求知欲的是,这些联邦学习论文中,有多篇与他带领的团队有关联。
今年,他在微众银行带领的AI团队,与上海交通大学、中山大学等机构联合撰写了3篇联邦学习领域论文。
这3篇论文,以一作身份,被IJCAI 2022、TPAMI 2022、ACM TIST国际人工智能顶级学术期刊和顶级学术会议收录发表。
- 可信联邦学习,走的是一条怎样的路?
为了解决数据割裂、数据孤岛等问题,杨强带领的微众银行AI团队在国内系统性提出联邦学习理论。
行业资讯
INDUSTRY INFORMATION
联邦学习前路如何?
杨强:已到“合久必分”的状态
杨强
加拿大皇家科学院院士
加拿大工程院院士
香港科技大学特聘教授
能够保证各企业在自有数据不出本地,不违规的情况下进行联合建模,提升机器学习建模效果。
而后,又于2019年开源首个工业级联邦学习技术框架FATE,同年6月捐献给Linux基金会。
3年时间,在联邦学习领域探索的公司如雨后春笋。
联邦学习发展空前,已在金融、医疗、互联网等领域落地应用,并延伸出图联邦学习、动态联邦学习、包容性联邦学习等研究分支。
从刚开始的2018年至2019年间,FATE和主攻横向联邦学习的TensorFlow分庭抗礼,到2019年后,众多初创公司或以FATE为内核,或推出新系统。
一路至今,用杨强的话来说,现在的联邦学习已经进入到“合久必分”的状态。
正是在此基础上,联邦学习发展出第二阶段,可信联邦学习。
联邦学习的发展和应用,一直伴随着这样的声音:
存不存在为了提高效率和性能,牺牲安全性的可能?
杨强简明扼要地解释道,绝对安全等于绝对低效,绝对高效意味着绝对不安全:“联合建模要结合安全性和可用性一起看。如果是一个极端安全的模型,安全到不能实际使用,这东西也没用。”
对此,论文《联邦学习中隐私与模型性能没有免费午餐定理》通过研究给出的答案是:隐私保护、模型性能、算法效率三者需要平衡,且可以平衡。
在联邦学习过程中,一个半诚实的攻击者,通过观察和了解参与方的数据信息,可能可以推断用户的隐私数据。这种针对隐私的攻击叫做“贝叶斯推断攻击(Bayesian Inference Attack)”。
文章从信息论的角度,为联邦学习中隐私泄露和效用损失的分析提供了一个通用框架。
这个理论框架揭示了对于满足“贝叶斯隐私”的多方计算系统而言,都满足“|安全|+|效能|≤常数”这一“安全-效益恒定定律”。
无免费午餐定理通过量化隐私和效用之间的约束关系,证明信息的相互泄露和模型效能是互相制约的。
之所以叫“无免费的午餐”,是因为研究表明,一般情况下,隐私和效用的权衡中,必须用一定程度的效用降低来交换隐私的保护,将潜在的隐私损失维持在可接受范围内。
那么,能不能发明一种“聪明”的算法,把安全性、模型效能、准确率同时最大化呢?
微众银行AI团队和中山大学合作发表的另一篇论文——《FedCG:利用条件生成对抗网络在联邦学习中保护隐私并保持模型性能》——正面回答了这个问题。
FedCG,文章提出的一种新的联邦学习方法,利用条件生成对抗网络,以实现高水平的隐私保护,同时保持模型的性能。
具体而言,FedCG将每个联邦学习参与者的本地网络分解成一个私有提取器和一个公共分类器,然后保持提取器的本地性来保护隐私。
它结合条件生成对抗网络和分割学习,不是暴露提取器,而是通过与服务器共享客户端的生成器来聚合客户端的共享知识,从而提高本地网络的性能。
实验表明,与联邦学习基线相比,FedCG有更好的隐私保护能力,同时在模型性能上也具有竞争力。
另外,考虑到联邦学习不是一次性的训练,它涉及数据的收集、选择,模型的训练、推断甚至交换,整个过程可能面临非法复制、重新分发、滥用的风险。
针对于此,结合对模型知识产权保护的思考,微众银行AI团队进行了一项工作:提出一种联邦深度神经网络(FedDNN)所有权验证方案,称为FedIPR。
《FedIPR:联邦学习模型所属权验证》一文详细介绍道,FedIPR方案允许嵌入和验证私有水印,来申明FedDNN模型的所有权。
有了这个方案,模型由谁做出、有谁用过、谁进行过模型交易,以及模型的危险性、特别性等,都会得到很好的检测。
如此这般,方便了对联邦学习模型进行全生命周期管理,也对模型知识产权起到保护作用。
模型的归属权验证一直是业界致力于解决的难题,微众银行AI团队是首个在联邦学习中融入这项工作的团队。长远来看,这项工作有利于数据和模型市场的建立和规范。
综合看来,此次陆续发表的3篇联邦学习论文,分别从理论、实践、规模化、工程化等不同的角度,对可信联邦学习进行了全面探索。
可信联邦学习的提出,通过提出端到端安全生命周期的管理、FedCG这种防火墙式的安全方法等一系列技术上的提升,再加入许多软件工程的管理,譬如软件治理、模型追踪等,将联邦学习领域的发展推进了一步。
至此,联邦学习为何能够成为顶会们的香饽饽,也就有了清晰的眉目。
而且对于联邦学习的火热,杨强还这样评价道:联邦学习的第二阶段,也就是可信联邦学习,从全世界范围来看都是刚刚起步,到处都有学者响应。
但正所谓能用起来的技术才是好技术,那么接下来的一个问题便是:
- 顶会们的“香饽饽”,正如何改变我们的生活?
正如我们刚才提到的,可信联邦学习需要处理的那些数据,一般都具备较强的独立性、隐私性、安全性。
因此,金融、医疗、物流、政务等场景便成为了联邦学习发挥其实力极佳的“试验田”;尤其是在金融场景中,联邦学习涉足较早。
联邦学习现在应用上的发展态势,用“百花齐放”来形容不足为过。
例如全球科技巨头谷歌,国内外学术机构如卡内基梅隆大学(CMU)、北京邮电大学等名校也在致力于研究联邦学习;在论文全球高被引方面,国外机构谷歌排名第一,而国内机构则是杨强所在的微众银行。
而且与之相关的开源框架也是陆续被提出,例如OpenMined推出的Pysyft、微众银行的FATE和谷歌的TFF框架等等。
从大方向上来看,现在微众银行所使用的可信联邦学习,不单单是能够完成一个项目那么简单,更是能够对项目做一个分析和认证。
在此能力的背后,微众银行所依托的便是全球首个开源的工业级联邦学习框架——FATE(Federated AI Technology Enabler)。
而自2019年开源以来,这个框架也在不断的提升自己的能力。
像刚才我们提到入围的几篇论文,都已经被涵盖了进来,目前已经步入2.0阶段。
具体到实际案例,可信联邦学习在金融行业反欺诈上便起到了很好的作用。
因为在这个过程中所涉及到的数据着实纷繁复杂,包括银行机构、电商、运营商、政务等等。
各方都需要保障自己数据的安全、隐私以及所有权,但交易过程中相互之间又有所交织。
而可信联邦学习就能在保障这个大前提之下,还能做到挖掘金融行为、消费行为、通信行为、社交行为等众多特征。
以及再针对不同细分金融反欺诈业务场景构建专有模型,从而提升金融行业的整体反欺诈能力。
再如信贷风控,亦是如此。
以往中小微企业在信贷风控上所面临的老大难问题,便是信贷评审数据稀缺、不全面、历史信息沉淀不足等。
但有了可信联邦学习之后,就能在确保数据提供方数据安全以及隐私保护的情况下,让银行融汇企业经营数据、税务数据、工商数据、支付数据等多源信息,丰富建模特征体系,提升模型的有效性。
由此可见,联邦学习能够成为顶会、顶刊们的香饽饽,不仅是因为在科研领域中所具备的前沿性,更是因为它在现实场景中正在发挥着不可替代的作用。
输入一段台词,让照片“演戏”又进阶了!
这次的AI直接让“演技”整体上了一个台阶,表演生气、开心、可怜……各种情绪都不在话下。
并且,口型、眼神、头部动作也都让这个AI狠狠拿捏住了!
英伟达让AI“演技”再上台阶:
仅靠语音驱动1张照片说话,
惊讶恐惧表情狠狠拿捏
行业资讯
INDUSTRY INFORMATION
甚至还能调节喜怒哀乐的程度。
这是英伟达最新推出的一款AI,名为SPACEx (此SPACEx非马斯克的SpaceX),全称是可控表达的语音驱动肖像动画(Speech-driven Portrait Animation with Controllable Expression)。
其实,在英伟达推出SPACEx之前,已经有不少语音驱动照片的AI问世,那相较于之前那些AI,SPACEx有什么优势呢?
人脸动作更稳定,更注重细节
此前,最常使用的语音驱动照片的AI主要有三个:PC-AVS、MakeItTalk和Wav2Lip。
但这三个AI都或多或少有些缺陷之处,并且要么只能对口型,要么就只是整体面部控制的比较好,多个功能往往不能兼顾。
先来说说PC-AVS,它在对图像和语音进行处理时,会对输入图像进行严格的剪裁,甚至还会改变姿势,此外,生成的人脸动作很不稳定。
而MakeItTalk,在对口型方面效果不是很好,有时候生成的视频中还会出现空白的地方。
Wav2Lip的功能则比较单一,它主要是配音AI,只改变唇部的动作,唇部之外的面部表情毫无变化。
而这些问题,在SPACEx身上通通都被解决掉了,话不多说,直接看看它们之间的效果对比!
可以看出,无论是细节的口型、眼神,还是整体的面部动作,SPACEx都会更加自然一些。
而细分到各个具体的功能,SPACEx都集成了哪些功能呢?
下面这个表格给出了答案,情绪控制、标记面部landmark、头部转动和动作生成,SPACEx都能很好地兼顾,不会像以往的模型顾此失彼。
值得注意的是,SPACEx生成视频的质量也整体上升了一个台阶,以往同类型的AI最高只能达到384的分辨率,而SPACEx这次已经达到了512X512。
兼顾这么多功能还能生成高质量视频,SPACEx又是怎样做到的呢?
具体原理
其中,很大一部分功劳是贡献的,它是英伟达两年前公布的一个AI算法。
它不仅能压缩视频的流量,还能保证视频的画质。
并且,face-vid2vid还能让视频中的人物随意扭头。
预测好面部landmarks后,来到第二步:Landmarks2Latents,输入各个图像的face-vid2vid关键点,以控制整个面部表情。
然后将这些关键点对应到上一步输出的标准面部landmarks上。
最后一步便能通过face-vid2vid生成器来生成视频了。
话说回来,当然SPACEx也不是个全能选手,当输入有较大的头部旋转时,现有的方法表现就不是很好了。
摘自《量子位》
不过它要求输入的是一个视频,而SPACEx则是一个图片,它俩又是怎么关联到一起的?
这得从SPACEx生成视频的过程来看,主要分三个阶段。
第一个阶段可以概括为Speech2Landmarks,即从输入的语音中来预测各个音节所对应的标准面部landmarks。
在预测的过程中,还会插入对应的情绪标签。
扫一扫关注我们
物端AI芯片
边缘AI计算设备 高通量AI服务器认知智能与协作计算