中国·济南
山东产业技术研究院智能计算研究院
2022
05 / 24
智研简报
智/能/计/算 计/算/未/来
陈益强院长见证智研院第一届工会
会员大会召开
我院院长陈益强团队参与研发的手语
播报数字人“上岗”助力冬奥会!
2 / 28
和虚拟人做同事的日子要来了?资本市场正在
为“虚拟人”们蓄势待发
CONTENTS
目录
面向“政产学研金服用”,打造研究机构与企业间体系化、标杆化及标准化合作模式
01
智研快讯
行业资讯
智研院院长陈益强团队参与研发的手语播报数字人“上岗”助力冬奥会!
技术前沿
和虚拟人做同事的日子要来了?资本市场正在为“虚拟人”们蓄势待发
陈益强院长见证智研院第一届工会会员大会召开
03
05
计算机科学家证明,为什么更大的神经网络可以做得更好
02
深度学习模型模拟大脑地形图,
有助于回答大脑不同部分如何协
同工作
04
陈益强院长见证智研院
第一届工会会员大会召开
工会对于调动广大职工群众的积极性,推动社会主义建设事业的发展,具有重要的现实意义和深刻的历史意义。为进一步完善智研院工会组织建设,规范开展我院工会工作,根据济南市高新区总工会《关于同意成立山东产业技术研究院智能计算研究院工会委员会的批复》(高新工字〔2022〕1号)文件精神,山东产业技术研究院智能计算研究院工会正式成立。2月22日,智研院成功召开了工会成立暨第一届工会动员大会。
智研快讯
NEWSLETTERS
会上,智研院副院长杨晓东宣读了《山东产业技术研究院智能计算研究院工会第一届会员大会选举办法》,全体会员以无记名投票的方式进行了投票,选举产生了山东产业技术研究院智能计算研究院工会第一届委员会主席及副主席,第一届经费审查委员会主任及委员,第一届女职工委员会主任。
智研快讯
NEWSLETTERS
重磅|智研院院长陈益强团队参与研发的手语播报数字人“上岗”助力冬奥会!
2月9日,由北京市委宣传部、北京市科委、中关村管委会等单位组织的“科技冬奥企业行”大型主题采访活动第四站启动,来自市科委、中关村管委会、清华大学、中科院计算所、北京广播电视台、凌云光、智谱AI的领导专家以及来自24家媒体单位的记者参与了此次活动。活动第四站采访了科技冬奥专项“冬奥手语播报数字人”。
“冬奥手语播报数字人”由北京市科委、中关村管委会支持,智谱AI、凌云光和北京广播电视台联合打造,清华大学贾珈教授团队和中科院计算所陈益强研究员团队参与了相关关键技术的研究和开发,项目还得到了北京市残疾人联合会和市残联聋人协会的帮助和支持。这一系统以超大规模预训练模型为核心技术,自主搭建多模态肢体动作、表情、手指同步采集系统,运用跨模态拟人生成算法、超高精度写实数字人等行业领先技术,实现冬奥期间赛事新闻的专业手语翻译播报。
近日,采用超大规模智能信息模型和虚拟数字人技术,为听障人士打造的“冬奥手语播报数字人”正式亮相北京卫视,为观众带来冬奥期间赛事新闻的专业手语翻译播报。
随即新任工会主席杨建做表态发言,表示将立足本职工作,充分发挥工会组织服务单位发展、维护职工权益的重要作用。
最后院长陈益强对工会的成立、工会各委员会的组建表示祝贺,并对后续工作寄予期望,他强调,各工会委员应履行好自己的职责,把服务员工作为工会工作的奋斗目标,增强工会的凝聚力和向心力,一起向未来。
在接下来工作中,我院工会将依据《工会法》和《工会章程》行使工会组织的权利和义务,维护好职工的合法权益。同时,积极组织职工加强政治、业务学习,充分发挥主人翁精神,为进一步促进我国科技事业的发展做出贡献。
⚪“学识”渊博:语料储备更丰富
随着2018年《国家通用手语常用词表》和《国家通用盲文方案》作为语言文字规范正式发布,为了推广和普及国家通用手语,“冬奥手语播报数字人”系统完成了《国家通用手语词典》收录的8214条通用手语的采集和录制,并且语法都以听障群体习惯打法为准,以确保手语播报成果的准确性和专业度,更好地服务听障人群。
由于当前国内缺少较完善的手语语料数据,研发人员在北京市残联及其聋人协会的支持下,邀请超过40余位聋人老师及手语专家进行手语文本转写和技术指导,并进行大范围的听障群体评测,最终构建了符合国家通用手语规范的国内最大规模多模态手语语料库,词汇及语句总规模超10万。
⚪ 精准翻译:播报方式更智能
陈益强表示:与传统的语音AI播报相比,冬奥手语播报数字人的最大区别是表意的准确性和表达的可懂度。传统的语音播报的技术特点主要集中在对语音的理解上;而面对听障人士,手语播报还需要用具有韵律感的手势、丰富甚至有些夸张的表情来提升播报的可懂度。两者追求的方向是不一样的,是不同的技术路线。前者主要是语音与视觉之间的转换,后者不仅要“听得懂”更要“做得对”,背后的技术
细节更复杂。从1999年开始中科院计算所就开始研发国家通用手语虚拟人合成系统,通过虚拟人的手语识别与合成技术,帮助听力障碍者进行交流。该技术在2021年第四届中国·济南新动能国际高层次人才创新创业大赛上海赛区成功获奖。
为构建能理解、翻译语音和手语的智能数字大脑,冬奥手语播报数字人系统以超大规模预训练模型为核心技术,通过语义蒸馏及手语翻译快编模型,将新闻播报语音蒸馏成语义高度接近的手语文字,并翻译成符合手语习惯的语序。最终,手语数字脑可以通过计算机模仿听障人士的大脑,进行手语播报驱动。
此外,为实现高精度、高自然度的人物形象和手语动作姿态,研发团队还自主搭建了多模态肢体动作、表情、手指同步采集系统。通过肌肉绑定技术驱动实现面部采集,结合业内领先的语音识别及高清视频合成等技术,呈现给听障人群亲切自然的冬奥手语播报服务。
⚪ 便利生活:应用场景更广泛
目前,冬奥手语播报数字人正在北京卫视《北京您早》节目中对“冬奥赛事集锦”和“一起看冬奥”进行手语播报,手语信息播报服务降低了冬奥节目的运营成本,也便捷了听障人士收看赛事报道的途径。
未来,手语播报数字人有望在机场、车站、银行等公共场所落地,方便听障人士生活。此外,手语播报数字人的应用还将助力国家通用手语推广,推动国家通用手语标准普及,为残疾人平等参与社会生活创造无障碍环境,让科技更有温度。
技术前沿
ADVABCED TECHNONLGY
计算机科学家证明,为什么
更大的神经网络可以做得更好
我们的物种很大程度上归功于对生的拇指。但如果进化给了我们额外的拇指,事情可能不会有太大改善,每只手一个拇指就足够了。
神经网络并非如此,这是执行类人任务的领先人工智能系统。随着他们变得更大,他们已经掌握了更多。这让旁观者大吃一惊。基本的数学结果表明,网络应该只需要这么大,但现代神经网络的规模通常远远超出预测的要求——这种情况被称为过度参数化。
在领先会议 NeurIPS 上发表的一篇论文中,微软研究院的 Sébastien Bubeck 和斯坦福大学的 Mark Sellke 为缩放成功背后的奥秘提供了新的解释。他们表明,神经网络必须比传统预期的要大得多,才能避免某些基本问题。这一发现为一个持续了几十年的问题提供了一般性的见解。
“这是一个非常有趣的数学和理论结果。”瑞士洛桑联邦理工学院的 Lenka Zdeborová 说,“他们以这种非常通用的方式证明了这一点。所以从这个意义上说,它会触及计算机科学的核心。”
对神经网络规模的标准预期来自对它们如何记忆数据的分析。但要了解记忆,我们必须首先了解网络的作用。
神经网络的一项常见任务是识别图像中的对象。为了创建一个可以做到这一点的网络,研究人员首先为其提供许多图像和对象标签,对其进行训练以学习它们之间的相关性。之后,网络将正确识别它已经看到的图像中的对象。换句话说,训练使网络记住数据。更值得注意的是,一旦网络记住了足够多的训练数据,它还能够以不同程度的准确度预测它从未见过的物体的标签,后一个过程称为泛化。
网络的大小决定了它可以记住多少。这可以通过图形来理解。想象一下,将两个数据点放在XY平面上。你可以将这些点与由两个参数描述的线连接起来:线的斜率和穿过垂直轴时的高度。如果其他人得到了这条线,以及一个原始数据点的 X坐标,他们只需查看这条线(或使用参数)就可以计算出相应的 Y坐标,这条线已经记住了这两个数据点。
神经网络做类似的事情。例如,图像由成百上千个值描述——每个像素一个值。这组许多自由值在数学上等价于高维空间中一个点的坐标;坐标的数量称为维度。
一个古老的数学结果表明,要将 n 个数据点与曲线拟合,你需要一个具有 n 个参数的函数。(在前面的示例中,两个点由具有两个参数的曲线描述。)当神经网络在 1980 年代首次成为一股力量时,思考同样的事情是有道理的。它们应该只需要 n 个参数来拟合 n 个数据点——无论数据的维度如何。
“这不再是正在发生的事情。”德克萨斯大学奥斯汀分校的 Alex Dimakis 说,“现在,我们经常创建参数数量超过训练样本数量的神经网络,这意味着必须重写这些书。”
Bubeck 和 Sellke 并没有打算重写任何东西。他们正在研究神经网络通常缺乏的另一种属性,称为稳健性,这是网络处理微小变化的能力。例如,一个不健壮的网络可能已经学会了识别长颈鹿,但它会将一个几乎没有修改过的版本错误地标记为沙鼠。2019 年,当 Bubeck 团队意识到该问题与网络规模有关时,他们正在寻求证明有关该问题的定理。
Bubeck 说:“我们正在研究对抗性的例子——然后规模就强加给了我们。我们认识到这是一个难以置信的机会,因为需要了解规模本身。”
在他们的新证明中,这对表明过度参数化对于网络的稳健性是必要的。他们通过计算将数据点与曲线拟合所需的参数来做到这一点,该曲线具有与稳健性等效的数学属性:平滑度。
为了看到这一点,再次想象平面中的一条曲线,其中 X 坐标代表单个像素的颜色,Y 坐标代表图像标签。由于曲线是平滑的,如果稍微修改像素的颜色,沿着曲线移动一小段距离,相应的预测只会发生很小的变化。另一方面,对于极度锯齿状的曲线,X 坐标(颜色)的微小变化会导致 Y 坐标(图像标签)的剧烈变化;长颈鹿可以变成沙鼠。
Bubeck 和 Sellke 表明,平滑拟合高维数据点不仅需要 n 个参数,还需要 n × d 个参数,其中 d 是输入的维度(例如,784 表示 784 像素的图像)。换句话说,如果你想让网络健壮地记住它的训练数据,过度参数化不仅有帮助——它是强制性的。证明依赖于一个关于高维几何的奇怪事实,即放置在球体表面上的随机分布的点几乎都彼此相距一个完整的直径。点之间的大间隔意味着用一条平滑曲线拟合它们需要许多额外的参数。
耶鲁大学的 Amin Karbasi 说:“证明是非常初级的——没有繁重的数学,它说明了一些非常笼统的东西。”
结果提供了一种新方法来理解为什么扩大神经网络的简单策略如此有效。
其他研究揭示了过度参数化有帮助的其他原因。例如,它可以提高训练过程的效率,以及网络的泛化能力。虽然我们现在知道过度参数化对于稳健性是必要的,但尚不清楚稳健性对于其他事物的必要性。但是通过将其与过度参数化联系起来,新的证明暗示稳健性可能比想象的更重要,一个可以释放许多好处的单一密钥。
“稳健性似乎是泛化的先决条件。”Bubeck 说,“如果你有一个系统,你只是稍微扰乱它,然后它就失控了,那是什么样的系统?这是不合理的。我确实认为这是一个非常基础和基本的要求。”
技术前沿
ADVABCED TECHNONLGY
深度学习模型模拟大脑地形图,
有助于回答大脑不同部分
如何协同工作
大脑中处理视觉信息的部分——颞下(IT)皮层——受损可能是毁灭性的,尤其是对成年人而言。那些受影响的人可能会失去阅读能力(一种称为失读症的疾病)或辨认面孔(面容失认症)或物体(失认症)的能力,目前医生无能为力。
更准确的视觉系统模型可以帮助神经科学家和临床医生为这些疾病开发更好的治疗方法。
近日,卡内基梅隆大学(CMU) 的研究人员 开发了一种计算模型——交互式地形网络(ITN),使他们能够模拟 IT 的空间组织或地形(topography),并更多地了解相邻的脑组织簇是如何组织和相互作用的。 这也可以帮助他们了解该区域的损坏如何影响识别面部、物体和场景的能力。
该研究以“A connectivity-constrained computational account of topographic organization in primate high-level visual cortex”为题,于 2022 年 1 月 18 日发布在《PNAS》上。
论文一作 Nicholas M. Blauch 博士说,这篇论文可能会帮助认知神经科学家回答关于大脑不同部分如何协同工作的长期问题。
“长期以来,我们一直在想,我们是否应该将大脑中响应面部的区域网络视为一个单
独的实体,仅用于识别面部,或者我们应该把它作为目标识别的神经结构的一部分,”Blauch 说。“我们正在尝试使用一个假设这种更简单、通用的组织的计算模型来解决这个问题,并看看这个模型是否可以解释我们通过学习执行任务在大脑中看到的专业化。”
为此,研究人员开发了一种深度学习模型: 交互式地形网络 (ITN),该模型具有生物大脑连接的附加特征,假设该模型可以揭示 IT 的空间组织或地形。
交互式地形网络
ITN,一种用于高级视觉皮层计算建模的框架,特别是其功能性地形组织。ITN 模型被定义为神经网络模型,其:(1)优化以执行自然任务;(2)以生物学上合理的方式约束连接以产生功能组织。
在这项工作中,介绍了一种 ITN 形式,它分为三个部分:近似早期视觉皮层的编码器、近似颞下皮层的交互式地形 (IT) 层,以及一个或多个下游任务的读出机制。编码器的目标是提取描述视觉世界的一般视觉特征,这些特征沿着支持广泛的下游读出任务的维度。
研究人员的主要建模重点是 IT 层 ,它由一系列受生物约束的循环层对组成。为了计算简单,这些约束没有在编码器中建模。
首先展示了特定 ITN 模型的模拟结果,将其称为主模型或「E/I-EFF-RNN」,这表明它具有负责激发和抑制(E/I)的独立神经元。前馈连接是严格兴奋性(EFF)的限制,时间循环处理是通过学习横向连接(RNN)介导的。此外,该模型使用 ResNet-50 编码器,该编码器在大型数据集上进行了预训练,包括来自对象、面部和场景域的多个类别,并在预训练后用作特征提取器它为包含单独的 pIT、cIT 和 aIT 区域的三区域 IT 提供输入。
训练后,该模型在各个领域表现良好,在人脸域达到了 86.4% 的分类准确率,在物体域达到了 81.8%,在场景域达到了 65.9%。跨域的性能差异不太可能是特定架构的产物,因为它们可以在各种 DCNN 中看到,这反映了每个任务的内在难度,由于给定图像集的每个域的类别内部和类别之间存在可变性。
为了进一步确认地形组织的功能意义,研究人员分析了从 aIT 到本地类别读出层的读出权重的空间组织。研究发现平均读数权重与每个域的平均响应之间存在很大的正相关(所有 rs > 0.7,所有 Ps < 0.0001),进一步证明了响应地形的功能意义。
损伤分析
接下来,研究人员在模型中进行了一系列损伤分析,以与面部和物体识别的神经心理学数据进行比较。 首先,做了局灶性病变。
研究表明:以每个域为中心的局灶性病变导致对该域的识别异常严重,而对其他域也有较轻微但显著的缺陷。 对于此类病变,所有域的缺陷均显著(所有 Ps < 0.05),并且对目标域的识别显著更强(所有 Ps < 0.05)。
局灶性病变引起的非首选区域的部分但不是全部损伤可能是由于不完善或非圆形的地形功能组织造成的。重要的是,病变的这些更分散的影响表明,功能组织虽然高度专业化,但并不是严格模块化的;对那些声称是给定模块的一部分的单元(例如,用于面部识别)的损坏仍然会影响对象识别(尽管程度较弱)。
“对其他领域有一些残留的损害,”Blauch 说。“与首选域相比,它很小,但它向我们表明,这些网络中的专业化可能很强,但也有些混杂。结合整个系统采用的一般原则,这意味着它可能被认为是一个具有内部专业化的系统,而不是一组独立模块的集合。”
一个通用的、灵活的系统在损伤后可能更有能力进行重组,正如我们在儿童身上看到的那样,与具有类似损伤的成年人相比,儿童在幼年受损后视觉功能基本上恢复了。
限制和未来方向
目前的工作仅涉及高级表示的地形组织。在卷积层中建模拓扑组织是 ITN 框架的一个特殊挑战。这些架构和其他生物学上合理的变体是一个令人兴奋的机会,可以从基于连接的约束条件中检查地形组织。
与此相关的是,尽管 ITN 由于区域间空间的限制,在解释分层的地形组织方面具有优势,但它还不能令人满意地具体解释分层表征转换的某些方面,增加了对 3D 旋转的不变性。未来工作迫切需要将 ITN 框架扩展到更强大的计算架构、训练环境和学习规则,而不是将这种计算能力委托给不同的编码器。
ITN 模型和灵长类 IT 的总体表征空间之间存在一些差异。更详细地比较不同的 ITN 模型在定量和定性上解释 IT 皮层的效果是未来研究的一条令人兴奋的路线。
虽然该工作比以前的工作提高了生物学的合理性,但通过结合布线约束、兴奋和抑制的分离以及区域之间的兴奋性连接,额外的生物学细节可能对视觉皮层的计算和组织很重要。未来的工作可能会考虑结合细节。
该研究工作对认知神经科学具有重要意义,提供了地形功能专业化的领域一般发展说明,对于计算神经科学,通过展示如何将众所周知的生物学细节纳入神经网络模型以解释经验发现。
行业资讯
和虚拟人做同事的日子要来了?资本市场正在为“虚拟人”们蓄势待发
“
”
在电影《银翼杀手2049》呈现的赛博朋克世界里,主人公K是一个采用未来科技制造出来的复制人杀手,生性孤僻、沉默、不善于表达。但面对爱人乔伊时,他却十分温暖,因为这位女子给予了他极大的爱与关怀。不过,对于K来说,这位贴心的伴侣实际上只是一个由家中投影装置投射出来的虚拟人,看得到却摸不着,这成为了阻挡在二人面前最大的困难。
《银翼杀手2049》的故事背景设定在2049年,然而,现实社会的发展却比艺术作品更快、更迅猛。
2022开年,虚拟人占据了各大媒体平台的头版头条。1月15日晚间,央视财经频道经济信息联播,专门用了近10分钟的时间报道“虚拟人来了”专题。无论是在跨年晚会还是各大网络平台内容中,虚拟人的频繁亮相都不断刷新着观众的认知,资本市场也正为“虚拟人”们蓄势待发。
1月6日,成立不足三个月的杭州李未可科技有限公司宣布完成数千万元天使轮融资,由字节跳动独家投资。打动字节的正是其旗下一个名叫“李未可”的AR科技潮牌及同名虚拟IP形象。紫发、鹅蛋脸、中性风,仅从外形上看,李未可就像是游戏世界里特别能打的那种大女主。
目前其在抖音上仅发布20条作品,却拥有60.8万粉丝,收获166.3万点赞。同时,还单独在B站连载个人视频漫剧《未可WAKE》。在AI虚拟赛道上,“李未可”也是字节跳动继入股虚拟偶像团体A-SOUL、收购VR创业公司Pico后的又一次加码。
据不完全统计,自2021年7月以来,与虚拟数字人相关的核心投融资事件已有18起,投资金额最高达4亿元。
2021年,资本市场最大的狂欢非“元宇宙”莫属,而究竟何时能让概念走进现实尚未可知,但作为“元宇宙”世界里的重要角色,虚拟数字人或已接棒成为2022年的最大风口之一。
01 虚拟数字人潮起
提及最早的虚拟人角色,中国第一位现象级虚拟歌姬、初音未来的同门师妹,2012年出道的洛天依是个绕不过的名字。她奠定了大多数国人对虚拟偶像的想象—灰发、绿瞳、发饰碧玉、腰坠中国结,一个年仅十五岁的少女,极具二次元气息。
2019年,爱奇艺推出虚拟偶像厂牌RICH BOOM、华纳音乐旗下电音厂牌WhetRecord签约虚拟偶像“哈酱”;2020年,经纪公司乐华娱乐联合字节跳动推出虚拟偶像女团A-SOUL、爱奇艺推出虚拟选秀节目《跨次元新星》、天猫超市品牌IP形象“小铛家”正式上线……不过,彼时的虚拟偶像们更多地还是面向二次元市场在狂欢。
步入2021年,虚拟的“人性”表现越发明显,“偶像”的概念也随之大众化,虚拟数字人开始席卷人类社会。它不再只是属于偶像IP圈层的符号,而是进入到更多元的社会角色里。
先是虚拟顶流洛天依频繁破圈,从登上春晚舞台,到和李佳琦同台直播,甚至开始和Vsinger家族成员跨界带货;再就是首个国风虚拟KOL“翎”亮相央视综艺《上线吧!华彩少年》,并在之后与特斯拉、奈雪的茶、Keep等品牌展开了商业代言合作;紧接着,“超写实数字人” Ayayi凭借一张证件照蹿红小红书,一夜涨粉近4万,首发帖阅读量近300万,跻身虚拟KOL头部行列。Ayayi此后也开始和多个品牌达成合作,包括娇兰、保时捷和安慕希等,她还作为“数字员工”入驻了阿里,成为天猫超级品牌日的数字主理人。
越来越多品牌都搭上了虚拟数字人的快车,除了合作,还有不少企业自创虚拟代言人形象。像麦当劳的“开心姐姐”、康师傅的“许星悠”、屈臣氏的“屈晨曦”和国产彩妆花西子的同名虚拟人等。
02 巨头纷纷入局
不同于 Ayayi 这些靠 IP 走红的企业,还有一派虚拟数字人企业,他们靠技术驱动。他们更在意推动虚拟数字人的实用化和智能化。
打造“曦灵”数字人制作平台的百度、推出超级QQ秀的腾讯,以及借助XR眼镜打造虚拟人的杭州李未可公司都是这一派的典型。
这些企业也有IP,但更在注重相关技术的研发,一方面希望缩短制作虚拟数字人的制作时长与难度,一方面让虚拟人“飞入寻常消费者手中”。
百度的曦灵就拥有3D写实、2D写实、3D卡通三条资产生产线,“2D的几分钟,3D的几个小时生成”。李士岩表示,百度的跨模态生成技术,让数字人的口型合成准确率达到98.5%。
与百度的思路类似,目前腾讯有两条业务线做虚拟数字人,一条是互娱事业群所做的超写实数字人小诤,她的身份是“新华社数字记者”、“全球首位数字航天员”,同时腾讯也搭建了一条数字人制作管线 xFaceBuilder®,让走超写实路线的小诤诞生,仅仅花费了两个半月时间。
另一条线就是QQ正在推进的超级QQ秀,超级QQ秀的人物是动漫风格,通过组装不同的发型、衣服等饰品,形成各种可爱的形象。不过从内测的情况看,如果用户想DIY自己的面部、五官,以及衣服鞋子等,都需要付费。
腾讯很有希望借助超级QQ秀,让每个人都更早拥有自己的虚拟数字人。杭州李未可公司的梦想则更加远大,茹忆希望通过颠覆式的XR眼镜等方式,让虚拟数字人作为“多啦A梦”的形式,成为未来大家都想拥有的伙伴。
当然,阿里巴巴也没有缺席这场盛宴。其达摩院也在探索虚拟数字人,阿里的XR实验室的负责人谭平就曾表示,如今互联网是二维交互,而虚拟人和虚拟世界所构成的元宇宙,就是三维交互。
03 和虚拟人做同事的日子来了?
前有捉妖的“柳夜熙”,后有观察人类的“李未可”,让不少人感叹的是,当虚拟人从聚光灯前走到日常工作中时,自己可能连虚拟人都竞争不过,比如万科总部2021年度的优秀新人奖就颁发给了公司第一位数字员工崔筱盼。
凭借神似真人的高颜值,崔筱盼在2021年2月初入职时就引得催账部门一阵骚动。有员工表示,“之前有公司同事收到‘她’发的邮件时,就觉得这个姐姐好美,还想串部门去看真人来着。”
出众的外貌加上出色的工作能力,“虚拟人”崔筱盼火出圈了。万科集团董事会主席郁亮在朋友圈里对其大加赞赏,“在系统算法的加持下,她很快学会了人在流程和数据中发现问题的方法,以高于人类千百倍的效率在各类应收、逾期提醒及工作异常侦测中大显身手。她催办的预付应收逾期单据核销率达到91.44%。”
对此,不少网友开始惊叹,虚拟数字人已经在跟人类抢饭碗了,“珍惜和真人同事内卷的日子吧,他们至少还是个人”、“好家伙,优秀员工年终奖又能少发一份”、“我以后连搬砖的机会都没了”……
现如今,不仅仅是充当偶像与主播这种“远在天边”的角色,已有不少虚拟数字人走进了现实生活,成为许多人的同事、同学。像清华大学生“华智冰”、《快乐大本营》主持人“小漾”、新华社数字记者“小诤”以及冬奥会上全时无休的AI手语主播等。
毫无防备,虚拟数字人就这样出现在了每个人的身旁。
“除了品牌方和直播电商井喷的需求外,一些政企也开始和我们合作了。例如,通过全息投影技术为浦发银行打造的虚拟大堂经理。对于银行而言,可能投入几百万的成本就可以直接取代一个真人岗位。”弘一说。而在目前的金融领域,也已有多家银行推出虚拟数字员工,像浦发银行的小浦、江南农商银行的VTM、百信银行的AIYA艾雅等。
值得注意的是,2021年10月,广电总局在《广播电视和网络视听“十四五”科技发展规划》中首次明确指出,要推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目生产,创新节目形态,提高制播效率和智能化水平。
据麦肯锡预测,到2030年,中国将至少有1.18亿人被人工智能或机器人替代。不可否认,这些披着完美躯壳和未来想象的虚拟数字人并不仅仅局限于精神上的娱乐、社交及审美需求,一批具有更强功能性和服务性的“他们”正在替代真人。
04 万亿市场的冷与热
如今,毋庸置疑虚拟数字人的概念火了,市场被其未来的想象空间所鼓舞。
“从目前报告看,基于互联网的虚拟人市场空间是2700亿元,而基于Web 3.0的虚拟数字人将到达万亿规模。”
吴世春表示,目前虚拟数字人释放的商业价值还比较浅。一份虚拟数字人代言合作,差不多是几十万到上百万价位,行业内最高有三四百万元的合作。未来更多商业与虚拟数字人结合,市场前景才更广阔。
比如,目前虚拟数字人在直播带货与品牌代言等领域的商业化刚刚开始,未来Web 3.0的元宇宙世界中,虚拟数字人的社交、电商、教育、游戏、支付等商业行为统统都会发生,也许很多商业模式都会发生变化。
“我们用掌上12306买票(如今是网页形式提供服务),在元宇宙的三维世界里,我相信它是数字人加上无数个视觉界面,为用户既提供信息服务也提供温暖的人情服务。”李士岩看好未来的数字人提供更立体的服务。
在基于Web 3.0的虚拟数字人实践中,燃麦科技的脚步也比较快。基于 Ayayi 的NFT品牌以及数字盲盒,都在试水。今年还会举办多媒体数字艺术展,这是燃麦为虚拟IP策划的重要发力方向。
“Web 3.0 让数字资产更具有意义,”在唐迤看来,虚拟数字人需要跨过这一步,才真正的具备现实价值。这也是虚拟数字人不会走向线下,如同玲娜贝儿向实体发展的原因,一个未来的大门已经被打开,复制IP走迪士尼的老路,不是大家看重的远方。
当然 ,尽管虚拟数字人展示了无限的想象力,却也面临众多发展的桎梏与挑战。
比如在数字人表情方面,就有一道“恐怖谷”(虚拟人表情不真实就有僵尸的感觉)。虚拟人实时互动反馈表情这一项,各家巨头都处在初级阶段,创业公司基本还不具备这项能力。
另一方面,就是成本与效率的最佳化,这一方面巨头走的是中台化路径。在李士岩看来,中台不仅是快速制作虚拟数字人,更是输出智能化模块,让数字人学习智能对话与商业知识的最佳路径。
与此同时,虚拟数字人所带来的发展挑战也被重视。
如今,“虚拟人是否会侵占更多的劳动力市场,和人类抢饭碗?”就在网络上被热议,尤其在万科集团2021年度最佳新人奖,颁给了一位数字人“崔筱盼”后,这种声音就更多了起来。
崔筱盼是位财税数字人,永远不知疲倦,永远热情待人,也因此拥有普通人难以企及的工作业绩。不止崔筱盼,如今在各个领域,都在涌现虚拟数字员工,这些数字员工也正在让职场更加内卷。
另一方面,Web 3.0时期的数字人,则在带来更加未知的挑战。如何避免违规和炒作的现象,也需要行业的进步与市场的监督。
如论如何,虚拟数字人正向我们走来,或许也正在定义未来。
来源:贤集网
扫一扫关注我们
物端AI芯片
边缘AI计算设备 高通量AI服务器认知智能与协作计算