注册

智研简报2022第10期

中国·济南
山东产业技术研究院智能计算研究院

2022

05 / 24

智研简报

智/能/计/算      计/算/未/

智研院智慧养老研发项目荣获2022年
山东省第二批技术创新项目立项
智能认知平台的成功应用案例—脑健康
管理评估系统

10 / 31

Nature子刊:让细胞与计算机直接“对话”,
还能辅助医生精准治癌

CONTENTS

目录

面向“政产学研金服用”,打造研究机构与企业间体系化、标杆化及标准化合作模式

01

智研快讯

《山东省农业科技园管理办法》政策解读

智研院智慧养老项目荣获2022年山东省第二批技术创新项目立项

04

05

02

Nature子刊:让细胞与计算机直接“对话”,还能辅助医生精准治癌

智研院智慧养老研发项目
荣获2022年山东省第二批技术创新项目立项

       10月20日,山东省工业和信息化厅发布了2022年山东省第二批技术创新项目计划,我院智慧养老项目“基于智能贴件的智慧养老系统研发”获得立项。截至目前,智研院共有3个项目被列入山东省技术创新项目计划。

智研快讯

NEWSLETTERS

       我院智慧养老团队在研项目“基于智能贴件的智慧养老系统研发”,以居家、社区、机构养老为应用场景。实现老年人居住环境的智能数据采集,结合人工智能技术,为老年人提供健康分析、应急报警等多种智能化服务,提升老年人居家安全性,增强老年人生活质量。同时,本项目开发的系统平台,具有标准性和可扩展性,能够接入第三方服务商的智能化设备,实现更加全能的智慧化感知、分析和服务,从而推动智慧养老的第三方服务业,如助餐产业、医疗产业、保险产业等的推广,充分整合社会资源,形成完善、接受度高的智慧养老体系,进一步走向标准化、普适化。

政策导读

06

一个算法模型搞定千万种场景,
人工智能领域出现一匹黑马 

03

智能认知平台的成功应用案例   脑健康管理评估系统

行业资讯

技术前沿

移动计算的未来:是什么在推动变革?

项目进展

       山东省技术创新项目的设立,旨在深入实施创新驱动发展战略,推进新旧动能转换和制造业高质量发展,引导企业提高研发投入、开展研发活动、加强研发机构和研发人员队伍建设,增强自主创新能力和核心竞争力,提升产业技术研发水平和创新成果产业化水平。我院再次入选山东省技术创新项目计划,是对智研院科技创新实力和成果的高度肯定,我们将不断聚集优势创新资源、提升原始创新能力、开展产业技术科技攻关与成果转化,打造研究机构与企业需求间体系化、标杆化和标准化的合作模式,助力山东省智慧养老产业的快速发展。

       随着全球老龄化程度日益加剧,脑部疾病作为威胁人类健康的杀手之一,威胁着数亿人的身心健康。在脑健康评估诊疗方面,目前主要以人工评估为主,重复琐碎的评估工作消耗了医生的大量时间,也大大降低了评估的时效性,我院智能认知团队开发的“脑健康管理评估系统”,基于智能认知平台,结合了底层核心的语义识别引擎、语音识别引擎,设计了一系列功能应用,实现了智能化,全自动对患者进行评测,极大地提高了效率,减轻了医生的工作量。目前已经在佛山市第一人民医院、国家康复辅具研究中心推广应用,得到了医生和专家的一致好评。
       脑健康管理评估系统将语音识别转写引擎模块、语义识别引擎模块和控制模块三大模块作为基础层,后台管理端、服务端作为平台层,应用层则设计了自动评分、智能分析统计报表等功能。目前能够满足同时在线人数10万人训练,每人记录365*3次。

项目进展

PROJECT PROGRESS

智能认知平台的成功应用案例
脑健康管理评估系统

      智能认知平台采用统计与规则相结合的思路;研究与实际场景相结合的方式,具备多轮场景的拟人化交互、高精度长文本语义识别、知识快速智能结构化等显著优势,已经在电信、电力、医疗等众多行业推广应用。接下来,随着知识图谱、知识管理工具的不断完善,平台将应用到各行各业不同的场景中。

政策导读
《山东省农业科技园管理办法》政策解读

为加强山东省农业科技园建设与规范化管理,进一步提升山东省农业科技园发展质量(以下简称农业科技园),推动农业科技园助力乡村振兴,健全完善农业科技创新体系,根据《山东省“十四五”现代农业科技创新规划》(鲁科字〔2022〕53号)要求,参照《国家农业科技园区管理办法》(国科发农〔2020〕173号),我厅在结合我省实际情况与园区定位、充分征求意见的基础上印发了《山东省农业科技园管理办法》(鲁科字〔2022〕118号,以下简称《办法》)。

       腾讯把BERT方法用于单细胞注释技术,还登上了Nature子刊
       能辅助医生精准治癌的那种。
       此次聚焦的单细胞RNA测序(scRNA-seq)技术,一直被称为生命科学领域的的革命性工具,对于“精准医疗”具有极高的应用价值。
       但是,以前受制于数据样本量小、人工干预多等因素,一直难以推广使用。
       这次腾讯首次将“transformer”应用到该领域,使其真正实现了高解释性、高泛化性、高稳定性。
       目前,该模型已在GitHub上开源 。
       新模型怎么做到的?
       众所周知,人类各种组织之间细胞的类型、状态和相互作用差异巨大。
       而单细胞RNA测序技术的出现,可以细粒度地观察和刻画各个物种中组织、器官和有机体中单细胞分子图谱(细胞表达),堪称给细胞中的每个基因都印上专属“身份证”。
       通过这一技术,研究人员可以更好地研究这些组织及其中存在的不同类型的细胞。
       更进一步地说,还可以更好地了解肿瘤微环境,以达到精细分析病因、精准匹配治疗方案的效果。

POLICY INTERPRETATION

       一、出台背景及起草过程
       为加强山东省农业科技园建设与规范化管理,进一步提升山东省农业科技园发展质量(以下简称农业科技园),推动农业科技园助力乡村振兴,健全完善农业科技创新体系,根据《山东省“十四五”现代农业科技创新规划》(鲁科字〔2022〕53号)要求,参照《国家农业科技园区管理办法》(国科发农〔2020〕173号),我厅在结合我省实际情况与园区定位、充分征求意见的基础上印发了《山东省农业科技园管理办法》(鲁科字〔2022〕118号,以下简称《办法》)。
       二、主要内容
       《办法》主要包括农业科技园的目标定位、申报与审核、管理评价与激励、组织机构及职责等内容。
       《办法》明确了农业科技园的目标定位。农业科技园以成果转化示范和应用推广为目标,聚焦区域优势特色产业,推动产业高质量发展,带动农民增收致富,打造乡村振兴科技示范样板。
       《办法》明确了设区的市科技局、省科技厅相关职责。设区的市科技局负责辖区内农业科技园日常管理等工作。省科技厅负责组织农业科技园建设申报、定期开展绩效评价等工作。
       《办法》明确了农业科技园的申报条件与申建流程。每个县(市、区)辖区内农业科技园原则上不超过1家,省科技厅对农业科技园实行有进有退的动态管理,根据农业科技园的调整变动情况,组织农业科技园建设申报工作。
       《办法》明确了农业科技园的管理评价与激励措施。设区的市科技局每年组织对辖区内农业科技园进行绩效监测,形成年度工作报告,报送省科技厅。省科技厅每3年组织1次绩效评价,评价结果分为优秀、合格、不合格。绩效评价优秀的农业科技园优先培育创建省级农高区或国家农业科技园区,并在相关科技计划项目申报、创新平台建设等方面予以倾斜支持。

技术前沿

ADVABCED TECHNONLGY

Nature子刊:
让细胞与计算机直接“对话”,
还能辅助医生精准治癌

       但是,受数据样本量小、人工干预多、过度依赖marker gene(已报道的特异性基因)等因素的影响,单细胞测序细胞类型注释技术一直面临着泛化性、可解释性、稳定性均比较低的问题,现存的算法也难以有更广泛的应用。
       具体来说,人工注释费时、主观性强、误差大、不利于发现新的细胞类型;机器注释则经常出现在一个检测组织里有效,换到另外一个检测组织里就没效的问题,还是需要人工参与。
       为此,研究人员开发了一种基于预训练深度神经网络的模型:scBERT模型,并首次将“transformer”运用到单细胞转录组测序数据分析领域。
       scBERT模型,顾名思义是基于BERT的思路和范式。

       在预训练数据选择上,为了保证全基因组内基因级别的可解释性,scBERT没有做任何的降维或筛选处理,最大程度上保留数据本身的特性和信息。
       此外,该模型复用了大规模的公开数据集,包含不同实验来源、批次和组织类型的单细胞数据,以保证模型能学习到更为“通用”的知识,精准捕获单个基因的表达信息及两两基因之间的作用关系。
       在实验中,scBERT模型也证实了其在单细胞测序上呈现出的高解释性、高泛化性、高稳定性。
       截至目前,通过了9个独立数据集、超过50万个细胞、覆盖17种主要人体器官和主流测序技术组成的大规模benchmarking测试数据集上,该算法模型的优越性均得以验证。
       值得一提的是,在极具挑战的外周血细胞亚型细分任务上,相较现有最优方法的70%准确度提升了7%。
       不仅如此,这一技术的突破在实际应用中也有很重要的价值:
       未来可用于临床单细胞测序数据,并辅助医生描述准确的肿瘤微环境、检测出微量癌细胞,从而实现个性化治疗方案或者癌症早筛。
       同时,对疾病致病机制分析、耐药性、药物靶点发现、预后分析、免疫疗法设计等领域都具有极其重要的作用。
                                                                                                                    摘自《量子位》

       不知不觉,AI技术的渗透,已经开始超出人们的想象。
       去医院照个CT,都有AI作为双重保障,通过视频画面动作识别,确定病人在进入机器前已经得到有效保护。
       还有流水线产品是否有瑕疵,公共场所人们是否戴了口罩,工人是否佩戴安全帽、后厨是否达到“明厨亮灶”、应急通道是否有违停车辆等生产、生活中常见的场景,也都已经在用AI来识别检测了。
       更让人意想不到的是,如上千差万别的场景,可以只用 一个预训练大模型来搞定。
       而且不用收集大量样本数据集, 零数据即可启动、小样本就能调优。
       仅需半个月,就可以完成模型训练并投入使用。
       要知道,在传统算法训练模式下,一般是“一套算法对应一个场景”,换个识别对象,就需要重头收集样本数据、开发训练了。
       这就导致一套算法上线,往往是几个月的长战线模式,背后需要投入很高的人力物力成本。
       而在数字化改革的浪潮下,千行百业涌现出越来越多的细小场景,传统“一套算法对应一个场景”的算法训练模式遇到前所未有的挑战。
       在此需求和背景下,用一个算法模型就能解决所有场景问题无疑是一剂解决问题的良方,那到底是谁率先拿出了可以“单挑”1000万个场景组合的预训练大模型?
       又为什么会在此刻走入我们的视野?
       AI 2.0时代开启,行业玩家技术路线已备好。
       这可以从基础设施、行业需求两个方面来解答。
       首先在基础设施上,我国构建的视频大数据系统经比较完善。
       目前,全国几亿台摄像设备,可以构成一个空前巨大的视频大数据库。
       但是这些设备中,仅有20%是智能的。
       这意味着收集到的海量数据,实际被应用的并不多。
       而且其中的大部分算法,都集中在人脸识别、车牌识别等高频应用场景上。
       在低频场景中能识别的对象非常少,准确性也不够高。

行业资讯

INDUSTRY INFORMATION

一个算法模型搞定千万种场景,
人工智能领域出现一匹黑马 

       与此同时,当AI发展步入深水区后,各行各业对于视觉识别的需求越来越高,碎片化场景扎堆涌现。
       也就是第二方面影响因素行业需求。
       正如开头提到的诸多场景,如后厨、CT室、施工现场等,在数字化浪潮的驱动下,这些细小场景也都迫切寻求智能化支持,它们共同组成了一个占比80%的长尾场景。
       问题在于,这些细小场景自身特点鲜明,很难用一个训练好的算法一网打尽。
       比如后厨需要识别灶台上东西的摆放是否正确,工地则需要识别工人是否佩戴安全帽。在识别对象类型、物体属性、关系和行为上,这两个场景几乎没有共同之处。
       如果使用传统的“烟囱式”算法平台呢?可行性并不高。
       可以用城市管理的场景举例说明。
       它最大的特点就是碎片化,从马路牙子是否有破损、树木是否倒伏、车辆是否违停到窨井盖是否缺失等,几乎场景内每一个点,都是一个定制化需求。
       如果使用传统算法模式,算法厂商需要根据每一个点来设计算法,单个算法的费用可能就会高达几十万。
       而且还需要需求方自己去采集样本图片包,采集量少则几千,多则几万张。
       然后算法公司才能拿着这些图片去训练算法,整个开发周期可能长达几个月,最后才能实现交付。
       假如训练出的算法不够好,还要继续再次进行迭代,可能又要等一个多月的时间才能再次交付。
       这样的时间成本、金钱成本,客户是难以承担的。但与此同时,当AI发展步入深水区后,各行各业对于视觉识别的需求越来越高,碎片化场景在扎堆涌现。

       显然要解决这样的碎片化场景的应用,必须要寻找一条新的技术路线。
       在这样的背景下,预训练大模型技术横空出世。
       预训练大模型从根本上改变了人工智能的技术逻辑,意味着“作坊式”模式的终结,“AI工业化”模式的到来,是开启人工智能2.0时代的具有里程碑意义的技术变革!
       人工智能1.0 时代,对每一个识别的场景(目标)都要训练一个对应的算法模型,每个模型的训练都要有大量的样本并标注,也就是“一套算法对应一个场景”。
       人工智能2.0时代,通过海量数据进行预训练形成一个具有通识能力的大模型,以“大规模预训练微调”范式满足多元化需求,也就是“1个模型适用N个场景”。
       去年,随着美国Open-AI 公司的GPT-3预训练大模型的发布,海量数据预训练对算法能力的提升肉眼可见,从而在人工智能领域掀起一股热潮,俨然成为一个新的赛道。
       联汇科技,从预训练大模型赛道上跑出来的一匹黑马。
       联汇科技是国内最早自主研发大规模预训练算法模型的公司之一。
       同时联汇科技还发布了首款基于视觉语言预训练大模型的OmVision视觉认知平台,为视觉智能产业提供了全新的AI视觉认知基础工具平台。
       OmModel业界领先的多模态预训练大模型。
       它通过大规模自监督学习的多模态人工智能算法,融合语言和视觉模态理解,完成基于行业的亿级图片、万级视频、十亿级图文大规模预训练,实现用更小的标注样本数量,融合更多的模态信息,获得更为精准的视觉AI模型,从而实现了本文开头描述的一个模型应对千万种场景的超强能力。
       OmModel预训练大模型提供了具有超强通识能力的解决方案,以“预训练大模型+下游任务微调”的方式,有效地从大量标记和未标记的数据中捕获知识,解决模型通用性差的问题,极大地扩展了模型的泛化能力,使模型更加“融会贯通”、“举一反三”。
       同时,随着数据规模和模型规模的不断增大,模型精度也将得到进一步提升。
       联汇科技首席科学家赵天成博士表示:高门槛、高成本一直是人工智能产业化落地的最大障碍。
       而人工智能的最终目的是要能为百行千业赋能,这就要求人工智能的应用落地门槛要足够低,成本也要控制在合适的范围内。
       现在我们找到了解决这个问题的钥匙,就是通过预训练大模型,重新定义算法的生产流程,用一个算法模型搞定千万种场景,解决大量碎片化应用场景的问题,让人工智能更易用,实现真正的普惠AI,用“普惠AI+行业”的融合创新赋能更多企业与用户。
       OmModel预训练大模型是预先用海量多模态数据,通过自监督训练出一个对生活中大多数人、物、行为、属性等具有强大通识认知能力的认知模型。

       OmModel预训练大模型目前具有20000多种目标、300多种属性、200多种行为的强大通识能力,到年底更可以达到50000多种识别目标。
       而且它还具有强大的文字语言理解能力,我们可以通过文字描述,对拟识别的场景进行定义,通过目标、属性、行为三要素的灵活搭配组合,就可以生成千万种不同功能的算法应用;彻底打破了传统视觉识别算法“样本采集、样本标注、训练调参”的生产模式。
       比如在城市管理的场景下,OmModel可以自动识别道路上几乎一切对象,树木、人、自行车、人的动作等都能搞定。
       当我们要生成一个算法的时候,只要输入相应的文字描述即可。
       如“骑自行车的男人”或者“道路上的垃圾”就可以马上生成相应的算法。
       而且,用预训练大模型,能够通过更少的参数量,实现和行业知名大模型同等或者更好的性能。
       开发周期由平均几个月缩短为几天,还可以拥有更快的推理速度,从而有效覆盖大量长尾应用场景。
       OmModel技术的落地载体:OmVision视觉认知平台
       赵天成博士说:
       基于OmModel预训练大模型技术,我们还进一步开发了OmVision视觉认知平台,OmVision是一个全新概念的‘0样本、0基储0代码’的机器视觉基础软件工具平台,一般技术人员都可以用这个平台,来生产和运行视觉算法。
       一般意义上的算法生产都是要由算法工程师来完成的,但由于算法的实际应用场景涉及千行百业,算法工程师对现场的需求理解往往不到位,造成了生产算法的不懂业务,懂业务的一线人员不懂算法的“死结”。

       因此理想的办法最好是降低算法生产的专业技术门槛,让各个行业的一线人员自己来生产算法,从而彻底打开这个“结”。
       OmVision视觉认知平台正是基于这一思路的大胆尝试。
       OmVision视觉认知平台,彻底颠覆了传统“算法生产”和“算法应用”分离的方式,首次提出了“算法来自应用”的理念,重新定义了算法生产“三部曲”策略。
       第一、0样本冷启动。第二、小样本训练。第三、线上调优。
       走在人工智能2.0变革前列
       当前,我们正处于人工智能从1.0时代迈向2.0时代的关键时代转折点。
       OmModel预训练大模型在数字安防、工业视觉、自动驾驶、医学影像、虚拟现实、新一代视频会议终端、数字文娱等场景的圆满落地,构成了OmModel丰富的应用层。
       随着机器视觉等更多关键核心技术突破和特定应用场景融合加速,在城市大脑、智能制造、智能家居、智慧交通、智慧旅游、智慧教育等领域的泛在通用场景的规模化落地,也只是时间问题。
       用低成本、零门槛的方案,为行业内许多中小企业提供智能化升级的方案,使得人机通力合作模式深入到千行百业中去,让技术变得更为普适。
       每一次AI技术与应用的精进,都由“破风者”带动。
       自主、完善、富有韧性的产业生态,更加需要企业自主发挥能力,走在行业的最前沿,去面对技术无人区的挑战和商业价值的兑现。
       人工智能产业更是如此。
      人工智能2.0的未来将实现:
       技术的价值是让每一个行业、每一个企业都能受惠于技术的美好,人工智能是源自技术底层的赋能,我们在做的事情是让AI无处不在,以更具温度的力量去理解、去重构、去进步。

       智能手机之后的下一块屏幕,到底会是什么?
       AR隐形眼镜?可做到随时随地在眼球上完成图像计算,在直径不到2cm的镜片上,集成了图像处理芯片、显示控制和无线通信系统等。
       AR眼镜的无线设计参考也来了,智能手机和 AR 眼镜之间可以对计算负载进行分配,二者的融合将会更为丝滑,不免让人对消费级AR眼镜抱有更多期待。
       另一边,ARM for PC也逐渐成为行业共识。ARM架构的低功耗、低耗电优势被移植到PC端,从而打破移动PC“苦续航久矣”的局面。
       不管是当下火热的元宇宙领域,还是上一代移动计算平台,似乎不约而同地向着一个趋势发展——
       移动性高、低功耗、长续航,还希望兼顾高性能。
       而这些特性,不正是智能手机所具备的?同时也是它在十几年内成为主流移动计算平台的最重要原因。
       不知道什么时候开始,智能手机已经不是各种移动计算平台当中的唯一主角了——至少从技术底层涌动的潮水来看,已经再明显不过。

移动计算的未来:
是什么在推动变革?

行业资讯

INDUSTRY INFORMATION

       新型移动计算平台基于过往的升维和融合
       我们确实已经来到移动计算发展的新节点。
       从定义来看,移动计算的范畴覆盖了可移动设备各类型数据的产生、分享、显示等全链条过程,其中的数据可能来源于人机交互,也可能来自于设备感知等层面。
       当下最普及的移动计算平台非手机这一形态莫属。
       如今随着5G和AI技术普及,人机交互进一步革新,设备感知形式也逐渐发生变化,并进一步催生出新型移动计算形态,如XR硬件、传统PC更新。
       首先来看5G,无论移动计算的平台形态如何迭代,通信技术都是不可或缺的一环,甚至会对网络连接提出更高质量要求。
       回望过去从2G、3G再到4G的发展,其实都聚焦于手机这一载体的应用拓展。而来到5G,这种趋势已悄然发生了变化。
       标准制定组织3GPP最新释出的5G功能,应用场景不仅仅局限于手机,而是更加多元化。
       而底层AI能力,则是驱动移动计算发展的另一大因素,能保证移动设备在有限算力和电源的条件下,具备足够的数据处理能力,以应对多元化的场景,比如游戏、娱乐、拍照等与我们生活息息相关的功能。
       在智能化、数字化的当下,AI无疑成为了各大平台厂商、芯片供应商争相竞逐的对象。
       于是,移动计算随着5G和AI的自然拓展和迁移,并催生了具有更新、更好体验的全新平台,也就变得顺理成章了。
       而如果将5G当做一种基础能力,以AI能力为划分,移动计算的发展方向大致还可以分成两类:一类是升维,一类是融合。

       先说升维,以基于XR设备的移动计算平台为典型。人类几千年传播信息的媒介,无外乎都是二维、平面的介质;而元宇宙的XR设备,直接将二维升成了三维。我们存在的整个空间都变成虚拟化和可计算。这对底层的算法、算力提出了更高的要求。
       拿我们最能感知到的视觉算法来说,手机主要聚焦于二维拍照的场景,包括人脸检测、超分降噪、画质增强、超清人像等。
       以高通这一底层玩家为例,骁龙平台的高通AI引擎屡屡在这方面进阶:目前的第七代高通AI引擎已经将面部特征识别点增加到了300个,人脸检测速度相比上一代提升300%,还有像多帧降噪、局部运动补偿等功能。
       而来到XR设备端,一戴上即开始全场景实时计算,包括位置跟踪、3D对象跟踪、平面检测、空间映射和网格化、场景理解等;不仅算法从二维升阶到三维,还对真实性、低时延提出了更高的要求。
       另一类则是融合,这一趋势又以基于PC的移动计算为典型。随着移动办公、远程办公的需求兴起,PC端市场在这几年中正在迎来前所未有的增长。去年一年,全球PC市场创下了近十年来最大出货量,达到3.41亿台。
       值得注意的是,且不说一些芯片玩家开始ARM for PC,就是更多手机厂商、互联网厂商也纷纷在布局平板、笔记本产品,软件开发者们也开始在打破移动与PC之间的边界。
       各种原因,其实不难理解,就是融合生态的优势。移动手机的发展如火如荼,PC价值又无法替代。不如两者打通、无缝切换,实现全场景的覆盖。
       这一点已成为业界共识。比如为了更好的“融合”,一些厂商原本在手机端的一些算法,比如视频会议时的面部识别、语音识别以及端侧AI加速等逐渐迁移到了PC端,还有像多屏协同、通用控制等新兴功能,正在成为生产力必备。

       综上不难看出,以AI为驱动的移动计算的发展演变,正从基于手机这种单一形态,走向基于手机、XR、新型移动PC等终端或平台的多融合、多场景,而且速度迅猛。以XR设备为例,根据Counterpoint今年1月的数据,预计2025年,XR头显出货量将达到1.05亿台,相较2021年的1100万台增长10倍。
       但如何走怎么走,以及一些尚待解决的技术问题,比如算力、算法以及架构兼容等,都是企业不小的难题,也将影响着未来移动计算的发展迭代。
       怎么看未来移动计算的发展迭代?
       从外在形式来看,移动计算的当下与未来,似乎落在了智能手机、XR设、移动PC等表现形式各异的硬件上。
       但无论用于移动计算的终端或平台形态如何变化,决定根本属性的要素依旧是芯片、底层软件和算法。
       作为当下移动计算平台的代表,智能手机的技术路线已经发展成熟,且其移动计算能力也还在不断迭代升级。
       由此一来,关于“移动计算下一步该如何走”的问题,便不再完全是以0为起点的技术开创,而更多是如何让已有技术实现跨界迁移。
       具体该怎么做?
       行业玩家高通给出了一种技术路线参考——将始于智能手机的通用硬件架构和软件特性作为关键因素,逐步扩展至XR、PC等新型移动计算平上。
       而这条路线的最底层能力,还要从5G和AI看起。
       一方面,两者驱动下,手机端的人机交互方式不再局限于触摸屏幕。
       如语音助手、手势交互等功能,他们基于NLP、CV技术,实现了更符合人类自然信息交流方式的人机交互,并激发出了很多前所未有的应用。如第七代高通AI引擎,可以实现通过分析用户声音判断其心情是否抑郁、身体是否健康。
       但是这些大量AI应用数据要在移动计算平台上快速传输,这也就要求平台同时具备强大的5G通信能力。
       而这些在智能手机上“锦上添花”的功能,放到XR设备上则可能会是刚需,对5G能力的要求也会进一步增强。
       另一方面,海量算法加持让手机性能一再突破极限。
       比如摄像方面,降噪、自动对焦、使用滤镜、8K HDR等功能都可在算法的加持下实现,这些成为了手机拍摄大片的关键。
       游戏方面,利用深度学习超级采样技术(DLSS),手机上也能提取渲染场景的多维特征,并智能的组合多帧画面细节来构造高质量图像,实现超越传统渲染的性能,比如云

渲染了解一下,这就对5G和AI有着更高维的技术要求。
       还有信号稳定传输、电池续航等问题,也能通过AI来智能优化。
       这些方法思路同样可以用在XR设备、移动PC上来提升性能。
       实际上,以AI作为共通的底层能力,为智能手机、XR设备、移动PC提供技术驱动,是行业内已经认可的技术路线。
       比如,基于“统一的技术路线图”,高通的AI能力已经逐步渗透到XR、PC等几乎所有类型的终端。
       XR 领域,Meta Oculus、微软 Hololens、字节 Pico、创维 VR 等几乎所有主流 XR 厂商的头显设备,都采用了骁龙 XR 系列平台。其中骁龙 XR2 是当前的代表方案之一,高通称这是首款将 5G 和 AI 结合的 XR 芯片。
       它引入了七路摄像头支持和定制化计算机视觉处理器,实现了实时追踪用户头部、嘴唇和眼球,26 点手部骨骼追踪等功能。

       场景理解和3D重建能够将虚拟信息与物理世界更好融合,带来更为沉浸的交互体验。
       但与此同时,设备还会感知用户所在的外部环境,可以通过AI识别出门铃、孩子哭声等声音,来提醒人们处理紧急事件。语音助手也会实时待命,并能在嘈杂环境中识别命令,基于5G信号的能力及时将消息发送至用户终端(移动计算平台)上。
       近日高通还发布了最新的第一代骁龙 XR2 + 平台,在带来续航和散热表现的大幅提升之外,还引入了全新图像处理管线,支持并行感知技术,包括头部、手势和手柄追踪、3D 重建以及低时延视频透视;该平台的高像素密度能够支持 PC 级虚拟景观,并能够同时支持多个传感器和摄像头,为更逼真的虚拟人物赋予细致入微的面部表情。
       Meta 已经发布了基于该平台的首款产品 Meta Quest Pro,与同样搭载骁龙平台的手柄结合,可通过多个嵌入式定位摄像头进行自追踪,并与头显之间实现超低时延;结合面部和眼球追踪时,能够在 VR 中为用户打造更加自然的虚拟形象。这同样不失为是一种以升维为核心的融合。
       移动PC领域,高通也在尝试用5G和AI来提升移动办公的生产效率、保护终端隐私。
       比如召开远程会议时,设备可以准确感知到主体的面部,即便是在人口嘈杂的街边咖啡店也可以实现精准聚焦,周围的路人也就不会出现在会议上。
       在第三代骁龙 8cx 计算平台上,高通 AI 引擎可以提供 29+ TOPS 的加速能力,最高性能提升达 3 倍。云端部署、本地运行的方式,还能让轻薄本挑战高性能任务,并不占用过多资源。
       除了自身应用落地外,高通还将这些底层 AI 能力集成到一个统一 AI 软件栈,实现移动计算底层“大一统”。最上游还是统一的 AI 框架和 AI 引擎 Direct。随后通过不同的开发者服务、系统软件、操作系统,分发给不同的移动计算平台,比如,智能手机、XR、ACPC(Always Connected PC,即始终连接的 PC)等都在其中。

       未来移动计算还承载着人机交互变革
       不可否认的是,包括高通乃至更多玩家都已经认识到以 XR、ACPC 为代表的新型移动计算平台催生出的新兴场景,有着前所未有的市场和价值。
       用 XR 设备打开的元宇宙,可用于工业、娱乐、游戏、社交等一切可虚拟化的现实场景,在被广泛应用之后,未来几年足以撬动超 8000 亿美元市场规模。而随着以新型移动 PC 为代表的移动计算平台的更加通用,以及与其他计算平台的更加协同,更多场景与价值有待发掘……
       如果说过去以手机延展出的场景,只是数以百计的垂直软件生态;那么来到新型计算时代,则是带来数以百计的横向产业拓展,进而带来数以千计、数以万计的开发者生态与企业机遇。
       而这背后正是 AI 这一底层技术驱动,包括之前提到的汽车、物联网等场景,未来整个移动计算体系所承载着的,还有更为深远的人机交互变革。
       纵览整个机器革命,每一次人机交互的革新,都给人类生活方式带来了巨大的改变。
       以时间为轴,如今移动计算平台的革新,不正是当下正在发生的人机交互革命?
       以传统 PC 为首的人机交互 1.0,半导体技术飞跃进步推动个人计算机时代的到来。而像鼠标、键盘以及图形用户界面的发明,更是让计算机飞入寻常百姓家,即便那个家庭没有受到过专业训练。
       当前,以智能手机为首的人机交互 2.0,移动计算平台已经开始占据主导地位。2007 年前后以 iPhone 和各品牌安卓终端为主的触屏交互逐渐成为移动时代下的主流。人们用手指替代键盘,更多生活相关的应用,只需一部手机就可以搞定。
       而在可预见的未来,在 5G 和 AI 技术驱动下,由 XR 硬件等新型移动计算平台引领的人机交互 3.0,更让随时随地交互成为可能,就像那个 AR 隐形眼镜,只需一睁开眼就能接收信息,动动嘴就能处理信息,一旦规模化普及开来,就是人机交互新时代的开始,如今只剩下最后的 100 米,要靠底层能力驱动。
       在人机交互 3.0 时代,一些旧有的移动计算形态也在 AI 和 5G 连接等驱动下,带来新的价值创新,如更智能、便捷的新型移动 PC 体验。但交互方式等体验上的改变仅仅是表象,技术的普及普惠,才是移动计算革新带来的根本上的深远影响。
       从过去每个家庭拥有一台 PC,到每个人都拥有一台智能手机,人机交互发生了巨大的变革;而在不远的未来,每个人将都可以随时随地开启各种全新形式的人机交互体验。当 AI、5G 等技术更加深入影响到我们每个个体当中,我们也可以如科幻电影主角那般,以更为多元的方式感知世界。

扫一扫关注我们

物端AI芯片  
边缘AI计算设备 高通量AI服务器认知智能与协作计算

Copyright © 2024 陕西妙网网络科技有限责任公司 All Rights Reserved

增值电信业务经营许可证:陕B2-20210327 | 陕ICP备13005001号 陕公网安备 61102302611033号