序言
学术研究组
学术研究组
分布计算室
“跨境数据安全”课题组
学术研究组
信息安全室
学术研究组
斯蒂芬•泰勒案DABUS
AI专利权主体
各国判决
各国判决追踪
跨境数据安全
五局AI领域可专利性
软件的可专利性
多局审查数据对比
当前,
我们还有哪些关键核心技术亟待攻克?
它们缘何成为“卡脖子”难题?
未来科技向哪个方向发展?
这些都与我们所从事的专利审查工作密切相关。
让我们一起关注技术前沿,分享研究成果,与科技发展同频共振!
李福永 等
于白 等
张卉 等
陆然 等
丛磊 等
魏峰
大数据室
学术研究组
田民丽
智能电网二室
杨哲 等
白桦 等
计算机视觉室
李玉坤 等
李静 等
梁雪峰 等
智能电网二室
计算机系统结构室
大数据室
量子计算
量子计算机
量子纠缠
EDA知多少
前世今生
未来与发展
工业机器人核心算法
人工智能AI
技术及发展
小数据
应用方向
东数西算
关键技术概览
零碳关键技术
元宇宙
冬奥的数字技术
机器视觉
云计算
光刻机技术
“双碳”战略
智能电网
虚拟人技术
知识图谱
随着AI的能力日渐强大,当AI可以独立实现创新成果的研究时,AI这一主体是否能够作为专利权的适格主体呢?
各国法院作出的判决中,美国、英国、德国的法院都倾向于认为人工智能不能够作为专利申请的发明人,而澳大利亚法院则认可将其作为专利申请的发明人。
澳大利亚推翻了初审法官“AI 可以作为专利发明人”裁定,目前“AI 可以作为专利发明人”的仅剩南非。美国版权局重申:人工智能创造的作品不能被授予版权。
跨境数据流动是一个既辩证又统一的问题:如何在数据跨境管理中平衡大数据自由流动和有效独立管治间的矛盾,是个值得深思的问题。
相同的AI发明专利申请在不同国家/地区审查结论有所差别,本文对五局在 AI 发明的专利法律法规及相关实质性问题进行对比分析。
在智能检索系统的中文数据库中进行语义检索时,对于体现发明点的英语单词建议使用‘先布尔后语义’的检索方式
2022年3月1日,欧洲专利局(EPO)2022年版审查指南正式实施生效。新版审查指南的修订较少,主要更新对软件的可专利性指南、部分优先权和相关描述。
当申请文件中词语使用宽泛常规、应用场景不明、内容晦涩难懂,导致难以提取出体现发明构思的关键词时,对关键词的有效扩展将影响检索成败。
2021年10月9日,国务院针对专利审查部门提出了提质增效”的要求。其实,不止中国国家知识产权局,世界各国都有提质增效的审查需求。
人工智能指由人制造出来的机器所表现出来的智能。技术的革新和进步对其发展起到了极大推动作用。我国制定了2020、2025 及 2030 年“三步走”的发展目标
传统认识中尖端AI依赖于大量数据,一个主体可访问的数据量被视为AI进步的关键指标。然而,对于大数据的强调,可能会低估小数据AI方法的巨大潜力。
日本驹泽大学著名经济学教授井上智洋预测了AI发展在未来对经济以及就业的影响。那么未来那些AI应用领域和方向将成为就业以及应用的热门呢?
东数西算-关键技术专利概览
2022年2月17日,由国家发改委、中央网信办、工信部和国家能源局联合启动的在部建立数据中心,支撑东部算力需求,同时带动西部发展的国家战略工程。
东数西算-零碳关键技术
提升数据中心的能源利用效率、降低碳排放,是“东数西算”契合“双碳节能”目标的一个核心要点。实现这一目标,综合利用技术创新是一种重要途径。
量子计算原型机“九章”,牢固确立了我国在国际量子计算研究中的第一方阵地位,为未来实现解决具有重大实用价值问题的规模化量子模拟机奠定了技术基础。
量子纠缠作为一种只发生在量子系统中的现象,将其应用到量子信息学中,能够使很多平常不可行的事务都可以达成。
从CAD到现代EDA,EDA逐渐成为半导体行业的核心节点。EDA已经成为整个半导体行业生态链中最上游的节点,芯片制造的全流程几乎都有EDA的参与。
EDA 作为芯片产业的关键一环,其产品需求和芯片产业发展趋势息息相关。根据可预期的芯片产业未来发展态势,可以推测下一代EDA 的产业需求。
国产工业机器人与世界高端产品差距在哪里?从精准度、稳定性、故障率和易用性,找出国产工业机器人发展的瓶颈所在,并给出可能的解决方案。
电网是连接能源供应和消费的桥梁,是能源转型的中心环节。如何构建以新能源为主的新型电力系统来实现“碳达峰、碳中和”的目标?
知识图谱综述
知识图谱以结构化的形式描述客观世界中概念、实体及其关系,提供了组织、管理和理解互联网信息的能力,是推动互联网和人工智能发展的核心驱动力之一。
元宇宙是数字化的虚拟世界,在外有疫情影响和维持竞争力的压力,内有较为成熟的硬件基础上的大环境下,元宇宙应运成为各方所期望的下一个增长点。
从冬奥会看中国科技的崛起
冬奥会成功的背后,是我国大数据、人工智能、云计算、计算机视觉、计算机视频图像处理等新技术、新产业的快速崛起,是体育产业数字化转型的里程碑。
计算机视觉作为人工智能核心技术之一,涵盖人脸识别、图像识别、光学符号识别OCR、姿态识别等多个领域,被广泛应用于各行业间的智能化升级转型。
本文将从基本概念、关键技术、市场现状及应用案例、专利特点、与其他新兴技术的融合以及发展趋势等方面进行介绍。
没有高端的光刻机就无法制造超大规模集成电路芯片,更无法支撑起基于高端集成电路芯片的现代信息化产业这座宏伟大厦。
智能电网助力碳达峰、碳中和
随着碳达峰碳中和重大战略决策的提出,如何与时俱进地对大量涌现的智能电网新技术的相关专利做出有针对性的、专业、高效的审查,亟待我们去分析、探讨。
虚拟数字人,指的是具有数字化外形的虚拟人物,依赖显示屏、全息投影等设备存在,且虚拟人有类似于人类的外形、身份甚至是情感,能与现实世界交互。
一、事件缘起
在2018年底和2019年,美国企业Imagination Engines的创始人斯蒂芬•泰勒(Stephen Thaler)博士分别向英国知识产权局、欧洲专利局、美国专利商标局和世界知识产权组织等机构提交了专利申请(申请号为EP18275163和EP18275174的两件专利申请及其同族),并指定人工智能机器人“达布斯”(DABUS)为该申请的发明人。DABUS的全称是“Device for the Autonomous Bootstrapping of Unified Sentience”,本质上是一个经过编程独立进行发明的计算机系统。这引发了对于人工智能这一主体是否能够作为专利发明人的适格主体问题的关注与讨论。
二、美国专利商标局(USPTO)
2019年1月,美国专利商标局举行了一个人工智能知识产权政策研讨会,专门讨论人工智能和知识产权政策的相关问题。在这次会议和泰勒博士的专利申请之后,美国专利商标局就“随着人工智能技术的进步,知识产权法律和政策应该如何发展”这一问题进一步深入了解公众意见,并形成报告。
2020年10月6日,美国专利商标局发布《人工智能和知识产权政策的公众意见》报告。该报告分为两部分,第一部分是人工智能发明的可专利性,第二部分是人工智能对专利以外的其他知识产权政策领域(包括版权、商标、数据库保护和商业秘密法)的影响。报告认为:人工智能发明可分为以下类别:(a)体现人工智能领域进步的发明;(b)应用人工智能的发明(适用于人工智能以外的领域);(c)可能由人工智能本身产生的发明。发明人应当是自然人,人工智能系统不能作为发明人。专利权人是自然人或公司,人工智能系统不能作为专利权人。
三、欧洲专利局(EPO)
EPO拒绝了申请号为EP18275163和EP18275174的两项专利申请,上述两项申请即是由DABUS机器完成的发明。通过对《欧盟专利公约》和判例进行分析不难看出,欧洲专利权的权利人只能是自然人、法人或组织;专利申请的客体必须具有技术性,且技术性必须对现有科技做出贡献。所以首先在欧洲人工智能不能成为知识产权申请的主体;其次人工智能相关发明可以成为欧洲知识产权保护的客体,但申请人必须说明该发明存在何种技术性并且做出了何种贡献。
随着人工智能的能力日渐强大,其参与创新的程度也与日俱增。例如麻省理工利用机器学习算法对6000多种化合物进行分析,筛选出能够作为抗生素的基础化合物,然后对筛选出的基础化合物的1.07亿种组合继续进行筛选,便能在2天内实现近20种可能抗生素的发现,如果仅凭研究人员进行筛选,其工作量基本需要上百年,也就是说,人工智能在创新成果的贡献中会占有越来越大的比例,因此,终将有一天可以由人工智能独立实现创新成果的研究,人工智能这一主体是否能够作为专利权的适格主体问题将在未来的5-10年成为知识产权界非常重要的一个根本性问题。
四、日本特许厅(JPO)
虽然相关申请未见进入日本,但2021年7月30日日本特许厅进一步明确了专利法中有关“发明人”的相关含义、范围和表示方法。对于不符合规定的发明人表述需要在指定期间内进行修改。
1.发明人的表示
关于发明人的表示,在日本专利法第36条第1款中规定必须在申请书等文件中填写发明人的“姓名”;而关于申请人的表示,则规定必须填写申请人的“姓名或者名称”。由此可见,发明人的表示中不包含相当于“名称”的内容。根据上述规定的差异,日本专利法第36条第1款中规定的“姓名”应理解为自然人的姓名,“名称”是指法人的名称,并且该条款中规定填写的发明人一栏,根据以往惯例应填写完成该发明的自然人。
另外,将日本专利法第36条第1款规定的发明人理解为自然人,与专利法其他条款规定的内容相一致。从以上解释以及与上述各款规定的内容一致性方面来看,将发明人理解为仅限于自然人。因此,在申请书等文件中填写的发明人一栏中,不可以填写非自然人的信息。例如,不允许将包含人工智能的机器作为发明人进行填写。
2.发明人等栏中有填写了非自然人的情况
这种情况将作为申请书填写事项不完整进行处理,相当于违反申请手续的相关规定,所以会命令申请人在指定期间内进行手续补正。涉及的法律条款有:日本专利法第17条第3款(包含日本外观设计法第68条第2款中适用的情况)、第184条之五第2款、日本实用新型法第2条之二第4款、第48条之五第2款。
五、澳大利亚专利局
申请号为EP18275174的申请,其在澳大利亚具有同族申请(申请号为AU2019000363177)。
澳大利亚专利局于2021年02月09日做出决定,结论包括三项内容:
1. Section 15(1) of the Patents Act is inconsistent with an artificial intelligence machine being treated as an inventor. //人工智能及其不能被作为发明人对待。
2. The applicant has not complied with the direction under regulation 3.2C(4).
3. The application is lapsed.//本申请失效。
但值得注意的是,2021年08月06日澳大利亚联邦法院作了一个裁决,判定人工智能(AI)可以跟人类一样被认定为发明人。而在澳大利亚法院颁布这项裁决的前几天,南非成为第一个授予人工智能专利权的国家,承认人工智能机器人 DABUS 是一个“发明人”。
这是一项具有历史里程碑意义的判决,因为这是人工智能系统首次在法律上被承认可以作为专利申请的发明者。此前,法律一直默认:只有人类才可以成为发明家。
DABUS申请专利引发了全球多个专利局和法院长达数月之久的讨论。此案已移交英国最高法院,上诉已被驳回,美国和欧盟法院的结果相同。目前大多数的专利局出于相似的原因得出了相同的结论:现行法律规定,发明人必须是自然人。
澳大利亚联邦法院Johnathan Beach法官成为作出对Thaler博士有利的判决的第一人,裁定“发明者……可以是AI系统或设备”。(完)
郭明华
信息安全室审查员
一、前情提要
在2018年底和2019年,美国企业Imagination Engines的创始人斯蒂芬•泰勒(Stephen Thaler)博士分别向英国知识产权局、欧洲专利局、美国专利商标局和世界知识产权组织等机构提交了专利申请,并指定人工智能机器人“达布斯”(DABUS)为该申请的发明人。相关申请引发了全球范围内对于人工智能是否能够作为专利发明人的适格主体问题的关注与讨论。
2021年8月发布的第一期《电学部学术研究动态》介绍了美国专利商标局、欧洲专利局、日本特许厅、澳大利亚知识产权局就DABUS作为发明人的专利申请的相关审查情况。针对各专利局拒绝的审查决定,泰勒博士团队继续向相关法院提出了诉讼请求。近期美国、英国、德国等国家的法院陆续就相关案件做出了判决。以下是针对所述判决内容进行的整理。
二、最新进展
目前在各国法院作出的判决中,美国、英国、德国的法院都倾向于认为人工智能不能够作为专利申请的发明人,而澳大利亚法院则认可将其作为专利申请的发明人。
1、美国
此前,美国专利商标局以发明人应为自然人为理由,驳回了DABUS案相关申请(US16/524350)。泰勒博士上诉到弗吉尼亚州东区美国地方法院(Case No.1:20-cv-00903),并于2021年9月收到判决。法院未支持原告的请求。
美国地方法院的判决,大部分集中在美国各相关法律对于“发明人”的解释,从而认定,基于目前法律本身的含义,发明人应为自然人。
泰勒博士提出了两个基于政策的抗辩,即(1)允许人工智能作为发明人的专利申请,将有助于人工智能科技的发展,以及人工智能信息的商用化与公开化,从而鼓励创新。(2)美国专利法保护发明人的精神权利,而将人工智能列为发明人将有助于保护人类的这些权利。
虽然如此,法官认为,泰勒博士没有提供证据,说明这些政策考量可以超越对法条的字面解读,因此仍需遵循现有的法律解释。美国法院进一步指出,随着科技的进步,可能人工智能会达到相当的复杂程度,足以成为发明人,但目前还未达到这个时刻。如果这个时刻来临,那么国会需要通过新的立法,以将这一变化纳入。
2、英国
英国知识产权局和英国高等法院,相继以发明人应为自然人为理由,驳回了DABUS申请(GB1816909.4,GB1818161.0)。 泰勒博士上诉到英国上诉法院([2021]EWCA Civ 1374),并于2021年9月收到判决,依然未获支持。
英国上诉法院的法官,经过对相关法条的解释,认定专利法意义上的“发明人”需为自然人,所以人工智能机器不能成为发明人。
对于泰勒博士作为申请人,能否从发明人DABUS处获得授权,英国法院不予认可。在法律上,机器不能成为发明人,亦没有法律能力可以提供授权。泰勒博士,不能仅因为其是DABUS的所有者,就认为其拥有DABUS发明创造的专利申请权。另外,有专家认为,英国专利局计划在今年底之前,1977年的《专利法》可能会做出修改,将使得英国在为人工智能产生的发明获得专利成为可能。
3、德国
2021年11月11日,德国联邦专利法院做出裁决,人工智能系统不能被列为发明人,德国专利申请必须指定一个人为发明人。但补充说,这项发明的概念得到了人工智能系统的帮助。
这是英国萨里大学Ryan Abbott教授在其DABUS人工智能可专利性问题上的又一次尝试。他代表美国发明家斯蒂芬•泰勒(Stephen Thaler)博士在全球范围内提出了多份专利申请。相关德国专利申请号为DE102019128120A1。德国专利局曾在2020年3月24日驳回了这一申请,审查员认为,该项专利的发明人不符合德国专利法第37条和专利条例第7条的规定。由于这项发明是人工智能自行做出的,因此被认为不符合德国法律的要求。
按照德国专利法的有关规定,只有“自然人”才能被列为发明人。审查员还引用了若干的法律指出其中的发明人不能是公司,尤其是1968年的一项规定,其中要求发明人只能是个人。审查员还指出,人工系统不可能将发明转让给申请人,因为人工智能系统本身并不具有法人资格。
德国联邦专利法院的最新裁定基本延续了审查员的观点,但是新提出的折中方案却值得关注:即自然人可以被列为发明人,并加入人工智能系统所设想的发明信息。具体的案情信息还有待于德国专利法院的审判信息的进一步公开。
这是继在美国专利商标局、美国法院、英国专利局、英国上诉法院、欧洲专利局等均不承认人工智能作为发明人之后,又一个重量级法院的裁决。
4、澳大利亚
2021年2月09日,澳大利亚专利局对DABUS专利申请(申请号为AU2019000363177)发出形式缺陷通知书,指出发明人需为自然人,以及泰勒博士无法从发明人DABUS处取得授权作为申请人,从而驳回了该专利申请。
于白
党总支专职副书记
泰勒博士提出上诉,澳大利亚联邦法院于2021年7月30日作出了对请求人有利的判决([2021]FCA 879)。支持的理由主要有三点:
a)“发明人”的定义并没有明确排除非自然人。
b)从专利法的立法目的出发,宗旨为鼓励发明创造,促进技术创新与转移,法官认为将人工智能认定为发明人,有助于鼓励人工智能领域的创新活动。
c) 法官认为,泰勒博士拥有并控制着DABUS,因此可以从DABUS处取得授权,享有其发明,成为申请人。
目前澳大利亚法院和专利局之间在就相关问题进行博弈。
三、待审国家或地区
除了上述有明确判决的国家,以DABUS为发明人的专利申请目前尚在以下国家或地区待审:巴西、加拿大、中国、印度、以色列、日本、新西兰、韩国、沙特阿拉伯、瑞士等。相信随着后续各国或地区审查的推进以及法院判决的出台,该问题将持续受到关注,其影响力也将越来越大。(完)
一、前情提要
在2018年底和2019年,美国企业Imagination Engines的创始人斯蒂芬•泰勒(Stephen Thaler)博士分别向英国知识产权局、欧洲专利局、美国专利商标局和世界知识产权组织等机构提交了专利申请,并指定人工智能机器人“达布斯”(DABUS)为该申请的发明人。相关申请引发了全球范围内对于人工智能是否能够作为专利发明人的适格主体问题的关注与讨论。
2021年8月发布的第一期《电学部学术研究动态》介绍了美国专利商标局、欧洲专利局、日本特许厅、澳大利亚知识产权局就DABUS作为发明人的专利申请的相关审查情况;2021年11月发布的第六期《电学部研究动态》介绍了美国、英国、德国的法院都倾向于认为人工智能不能够作为专利申请的发明人,而澳大利亚法院则认可将其作为专利申请的发明人的具体情况;2021年12月发布的第十二期《电学部研究动态》介绍了欧洲专利局坚持认为专利申请中指定的发明人必须是自然人,申请人也不能因为拥有机器人而成为所有权继承人。
二、最新进展
澳大利亚推翻了之前的初审法官“AI可以作为专利发明人”裁定,目前“AI可以作为专利发明人”的仅剩南非。
韩国发布“人工智能与知识产权白皮书”(2022.3.23),其中汇集了国内外重要专家学者就“人工智能(AI)能否成为发明人”这一问题的讨论与研究。
美国版权局重申:人工智能创造的作品不能被授予版权。
三、要点摘录
1.澳大利亚联邦法院推翻去年初审法官“AI可以作为专利发明人”裁定
2021年7月30日澳大利亚联邦法院Beach法官确定:可以将人工智能(AI)系统命名为专利申请的发明人。而当时DABUS相关专利在美国、英国、德国等主要国家都遭到了拒绝,仅有澳大利亚和南非认可了AI发明人。但南非专利局只是对进入其国家阶段的PCT国际申请进行形式审查。所以去年澳大利亚经过法院确认的结果在全球引发了巨大关注。
2022年4月13日,澳大利亚联邦法院五名法官一致裁定:人工智能不能作为专利的发明人。
法官们认为,在人工智能作为专利发明人的讨论中,如果能够被认为是发明人,那么就会引发现有专利法中对于创造性的标准是否需要重新校正的问题,使其不用再参考本领域普通技术人员的知识和思维。
从与此相似的角度出发,还有诸多问题需要考虑,法院在处理类似问题时务必要谨慎。毕竟有关人工智能能否作为发明人的决定对一些领域的发展尤为重要,例如制药业,因为制药行业越来越多的使用机器学习来实现更有效、更便宜和更快的药物发现。
2.韩国发布“人工智能与知识产权白皮书” (2022.3.23)
白皮书的内容包括:人工智能发明的现状、国内专家组的讨论、如何保护人工智能的发明、以及一些重要工业知识产权国家在国际会议上对此议题的讨论等等。
对于“达布斯”案,韩国仍然认为根据现行法律,发明者只能是自然人,AI不是自然人,不能成为发明者。并且,在判断AI是否直接完成发明之前,AI作为发明者这一记载的形式上已经出现了缺陷。
2021年8月,韩国特许厅成立“人工智能发明专家委员会”,由产业界、学术界和法律界的众多专家组成,从多角度探讨人工智能能否被认定为发明人,以及如何保护人工智能的发明等问题。多数专家表示,以AI目前的技术水平,若无人为干预,仍很难独自完成全部发明创造,当然,也有意见认为,目前AI在人为帮助下进行发明是可能的,那么相关司法体系应为日后人工智能技术成熟到可自行发明创造的情形做好准备。
自2021年10月以来,韩国特许厅开展了一项政策研究性服务,寻求各种立法方案,为AI可能被接受为发明人的情形做出准备,以适应AI技术的迅猛发展。2021年12月,韩国特许厅还与其他六大知识产权局(中国、美国、英国、欧洲、加拿大和澳大利亚)共同举办了一次关于“人工智能发明人”的线上国际会议,考虑到迅猛发展的AI技术对未来社会经济和科技创新的影响,一些国家在整个政府层面制定了包括专利制度在内的人工智能综合性战略。
韩国特许厅计划在充分听取多领域专家组对“人工智能与知识产权”意见的基础上,对人工智能的发明保护方案进行前瞻性、面向未来的研究,以提高韩国在AI领域的国际竞争力。
美国版权局重申:人工智能创造作品不能被授予版权
2022年2月14日,美国版权局审查委员会(Copyright Review Board)重申根据美国《版权法》的规定,要求作品包含人类作者身份。因此由人工智能创作的绘画作品“天堂最近的入口(a recent entrance to paradise)”,不能获得版权授权。该作品的申请同样是前述的美国发明家斯蒂芬•泰勒。
泰勒要求版权局重新考试拒绝注册该作品的做法,称“人类作者身份要求违反了宪法,没有成文法或判例法的支持”。
美国版权局认为,该作品不符合注册资格。这是在其审查了法定文本、司法判例和长期版权局惯例(还援引了美国专利商标局涉及AI提出的知识产权问题的报告、公众关于相关问题的评论)后,再次得出结论,人类作者身份是美国版权保护的先决条件,因此该作品不能注册。
泰勒的第二个论点是,根据版权法,人工智能可以成为作者,因为“雇佣作品”原则允许“非人类、人工的人,如公司”成为作者。
但是版权局复议认为,这一论点同样无效。
首先,作品都是根据具有约束力的法律合同、雇佣协议或雇佣协议创作的,而“创意机器”无法签订具有约束力的法律合同。第二,雇佣作品原则只涉及作品所有者的身份,而不是作品是否受版权保护。如上所述,该法规要求作品包含人类作者身份。这部作品既不是“作者作品”,也不是泰勒的“雇佣作品”。
最终,美国美国版权局审查委员会认为根据1976年法案中《版权法》要求的作者身份,该作品不能注册。
(完)
一、引言
随着跨境数据安全引发的讨论越来越多,数据本地化的问题也逐渐成为跨国企业面临的两难问题。数据安全成为热点,跨境数据流动的安全性以及数据本地化进一步上升为社会讨论热点。因此,对于跨境数据流动和数据本地化存储之间的平衡也成为各国家或地区进行数据安全管理时面临的重要问题。
二、相关概念
1、跨境数据流动
1.1跨境数据流动概念
跨境数据流动(Transborder Data Flow)的概念最早由经济合作与发展组织(OECD)于20世纪70年代在《关于隐私保护与个人数据跨境流动的指南》(以下简称“OECD隐私保护指南”)中提出,OECD认为,跨境数据流动应具备两先决条件:其一,数据应当被计算机系统所识别;其二,数据流动应当跨越国边界。在此基础上,联合国跨国公司中心对数据跨境流动的定义再次细化,认为跨境流动需要对数据进行存储、传输、分析等系列操作。跨境数据流动可以是基于交易的流动,也可以是不基于交易的流动(如企业集团内部信息的共享),包括公共数据、个人数据和其它数据的流动。跨境数据流动问题,涉及属地管辖、本地化要求、数据安全、国家数据主权、隐私保护等多方面的内容,其中,隐私保护也称个人数据保护,是跨境数据流动中最重要的一个问题。
目前,国际上对跨境数据流动界定问题上观点主要分为以下三类:首先,由“OECD隐私保护指南”提出的将跨境数据流动界为个人数据越过国家边境进行转移;其次,由联合国跨国公司中心提出的数据跨境流动是指机器可读的数据跨越国界传输、处理、存储;第三,欧盟的观点认为,数据不跨越国界,但可以被其他国家的主体访问,也属于数据跨境流动的范畴。
数据作为新型战略资源,一方面,对全球经济增长的贡献己超过传统跨国际贸易和投资,改变了全球化的动态发展进程;另一方面,数据的跨境流动不仅会削弱数据主体对自身数据的控制权,国家关键数据资源的流失还会危及国家的数据主权,潜藏了巨大的国家安全风险隐患。跨境数据流动是一个既辩证又统一的问题:如何在数据跨境管理中平衡大数据自由流动和有效独立管治间的矛盾。
唐嫣
分布计算室副室主任
2、数据本地化
与数据跨境流动相对的概念为“数据本地化”。数据本地化是当前国际社会领域主权国家对本国数据进行管理的一种常规手段,“数据本地化”是指在本国收集或来源于本国的相关数据必须在该国境内存储,该措施一般针对“个人数据”和“重要数据”,按照其对跨境数据流动限制的严格程度可以分为三个等级:(1)仅要求数据在本国境内备份,除此之外对跨境数据提供不做过多限制,如俄罗斯和越南要求本国公民的个人数据在本地复制存储;(2)要求数据本地存储,且对跨境数据提供有限制,如中国要求个人数据出境需要用户同意,重要数据出境需经安全评估;(3)要求特定数据仅能本国境内留存和处理,如澳大利亚的《个人控制的电子健康记录法》规定,本国公民的健康数据必须在境内存储和处理,除特定的例外情况,禁止转移到国外。当前已有部分国家开始在特定领域对数据本地化进行尝试,例如,印度通讯技术部于2011年颁布有关印度《信息技术法》实施的若干规定,明确要求在印度境内收集的印度公民个人敏感数据禁止出境,除非经过数据主体确认或形势必要。俄罗斯的《俄罗斯联邦信息、信息化和信息保护法》以及越南的《网络安全法》也有类似的规定。
数据本地化最直接目的是确保数据安全,以应对当前各国频发的网络犯罪以及层出不穷的数报泄露事件。从更深层次角度来说,数据本地化也是维护数据主权的一种有效手段,防止数据霸权国家利用网络侵犯国家主权。数据本地化措施的缘起有其合理性和正当性。但与此同时,跨境数据流动是当前互联网经济及国际贸昌发展最主要的动力,尤其在当前数字贸易兴起的背景下,数据己然成为企业开展贸易最有价值的资源,直接影响其业务棋式和业务效率。因此,数据本地化等限制跨境数据流动的措施可能会对经济发展和国际贸易秩序造成潜在负面影响。
在当前大数据背景下,数据流动对于各国愈发重要,但引发的问题也愈发复杂,在此情况下,各国对数据流动的价值取向发生差异。对于发达国家而言,跨境数据流动能够大幅促进本国经济贸易发展和GDP增长,虽然确实会产生一些负面影响,但由于其互联网产业的高度发展和主导地位,对数据的掌握具有主动性,因此跨境数据流动给发达国家带来的好处远远超出负面影响。而对于发展中国家,由于其在网络监管、数据获取等技术上与发达国家存在差距,在跨境数据流动过程中,往往处于弱势地位,其所面临的国家安全问题、数据获取问题往往更为突出,因此会更加倾向于采取数据本地化的措施以保障国家安全和公民隐私。
三、国际上关于跨境数据安全的法制化进程
3.1 WTO安全例外条款
WTO规则体系中设置了与安全相关的《关税及贸易总协定》GATT1994第21条和《服务贸易总协定》GATS第14条安全例外条款。以条款的形式将国家安
WTO规则中国家安全例外条款的设置是为了调节自由贸易与国家主权之间的平衡。为了成员在多边贸易体系中可以采取相应行为使国家主权不被置于危险境地而设置的,安全例外条款本身具有高弹性,其内涵和外延深受国际发展态势的影响,尤其是当国家开始强化对主权的诉求与维护。 对于出于跨境数据安全的考量适用WTO安全例外条款,无论是从国家安全观与国际形势的实际需求出发,还是从条款本身具有的模糊性与泛化性特征进行解读,其适用都具有一定的合理性。
3.2 欧盟
欧盟一直以来在数据跨境传输的问题上都持较为谨慎的态度,对数据保护有着高标准的欧洲国家开始制定边界阻止数据流向那些没有同样保护标准的国家。欧盟十分注重数据中的个人隐私问题,将其看作人权的一部分。但个人数据的保护与跨境数据流动是两个矛盾却又紧密联系的问题,这种以人权为由限制数据流动的做法反过来引发了对贸易束缚等经济问题的不同担忧,这促使制定了使用和传播个人数据或数据保护标准的发展,以寻求平衡相互竞争的利益。
欧盟采用统一立法模式,以综合性的个人信息保护法律法规对个人信息进行保护。1981 年,欧共体通过了《有关个人信息自动化处理的个人保护协定》,规定了各成员国之间企业对个人信息自动化处理的基本要求。1993年,欧盟正式诞生。1995年,欧盟内部在数据保护方面通过《个人数据保护指令》(以下简称“指令”),指令中明确个人信息(个人数据)的基本涵义和范围,以及企业处理个人信息必须依指令条文执行。该指令成为各个成员国分别立法的指导。后来又颁布了《电子通讯资料保护指令》、《欧洲电子商务行动方案》、《电子通讯数据保护指令》、《私有数据保密法》、《互联网上个人隐私权保护的一般原则》等法律法规,2018年5月欧盟开始实施《通用数据保护条例》(GDPR),该条例被认为是最严格的数据保护立法,欧盟在数据立法上首创了个人数据的跨境流动制度。欧盟设立了专门的个人数据监督管理机构,以监管个人信息工作。
3.3 美国
美国在国际法领域的实践也与国内法的规定一脉相承。不同于欧盟将个人数据保护作为一项基本人权,美国则更多的是将个人数据看作是消费者的一项
全例外这一概念规定在多边贸易协定中,始于1946年的国际贸易组织宪章(ITO Charter)的伦敦草案以及纽约草案,后被纳入《关税及贸易总协定》GATT、《服务贸易总协定》GATS、《与贸易有关的知识产权协议》TRIPS等协定中。其中,脱胎于GATT1947第21条的GATT1994第21条被视为安全例外条款的立法渊源。
近年来随着国际数据主权的兴起,国家安全在美国个人数据跨境规制的地位不断上升,数据主权保护意识进一步强化,美国将国家安全和主权扩张置于规制目标首位。美国于2015年10月通过《网络安全信息共享法案》(Cybersecurity Information Sharing Act of 2015),规定了政府、企业以及公众之间可以在法定条件和程序之下共享网络安全信息,实质强化了国家数据控制权;2018年通过《澄清合法使用海外数据法》(Clarify Lawful Overseas use of Bata Act,以下简称《CLOUD法案》)确立数据控制者原则,以国家安全为事由,赋予了美国政府调取存储于其他国家主权域内数据的权利;2019年11月的《2019美国国家安全与个人数据保护法案》(National Security and Personal Data Protection Act of 2019),在数据传输与存储方面,要求禁止向相关国家传输任何用户数据或可能用于破译该数据的信息,同时禁止在法案定义的国家内存储在美国境内收集的个人用户数据。
3.4 典型判例:欧盟法院判定欧美《安全港协议》、《隐私盾协议》无效
3.4.1欧美对数据保护理念与定位的差异
数据的价值往往来源于其开放性,因为数据的开放性,使得很多人、企业和政府能够在这个流动的过程中获得数据,并通过对开放数据资源进行分析、加工和深度挖掘,创造数据的价值。但是当数据进行跨境流动时,数据主体立刻对其失去了控制。各国就数据保护制订有不同法律,但这些法律倾向于规范公司可以保存何种客户数据、拿这些数据做什么、能保存多长时间,而不是管理政府活动。如果不对跨境数据流动进行有效的管控,就容易出现海量的数据在跨境流动过程中,导致人们的隐私、商业秘密和国家机密文件等敏感数据被泄露的问题,严重的话,甚至还可能会引发经济危机或政治动荡;但限制性太强的数据保护政策将可能造成贸易壁垒,并对业务流程和商业信任产生不利影响。
欧盟法律体系的典型特点是以权利保护为导向,数据主体的权利被上升为基本权利,得到了宪法层面强有力的支持。欧盟法院在司法实践中坚定地捍卫这种权利,其法律依据除了《宪章》第 7、8 条以外,还包括《欧洲人权公约》第8条尊重隐私生活的规定,并且得到了欧洲人权法院的支持,由此在整个欧盟奠定了不能将数据保护交由自由市场支配的理念。
美国在理念上崇尚新自由主义,对数据隐私的保护秉承放任和不干涉的态度。历届美国政府都优先保障创新和技术进步,提倡各行业的自治。
3.4.2 欧美《安全港协议》、《隐私盾协议》的无效
欧盟数据向外流动主要依赖于充分性认定机制。欧盟委员会在评估第三国或地区的法律法规、司法系统、人权保护状况、国防及国家安全体系等因素后,如果认定其数据保护体系强劲有力,能达到与欧盟法“实质等同”、并不要求“完全一样”的保护水平,欧盟可单方面发布对该国的充分性认定决定,如此则数据可以自由地从欧盟传输至该国境内所有的经济组织。鉴于欧盟数据保护的高门槛和高标准,能得到“充分性认定”的国家并不多。由于美国缺少综合性的联邦隐私立法,其数据保护状况未能得到欧盟一揽子的充分性认定。于是,《安全港协议》和《隐私盾协议》应运而生。
3.4.3 欧美跨境数据流动矛盾根源
欧美对数据保护理念与定位、法律实施体系等方面存在巨大差异,无论是基于《安全港协议》、《隐私盾协议》,或是SCCs等其他途径传输到美国的个人数据,都面临被政府部门获取而得不到充分救济的问题。因为这些协议无法约束美国当局的监控行为。而欧盟公民的个人数据一旦传输到美国,其境内的公司亦不可能对抗国家权力,只能按照美国国家安全法律的要求配合提供其控制下的个人数据。正如 Christopher Kuner所言,想要依靠《隐私盾协议》、其他充分性认定或者SCCs这类程序性机制在实践中达到保护数据和基本权利的目标效果,只是一种不切实际的法律想象,因为这些机制都无法为个人数据提供能够对抗外国政府监控和情报收集活动的保护。
权利,进一步来说,在美国看来保护个人数据跨境应当是为了维护公众消费权。而在价值取向方面,相较于保护个人数据安全,美国更看重数据流动所带
来的经济效益。美国因其全球贸易大国的地位,一直以来都极力主张数据的自由流动传输。美国在考虑数据跨境传输的问题上多从全球贸易便利化的角度出发,主张不应对数据的跨境传输过多限制。美国始终认为,限制数据跨境的措c施造成的贸易壁垒不仅仅是非关税贸易壁垒,除此之外,它是保护主义。
欧美双方立场不同,数据跨境流动的矛盾难以调和,很难有根本的解决方案。《隐私盾协议》的失效极大扰乱了欧美之间正常的数据流动。欧美双方能否就数据流动重新达成协议,目前尚未可知。一方面,欧盟法院一心捍卫公民的基本权利并坚守欧盟的价值观念;另一方面,美方似乎也并无修订或者弱化其国家安全法律以维护与欧盟之间数据流动和数字贸易的意愿。
四、中国关于跨境数据安全的法制化进程
我国对网络安全的规制起点几乎与加入国际互联网的时间同步。1994年,在我国全功能接入国际互联网的同时就颁布了第一部网络安全专门性行政法规,即《计算机信息系统安全保护条例》,该条例的颁布与实施标志着我国网络安全法制化进程的正式开启。保护网络与数据的安全也一直是我国一项重要的国家战略。
在“十五”计划(2001-2005年)时期,国家提出健全信息网络体系,强化网络与信息安全保障体系建设。“十一五”规划明确发展网络安全产业,“十二五”提出完善健全网络与信息安全法律法规,“十三五”规划将“建立跨境数据流动安全监管制度”列为重点发展目标,数据跨境流动规制问题得到高度重视。另根据《“十四五”规划和2035年远景目标纲要》,国家提出培育壮大网络安全产业,加强风险评估和审查。从国家规划中可见,网络安全行业始终是国家大力支持发展的行业,同时,且随着相关政策的不断出台,对数据跨境流动行为进行规制在我国已经上升到国际战略的高度。
然而,相较于网络与信息安全在宏观战略高度所受到的重视,我国对数据跨境流动的具体规制则相对较为零散。多年来,我国有关数据跨境流动的规范散见于多项法律法规、部门 规章以及规范性文件中,并未形成一套完整有效的规制框架。直至 2016年,几经修订的《中华人民共和国网络安全法》(以下简称《网络安全法》)正式出台,自2017年6月1日起施行。这是我国首次在法律层面针对个人信息保护构建较为完整的法律制度闭环。中国在发展 过程中对网络安全重视程度的不断增加和中国作为网络大国面临巨大的网络威胁的严峻现状,直接促使了《网络安全法》的颁布。《网络安全法》的立法目的,旨在保障网络安全,维护网络空间主权和国家安全、社会公共利益,保护公民、法人和其他组织的合法权益,促进经济社会信息化健康发展。
为加快数据要素市场的培育,促进数字经济发展,2020年4月9日,中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》首次正式将数据纳入生产要素范围。“十四五”规划涉及数字经济发展的内容占了不少篇幅,其中明确提出要建立健全数据要素市场规则。为此,2021年6月10日,《中华人民共和国数据安全法》(以下简称《数据安全法》)经十三届全国人大常委会第二十九次会议表决通过,自2021年9月1日起施行。
《数据安全法》第一条和第四条提出保障数据安全应坚持总体国家安全观,要维护国家主权、安全和发展利益。第二条则进一步明确了法律条款的适用范围。值得注意的是,在我国境外从事有损中华人民共和国国家安全的数据处理活动也将以本法为依据追究责任。第十七条提出将从国家层面推进数据安全标准体系的建设,正式将数据安全提升至国家安全高度。第二十五条明确国家对与维护国家安全和利益、履行国际义务相关的属于管制物项的数据依法实施出口管制。第三十五条进一步提出,非经中华人民共和国主管机关批准,境内的组织、个人
《数据安全法》作为数据安全领域最高位阶的专门法,与2017年6月1日起施行的《网络安全法》共同完善了《国家安全法》框架下的安全治理法律体系。《数据安全法》基于总体国家安全观,将数据主权纳入国家主权范畴,并进一步将数据要素的发展与安全统筹起来,为我国的数字化转型,构建数字经济、数字政府、数字社会提供法治保障。
五、 小结
全球经济往来中的各个国家针对跨境数据流动设定的规则差异明显。这对于数据跨境中数据安全保护不同的出发点,保护的利益也不尽相同。数字经济发展较快的国家,往往为了数字经济发展的需求对于本国数据跨境规则的制定采取以规则服务经济的态度。
典型代表——美国,推崇数据跨境自由流动,并利用自身经济优势在全球双边与多边的贸易、投资等协定中要求增加相关有利于其经济扩张的数据自由流动的规则条款。以欧盟、日本为代表的发达国家与地区因传统经济发展观念的影响,既希望投身于全球数字经济发展的浪潮,占据世界互联网发展的顶尖位置,不希望美国独占数字市场,又希望本国个人数据安全有所保护。而数字经济发展中较为保守的国家针对数据跨境规则通常以谨慎、有所限制的态度对数据跨境规则进行规定。
谈及发展中国家对数据跨境发展的要求,主要是在双边或多边谈判中发展中普遍处于弱势的地位,因此,发展中国家对于数据跨境流动政策的规定一般处于较为“审慎”的规则模式。另外关于规则制定,相较于其他发达国家,发展中国家关于数据跨境规则的制定上起步较晚,尚处于积极立法,完善体系阶段,来促进本国相关产业发展和维护国家安全。因此,由于各国数据保护体制的差异,使得跨境数据流动在未来的较长时期内必然继续面临诸多困难和挑战。(完)
王洋
商业方法室审查员
不得向外国司法或者执法机构提供存储于中华人民共和国境内的数据。《数据安全法》一方面明确维护国家安全和利益、履行国际义务可作为禁止相关数据出口的合法依据,另一方面强化了对境外司法执法机构提供数据的审批权,充分体现了我国在网络数据空间主张数据主权的立法思想和主张。
胡百乐
原审查员
人工智能(AI)技术的发展正在改变人类现有的生产、生活和交往方式,各国也越来越重视对其未来发展和影响进行探讨和研究。人们也越来越意识到,人工智能对现今的法律规则尤其是专利体系也带来了一定的挑战。
目前,世界各国/地区的专利国际交流不断深入,然而对可授权的专利性要求仍缺乏统一的国际通行标准,专利审查实践中掌握的尺度不尽相同,导致相同的 AI 发明专利申请在不同国家/地区获得的审查结论有所差别。在此情况下,有必要对不同国家/地区的审查规则进行研究。本文对中美欧日韩五局就 AI 发明的专利法律法规以及相关实质性问题进行对比分析,希望对该领域的专利审查工作有所帮助。
一、AI 发明的类型
人工智能(Artificial Intelligence, AI),是指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序的手段实现的类人智能技术,属于计算机科学的一个分支。
在专利范畴,各局普遍认为,将涉及 AI 的发明分为两种类型:一种是借助 AI 作为工具完成的发明,另一种是由 AI 自身独立创造出来的发明。还有一种观点是将其细化为三类:由自然人提出问题并构思方案,AI 进行验证而完成的发明;由自然人提出问题,其他由 AI 完成的发明;以及由 AI 独立完成的发明。第二种分类方式实质上是将第一种分类方式中的第一种类型细化为两种类型。
目前五局受理和审查的主要是将 AI 作为工具完成的发明。由 AI独立完成发明的案例,如以机器人DABUS为发明人的EP18275174等,也已出现,但相关审查标准还在探索阶段。因此,下文中就法律规定和审查实践的讨论,是以当前涉及 以AI 为工具完成的发明为基础的。但是不排除公开充分、客体判断等审查规则适用于 AI 独立完成的发明的审查。
二、AI 发明的公开充分要求
(一)公开充分的法律法规
各局对一般领域发明的充分公开要求均有相关条款规定。各局都基本认同 AI 发明属于计算机实现的发明。
从上表可以看出,为了使得本领域普通技术人员能够在原始说明书和权利要求书公开内容的基础上作出和使用该发明,尽管表述方式不同,但五局对充分公开的实质性条件都涉及了“清楚”、“完整”从而避免“黑匣子”问题。五局对公开充分要求的表述上近似,都限定“必须对发明作出清楚、详尽(KIPO)/充分(JPO)/完整(EPO、USPTO、CNIPA)地说明,以使发明所属领域的普通技术人员能够容易地实施该发明”。此外,USPTO 和 CNIPA 还从法律规定层面对撰写规范提出了要求,USPTO 规定说明书还应该阐述发明人或共同发明人实施本发明所考虑的该发明的最佳实施方式,而 CNIPA 则规定必要时应提供附图。
五局对于涉及 AI 发明的充分公开要求都没有专门的法律规定,充分公开的审查适用一般领域的审查标准:公开的程度必须使得本领域技术人员能够制造和使用该产品或使用该方法。
(二)AI 发明的“黑匣子”问题
AI 发明,输入的初始数据是明确的,算法或模型也是确定的,然而输入数据与输出数据以及两者间的逻辑关系,AI是怎么由机器来执行,有时难以判断,这就带来了“黑匣子”问题。无论这样的问题是申请人刻意为之或无意导致,各局都会在专利审查中要求其充分公开。
各局都通过上述法律条款来约束申请文件的撰写以避免将“黑匣子”专利授权。如果申请没有以足够清楚和完整/详尽/充分的方式公开本发明以使其由技术人员实现,则将被拒绝。
USPTO 目前对 AI 充分公开的要求,适用一般标准。对于功能、软件的描述,如果本领域技术人员不知道相关算法,就不只是黑匣子的问题,还有不知道实现什么目的的问题。从功能的角度,对于计算机实施的发明,必须以足够的细节描述执行该功能所采用的算法或步骤/过程,以使本领域普通技术人员理解和预期发明人所要执行的功能。如果仅是简单地重述权利要求中所述的功能,即没有解释用于执行计算机功能的算法或步骤/过程或者没有充分详细解释,则会认为公开不充分。对于撰写的形式要求,USPTO 不要求在申请文件中解释怎么运行硬件或执行程序。
EPO 要求在申请文件中要指出执行或实现 AI 的硬件。在审查指南第 F 部分第 III 章中对充分公开的一般性要求中还规定:为完全满足专利法第 83 条和实施细则第 27(1)条c-e 的要求,发明不仅应当公开结构,也应当公开功能,除非各个部分的功能是直接的明显的。也就是说,必须向技术人员提供关于发明的结构和功能的足够信息。在有些领域(例如计算机)对功能的清楚描述比对结构进行超细描述更加清楚。在审查实践中,公开的充分性取决于每个特定案例的事实以及技术领域的具体特征,但通常可以通过公开算法和训练数据使技术人员能够再现 AI 算法的结果。通过将实现 AI 算法的结构和功能信息以及训练数据在专利申请中公开,来满足 EPC 第 83 条的公开充分要求。
JPO 在审查中的标准是:当本发明是“产品”时,该描述应该足以公开,以便能够由本领域技术人员制造和使用该产品;当本发明是“过程”时,该描述应该足以公开以能够由本领域技术人员使用该过程。对于使用 AI 的发明,在可以再现 AI 算法结果的情况下,公开算法以及相关训练数据足以满足充分公开。同时,AI 的贡献有多大,对于解决技术问题的贡献程度,都将成为影响充分公开的因素。
KIPO 对于在说明书中仅模糊地陈述与要求保护的发明相对应的技术步骤或功能,而没有描述如何在硬件上实现步骤或功能,根据本领域的一般知识和本申请的说明书和附图描述,本领域技术人员不能容易地制造和使用该发明,则认为该发明不能满足充分公开的要求。这与 EPO 在撰写形式上要求满足硬件结构的要求是相同的。
我局在《专利审查指南(2010 年)》第二部分第 9 章第5.1 节对涉及计算机程序的发明专利申请的充分公开做了规定,适用于 AI 的充分公开审查。具体规定如下:说明书除了应当从整体上描述该发明的技术方案之外,还必须清楚、完整地描述该计算机程序的设计构思及其技术特征以及达到其技术效果的实施方式。以自然语言对计算机程序的各步骤进行描述,描述程度以本领域技术人员能够根据说明书记载的流程图和说明编制出相应的计算机程序为准。
从五局的审查实践可以看出,对于与 AI 发明点相关的必要技术特征(算法、训练数据等)要求必须充分公开,以避免刻意或无意造成的“黑匣子”问题。
(三)可再现性问题
在具体的 AI 技术实施中,同样的输入数据、采用相同的算法、基于同样的机器学习过程/模型,输出结果可能不完全相同,即结果的不可再现,这在一定程度上会对是否满足公开充分提出质疑。
对于这种情况,各局普遍掌握的审查规范是,在理论上运算结果应该是一致的,如果结果是任意或随机的,则会导致公开不充分。但审查实践中,各局更多地是从鼓励发明创造的角度考虑,对于已经充分公开发明点的申请,尽管结果不一定完全一样,但是如果已经充分描述了相关数据、算法、模型等情形,就是可接受的。也就是说,充分公开要求针对的是发明点提出的。例如,如果发明点在于机器学习,在充分公开全部训练数据以及机器学习过程的情况下,即使结果有一定的差别,只要是在一定可接受范围内,就是可以接受的。
三、涉及 AI 的客体判断
(一)客体相关法律法规
从客体条款来看,EPO 第 52 条与 CNIPA 第 25 条第 1 款的表述类似,都以非穷举的方式给出了不授予专利权的主题。JPO 和 KIPO 的法律规定和表述实质上基本相同。USPTO的35 U.S.C 第101 条的表述和CNIPA第2条第2款的表述在语义上相近似。
在法律规定层面,对于 AI 发明的客体审查,各局适用一般的规则,具体适用计算机实施的发明的客体判断标准。从审查实践来看,目前各局普遍适用的判断标准是,包括数学方法在内的抽象概念不具有可专利性,如果 AI 使用技术手段解决了技术问题,则可以认为它具有可专利性。对于单纯的算法/数学方法发明,五局均认为属于抽象概念,不属于专利保护的客体。对于将 AI 技术应用于某领域,各局在审查实践中存在一定差异。
(二)客体审查实践比较
自 2014 年 6 月的 Alice 案(降低结算风险案)以及同年12月16日颁布专利法第101条可专利性的审查指南之后,依照美国最高法院的司法判例,USPTO 对客体审查更为慎重,对于抽象概念的把握相对于其他专利局更加严格。对于 AI发明的客体审查,USPTO 在其专利审查程序手册(MPEP)第9 版(2018 年 1 月修订)第 2106 节中规定了四种法定类型(方法、机器、制造品或组合物)的例外,即抽象概念、自然法则和自然现象(包括自然产物)不属于专利保护的客体。
EPO 在 2018 年 11 月 1 日生效的审查指南第 G 部分第 II章在客体审查的“数学方法”主题类别中新增了第 3.3.1 节关于 AI 申请的判断规则,对于单纯基于计算模型和算法本身的 AI 发明,无论其是否是基于训练数据的训练,都属于被排除的抽象概念。而当 AI 应用于某领域时,则要判断其是否出于技术目的来进行客体审查。对抽象数据记录甚至“电信网络数据记录”进行分类而没有任何技术用途表明由此产生的分类,即使分类算法可能被认为具有有价值的数学特性,例如鲁棒性(T 1784/06),也不属于技术目的,因此将被排除在保护客体之外。
例如,数字图像、视频、音频或语音信号的分类是分类算法的进一步典型技术应用,如果是基于低级特征(例如,图像的边缘或像素属性)的数字图像、视频、音频或语音信号的分类,则被认为是分类算法的进一步典型的技术应用,对技术性做出贡献;而仅就其文本内容对文本文档进行分类则不被视为技术目的而是语言目的(T 1358/09)。
JPO 和 KIPO 强调发明必须利用自然法则,未使用自然法则的发明,例如数学方法,不属于保护客体。JPO 审查指南第二部分第一章关于“发明”的定义中给出因没有利用自然法则而被客体排除的内容:如果所要求的发明是任何不同于自然法则的法则(例如经济学法则)、任意的安排(例如进行游戏的规则一类的),数学方法或者是智力活动,或是这些法则的使用(例如商业方法一类的),这些发明被认为是非法定的,因为它们没有利用自然法则。若 AI 发明是采用计算机实施的发明,则落入利用自然法则的范畴,属于可专利保护的客体。
我局专利审查指南(2010)第二部分第一章对于技术方案的定义做了进一步规定:如果涉及计算机程序的发明专利申请的解决方案执行计算机程序的目的是解决技术问题,在计算机上运行计算机程序从而对外部或内部对象进行控制或处理所反映的是遵循自然规律的技术手段,并且由此获得符合自然规律的技术效果,则这种解决方案属于专利法第 2条第 2 款所说的技术方案,属于专利保护的客体。但是,中日韩三局对于 AI 独立完成发明的客体判断并没有进一步的规定。
从撰写规范来看,EPO 强调只要有技术特征就可以满足客体要求,而在后续创造性判断时考量是否对解决特定问题有技术贡献。USPTO 强调发明中要涉及技术应用。KIPO则强调申请文件撰写时要阐明软硬件之间的关系,规定为了获得专利资格,计算机实施的发明应符合“专利法”规定的发明的定义。为此,应通过使用硬件具体地实现软件的数据处理。若 AI 实施的发明的核心是在训练数据上体现训练模型,判断、决策、分析等步骤包括在数据处理过程中,那么为了获得专利资格,在撰写专利申请时,应明确权利要求中描述的判断、决策等步骤不需要人为干预。
四、AI 发明的创造性审查
(一) 创造性相关法律法规
在创造性标准方面,五局都有专门的法律规定,并且从上面的对比表可以看出,尽管措辞上有所不同,但不存在本质上的差别,都要求在现有技术的基础上评判对于所属领域的技术人员而言是否显而易见。
在具体判断方法方面,各局普遍采用“三步法”对方案整体做出创造性评价。EPO 和 CNIPA 在创造性审查实践中也遵循了整体考量这一原则,EPO 对于解决技术问题的技术特征和非技术特征都会考虑, CNIPA 方案判断是否解决技术问题、达到技术效果的判断思路与EPO类似。
(二)整体判断原则
EPO 进行创造性判断时与其他领域一样总体上是采用“问题解决法”(problem-solution approach)。具体在审查指南第 G 部分第 VII 章第 5.4 节对包含技术和非技术特征的权利要求的创造性判断做出了规定。计算机实施的发明常常撰写为包含技术性特征和非技术性特征的混合型权利要求。这些非技术性特征在方案中如果确实有助于产生服务于技术目的的技术效果,则认为做出了技术贡献,即整体而言是非显而易见的。但是如果仅有助于解决某个非技术问题,则不会带来技术贡献。也就是说,非技术特征也有可能带来技术贡献。具体到 AI 发明,要考察算法或数学运算能否为方案的技术目的的实现带来技术贡献。
JPO 在创造性判断中对于申请文件中声称的问题都会进行评价,因此不刻意区分技术特征和非技术特征,如果与现有技术存在区别,则整体上审视其显而易见性。例如,一种玩游戏的方法,与现有技术存在区别,不排除其满足创造性要求的可能。
CNIPA 在审查指南第二部分第四章一般领域的创造性判断方法中指出,要确定的是现有技术整体上是否存在某种技术启示,即现有技术中是否给出将上述区别特征应用到该最接近的现有技术以解决其存在的技术问题(即发明实际解决的技术问题)的启示,这种启示会使本领域的技术人员在面对所述技术问题时,有动机改进该最接近的现有技术并获得要求保护的发明。如果现有技术存在这种技术启示,则发明是显而易见的。在此框架下,与计算机实施的发明的判断标准相同,基于 AI 发明与现有技术的区别,确定其实际解决的问题及其产生的效果是否具备技术性,如果是非技术的,则会因没有带来技术贡献而否定其创造性。
KIPO 在审查实践中则更多的是从本领域技术人员是否容易想到的角度来进行判断。USPTO 更多是基于事实(现有技术证据)基础上做出创造性判断。
从以上分析可以看出,在创造性评价中,五局均认为 AI发明相对于其他领域没有特殊性,因此适用一般领域的判断标准。
然而,我们也意识到,AI 技术的使用以及 AI 独立创造的发明,其在发明整体方案中发挥的作用以及可预测性,及其作为常规技术手段之后,在一定程度上,可能会对显而易见性的判断提出更高要求。
五、结束语
AI 等先进技术的发展和进步,对“本领域普通技术人员”应当具备的能力也提出了更高要求,也对原有的审查政策提出了更多的挑战,审查员需要持续深入学习相关技术知识、提升审查能力来更好地应对 AI 发展带来的挑战,专利保护政策制定中也要考虑如何更好服务于新技术的持续创造和进步,为世界一流审查机构建设和更好的营商环境建设奠定良好基础。(完)
大数据室审查员
刘芳
大数据室46期审查员,审查领域涉及信息检索、数据库、 图像处理等
欧洲专利局2022版审查指南关于软件的可专利性修改
欧洲专利局2022版审查指南
关于软件的可专利性修改
一、背景
2022年3月1日,欧洲专利局(EPO)2022年版审查指南正式实施生效。与往年相比,新版审查指南的修订较少,主要更新对软件的可专利性指南、部分优先权和相关描述。其中涉及软件的可专利性指南的更新主要包括:补充修订关于计算机实施发明的数学方法(G-II 3.3)、算法与信息呈现(G-VII 5.4.2.4)、人工智能(G-VII 5.4.2.5)、模拟(G-II 3.3.2、3.5.2和3.6.3)。
计算机实施的发明(CII)是指涉及使用计算机、计算机网络或其它可编程设备,所具有的一个或多个特征是全部或部分通过计算机程序实现的发明。EPO新版审查指南中对CIIs的审查主要包括可专利性要求的审查指导,特别是当权利要求中包含技术特征和非技术特征时,这在CIIs中是常见的,有些章节中给出了如何评价与Art.52(2)列表相关的特征。
二、关于数学方法(G-II 3.3)的修订
在EPO新版审查指南中涉及数学方法的修订包括以下内容:
(1)涉及措辞表述的修订,修订前在判断数学方法对发明的技术特性是否做出贡献时,需要判断数学方法是否用于技术目的,修订后要判断该数学方法是否能够产生服务于技术目的的技术效果。
(2)修订增加了:如果数学方法的步骤是从物理性质的测量中推导得出或从预测现有真实物体的物理状态中得到,如间接测量的情况,无论结果有何用途这些步骤都是有技术贡献。即肯定了由推导、预测等间接测量方式得到的数学方法的步骤是有技术贡献的。
(3)修订增加了:独立于任何技术应用而对技术性作出贡献的数学方法示例,如示例1:利用技术系统的特定技术特性以产生的技术效果,例如有效使用计算机存储容量或网络带宽;以及示例2:将机器学习算法的数据密集型训练步骤的执行分配给图像处理单元,将准备步骤分配给中央处理单元,以利于计算平台的并行架构。权利要求应指明在GPU和CPU上实现这些步骤,以使这种数学方法对技术性有贡献。
下面是G-II 3.3节数学方法部分的修改对照内容,红色为删除,绿色为新加:
G-II 3.3 数学方法
数学方法在解决各技术领域的技术问题时起着重要作用。但是,基于Art.52(2)(a),数学方法本身(Art.52(3))的权利要求被排除在可专利性范围之外。
如果权利要求仅涉及纯粹抽象的数学方法且不需要任何技术手段,则排除在可专利性之外。例如,用于对抽象数据进行快速傅里叶变换的方法是一种数学方法本身,该方法没有具体使用任何技术手段。纯粹抽象的数学对象或概念,例如特定类型的几何对象或具有节点和边缘的图形不是一种方法,也不是Art.52(1)意义上的发明,因为缺乏技术特性。
如果权利要求涉及一种使用技术手段(例如计算机)的方法或一种设备,则该主题整体上具有技术特性,不被排除在Art.52(2)和(3)规定的可专利性之外。
仅仅指定数学方法的数据或参数的技术性质不足以定义Art.52(1)意义上的发明,因为所得到的方法仍属于被排除的智力活动方法本身(Art.52(2)(C)和(3),参见G-II 3.5.1)。
一旦权利要求作为一个整体不被Art.52(2)和(3)规定的可专利性所排除,属于Art.52(1)意义上的发明,则需要就其它可专利性条款对其进行审查,特别是新颖性和创造性(G-I 1)。
为了评估创造性,必须考虑所有对发明的技术特性作出贡献的特征(G-VII 5.4)。当要求保护的发明基于数学方法时,就需要评估该数学方法对发明的技术特性是否作出贡献。
数学方法可能会对发明的技术特性作出贡献,即通过其应用于某一技术领域和/或被适应于特定的技术实施,从而对技术目的的技术效果作出贡献。评估这两种情况的标准解释如下。
技术应用
当评估数学方法对发明的技术性所做的贡献时,必须考虑在本发明的上下文中该方法是否用于技术目的(T1227/05,T1358/09).该数学方法是否能够产生服务于技术目的的技术效果。
数学方法用于技术目的示例如下:数学方法的技术贡献示例如下:
--控制某一特定的技术系统或过程,例如X射线装置或钢冷却过程;
--通过测量压实机的经过次数,确定所需材料密度
--数字音频、图像或视频的增强或分析,例如去噪、检测数字图像中的人、评估传输的数字音频信号质量:
--语音信号的信号源分离;语音识别,例如将语音输入转化为文本输出;
--用于可靠和/或有效传输或存储的数据编码(和相应的解码),例如,用于在噪音信道上传输的数据的纠错编码,音频、图像、视频或传感器数据的压缩:
--加密解密或电子通信的签名:在RSA(公开密钥密码体制)加密系统中生成密钥
--优化计算机网络中的负载分配;
--通过处理从生理传感器获得的数据来确定受试者的能量消耗;从耳温检测器获得的数据推导出对象的体温;
欧洲专利局2022版审查指南关于软件的可专利性修改
--提供基于DNA样本分析的基因型估计,并提供该估计的置信区间以量化其可靠性;
--通过处理生理测量的自动系统提供医学诊断:
--在技术相关条件下,模拟适当定义的技术项目或特定技术过程的行为(参见G-II,3.3.2)。
诸如“控制技术系统”之类的一般目的不足以赋予数学方法技术特性,技术目的必须是特定的。
此外,仅仅是数学方法可用于技术目的这一事实也是不充分的。权利要求在功能上应明确地或隐含地限于该技术目的。这可以通过在技术目的和数学方法步骤间建立足够的联系而实现,例如,通过指定与技术目的有关的数学步骤的输入和输出序列,使得数学方法与技术效果建立因果关系,参阅G-VII,5.4.2.4的示例。
定义输入数学方法的数据的性质并不一定意味着数学方法对发明的技术特性有贡献(T2035/11,T1029/06,T1161/04)。数学方法是否用于技术目的主要取决于其提供的结果的直接技术相关性。
如果数学方法的步骤是从物理性质的测量中推导得出或从预测现有真实物体的物理状态中得到,如间接测量的情况,无论结果有何用途这些步骤都是有技术贡献。
技术实施
如果权利要求是针对数学方法的特定技术实施,并且数学方法的设计是由计算机系统或网络内部功能的技术考虑而驱动的,这使得该数学方法特别适用于该实施,则该数学方法也可以独立于任何技术应用而对本发明的技术性作出贡献(T1358/09,G 1/19)。如果数学方法的设计目的是利用技术系统的特定技术特性以产生技术效果,例如有效使用计算机存储容量或网络带宽,则可能会发生这种情况。例如,利用与计算机硬件学长匹配的字长偏移而做出的多项式减少算法的调整就是基于这样的技术考虑,并且对该算法的有效的硬件实施产生了技术效果。另一个例子是将机器学习算法的数据密集型训练步骤的执行分配给图像处理单元,将准备步骤分配给中央处理单元,以利于计算平台的并行架构。权利要求应指明在GPU和CPU上实现这些步骤,以使这种数学方法对技术特征有贡献。
如果数学方法不用于技术目的并且所要求保护的技术实施未超出一般技术实施的范围,则该数学方法未对发明的技术特性作出贡献。在这种情况下,数学方法在算法上不够比现有技术的数学方法更有效(参见G-II 3.6)。
计算效率
如果数学方法不是用于技术目的,并且所要求保护的技术实现没有超出一般的技术实现,则数学方法对本发明的技术特征没有贡献。在这种情况下,仅数学方法在算法上比现有技术的数学方法更有效以建立技术效果是不够的(也参见G-II 3.6)。
然而,如果确定数学方法由于已经应用于技术领域和/或适于特定技术实现而产生技术效果,则在评估发明步骤时要考虑影响所确定的技术效果的步骤的计算效率。计算效率的提高视为技术效果的示例参见G-II 3.6.4。
三、关于算法与信息呈现(G-VII 5.4.2.4)的修订
在EPO新版审查指南G部分第VII章第5.4.2.4的修订包括删除了数值模拟的案例,修改为涉及算法与信息呈现的案例,该案例涉及确定建筑物表面存在增加的冷凝风险区域的计算机实现的方法,其中包括按照G-VII 5.4节规定的基于COMVIK的问题-解决方法的步骤进行创造性判断的具体分析步骤。即对区别是算法或数学方法步骤、信息呈现的特征首先考虑是否对发明的技术性有贡献,然后再判断客观技术问题和显而易见性。对于未产生技术效果的信息呈现,它不具有技术贡献,在创造性分析中不予考虑。
下面是G-VII 5.4.2.4节的修改对照内容,其中红色字体为删除部分,绿色字体为新加入部分:
G-VII 5.4.2.4 案例4
权利要求1:
一种确定建筑物表面存在增加的冷凝风险区域的计算机实现的方法,包括以下步骤:
(a)控制红外(IR)相机以捕获所述表面的温度分布图像;
(b)接收在过去24小时内在所述建筑物内部测量的所述空气温度和所述相对空气湿度的平均值;
(c)基于所述平均空气温度和平均相对空气湿度计算在表面上存在冷凝风险的冷凝温度;
(d)将图像上各点的温度与所述计算的冷凝温度进行比较;
(e)将具有低于所计算的冷凝温度的图像点识别为表面上具有增加的冷凝风险的区域;以及
(f)通过以特定颜色对步骤(e)中识别的图像点进行着色来修改图像,以向用户指示冷凝风险增加的区域。
采用G-VII 5.4节规定的问题-解决方法的步骤:
步骤(i):步骤(a)中的IR照相机的控制明显地作出了技术贡献。问题是步骤(b)至(f)是否也对所要求保护的主题的技术性有贡献。
单独考虑,步骤(b)到(e)涉及算法/数学步骤,并且步骤(f)定义了信息的呈现。然而,权利要求并不涉及需排除的精神行为、数学方法或信息的呈现(其将从Art.52(2) (a)、(c)、(d)和(3)规定的专利性中排除),因为所要求保护的主题涉及诸如计算机的技术手段。
因此,必须评估算法和数学步骤以及与信息呈现相关的步骤在本发明的上下文中是否有助于产生技术效果,从而有助于本发明的技术性。
欧洲专利局2022版审查指南关于软件的可专利性修改
由于上述算法和数学步骤(b)到(e)用于从物理属性(IR图像、测量的空气温度和随时间的相对空气湿度)的测量来预测现有真实对象(表面)的物理状态(冷凝),所以它们有助于实现技术目的的技术效果。此处的适用与如何使用表面冷凝风险的输出信息无关(参见G-II 3.3节,特别是“技术应用”小节)。因此,步骤(b)至(e)也有助于本发明的技术性。
关于步骤(f)是否做出技术贡献的确定被推迟到下面的步骤(iii)。
步骤(ii):文献D1公开了一种用于监测表面以确定在其上形成凝结的风险的方法。基于通过IR高温计获得的表面上单个点的温度读数与基于实际环境空气温度和相对空气湿度计算的冷凝温度的差来确定冷凝的风险。然后,将差值的数值显示给用户,作为在所述点上冷凝的可能性的指示。该文献被认为是最接近的现有技术。
步骤(iii):权利要求1的主题和D1之间的区别是:
(1)使用IR照相机(而不是D1的IR高温计,其仅捕获表面的单个点处的温度);
(2)接收在过去24小时内在建筑物内测量的空气温度和相对空气湿度的平均值;
(3)基于平均空气温度和平均相对空气湿度计算冷凝温度,并将其与表面的IR图像上的每个点处的温度进行比较;
(4)将具有低于所计算的冷凝温度的图像点识别为所述表面上具有增加的冷凝风险的区域;
(5)采用颜色用于指示冷凝风险增加的区域。
如上所述,区别特征(1)-(4)有助于所要求保护的主题的技术性,并且必须在判断技术问题时考虑上述区别特征。这些特征产生了更精确和可靠地预测凝结风险的技术效果,这是由于考虑了所有的表面面积(与单个点相对)并且考虑了一天的时间期间的温度变化。
区别特征(5)定义了向用户呈现信息的特定方式(Art. 52(2) (d)),该方式不产生技术效果,因为使用颜色而不是数值来显示数据的选择的任何效果取决于用户的主观偏好:一些用户可能更喜欢前者,而另一些用户更喜欢后者(参见G-II 3.7)。因此,该特征没有作出技术贡献。它不能支持创造性,并且在分析中不作进一步讨论,因为它与其它区别特征无关。
步骤(iii) (c):因此,客观技术问题被表述为如何以更精确和可靠的方式确定表面上凝结的风险。
显而易见性:使用IR照相机来获得表面上的温度读数可以被认为是热成像领域的常规技术发展,而不需进行任何创造性劳动:IR照相机在有效申请日前是众所周知的。使用IR照相机是使用IR高温计测量所监测表面上的若干点处的温度的直接替代方案,以便本领域技术人员得到表面的温度分布。
然而,D1没有教导考虑表面上的温度分布(与在单个点处相对)和计算空气温度的平均值以及考虑过去24小时内建筑物内部测量的相对空气湿度。也没有教导考虑随着时间过去可能实际发生在建筑物内部的不同条件来预测凝结的风险。
假设没有其它现有技术教导由区别特征(1)-(4)所限定的客观技术问题的技术方案,则权利要求1的主题具备创造性。
备注:
该实施例阐述了G-VII 5.4节第二段中所提到的情况:当孤立地考虑时,这些特征是非技术性的,但是在所要求保护的发明的上下文中确实有助于产生服务于技术目的的技术效果(特征(b)至(e),它们是算法/数学步骤)。由于所述特征有助于本发明的技术性,因此它们可以支持创造性的存在。
权利要求1:
一种用于对经受1/f噪声的电子电路的性能进行数值模拟的计算机实现的方法,其中:
(a) 该电路由具有输入通道、噪声输入通道和输出通道的模型描述;
(b) 输入通道和输出通道的性能由随机微分方程组描述;
(c) 针对存在于输入信道上的输入向量和存在于噪声输入信道上的1/f分布随机数的噪声向量y计算输出向量;
(d) 噪声矢量y由以下步骤生成:
(d1)设置要生成的随机数的数目n;
(d2)生成高斯分布随机数的长度为n的向量x;
(d3)通过将所述向量x乘以根据等式E1*定义的矩阵L来生成所述向量y。
假设在权利要求中明确地指定了公式E1。
背景技术:本发明涉及一种由计算机执行的用于对受到1/f噪声影响的电子电路的性能进行数值模拟的方法,该噪声是电子电路中的主要噪声源之一。特征(a) - (c)指定了在数值仿真中使用的数学模型。它涉及1/f分布的随机数的噪声矢量Y,即具有典型的真实(物理) 1/f噪声的特定统计特性的随机数。步骤(d1) - (d3)定义了用于产生这些随机数的数学算法。根据该描述,该数学算法在生成仿真所需的随机数所需的计算时间和存储资源方面特别有效。
采用根据G-VII 5.4节的问题-解决方法的步骤:
步骤(i):使用计算机来执行所要求保护的方法是一个明显的技术特征。问题是其它特征,特别是步骤(d1) - (d3)的数学算法,是否也对所要求保护的主题的技术特征有贡献。单独考虑,步骤(d1) - (d3)表示没有技术特征的数学方法。然而,权利要求并不涉及这种数学方法(其将被排除在Art.52(2) (a)和(3)的专利性之外),而是限于一种计算机实现的方法,其中这种数学方法用于受到1/f噪声影响的电子电路的性能的数值模拟,这被认为是技术目的(G-II 3.3)。
欧洲专利局2022版审查指南关于软件的可专利性修改
特征(a) - (c)通过指定在仿真中使用的数学模型以及在其中如何使用所生成的噪声矢量y,确保权利要求在功能上限于该技术目的,即,它们建立了方法的所述目的与步骤(d1) - (d3)之间的联系。此外,由特征(a) - (c)指定的数学模型定义了如何执行数值模拟,因此也有助于上述技术目的。结果,与电路仿真相关的所有步骤,包括数学表达的权利要求特征(d1) - (d3),在它们与电路仿真相关的程度上对该方法的技术特性有贡献。
步骤(ii):文献D1被选择为最接近的现有技术,其公开了一种用于对经受1/f噪声的电子电路的性能进行数值模拟的方法,该方法具有步骤(a) - (c),但是具有用于生成1/f分布的随机数的不同的数学算法。
步骤(iii):权利要求1和D1的方法之间的区别在于用于生成1/f分布的随机数的向量的数学算法,即步骤(D1) - (D3)。由步骤(D1) - (D3)定义的算法比D1中使用的算法需要更少的计算机资源。在所要求保护的方法的上下文中,这直接导致遭受1/f噪声的电子电路的性能的数值模拟所需的计算机资源的减少,这是在D1上实现的技术效果。
步骤(iii) (c):关于D1解决的客观技术问题被表述为如何以需要较少计算机资源的方式生成在经受1/f噪声的电子电路的性能的数值模拟中使用的1/f分布随机数。
显而易见性:现有技术没有教导由步骤(d1) - (d3)定义的算法作为目标技术问题的解决方案。因此,认为所要求保护的本发明具有创造性。
备注:该案例阐述了G-VII 5.4节第二段中所提到的情况:当孤立地考虑时,这些特征是非技术性的,但是在所要求保护的发明的上下文中确实有助于产生用于技术目的的技术效果。这些特征被认为是对本发明的技术性的贡献,因此可以支持创造性存在。
注意,如果权利要求不限制于经受1/f噪声的电子电路的数值模拟,则由步骤(d1) - (d3)定义的数学算法将不用于任何技术目的,并且因此将不被认为对权利要求的技术性有贡献(与其自身在这方面不够的另一数学算法相比,需要更少的计算机资源;参见G-II 3.3)。
四、关于人工智能(G-VII 5.4.2.5)的修订
EPO新版审查指南G部分第VII章第5.4.2.5节的修订包括新增该小节的人工智能创造性案例,该案例涉及基于神经网络通过控制器调节热喷涂工艺参数涂覆工件的方法,其中包括按照G-VII 5.4节规定的基于COMVIK的问题-解决方法的步骤进行创造性判断的具体分析步骤。即对区别是人工智能相关的计算模型和算法的特征,首先判断是否有助于产生用于技术目的的技术效果,然后判断客观技术问题和显而易见性。客观技术问题必须从客观事实出发并由与权利要求的技术特征有直接的、因果关系的技术效果中导出。
下面是G-VII 5.4.2.5节的修改对照内容,其中红色字体为删除部分,绿色字体为新加入部分:
G-VII 5.4.2.5 案例5
权利要求1:
一种使用热喷涂工艺涂覆工件的方法,所述方法包括:
(a)使用喷涂射流通过热喷涂将材料施加到所述工件;
(b)通过检测所述喷涂射流中的颗粒的性质并将所述性质作为实际值提供来实时监控所述热喷涂工艺;
(c)将实际值与目标值进行比较;
并且,在实际值偏离目标值的情况下,
(d)基于神经网络通过控制器自动调节用于热喷涂工艺的工艺参数,所述控制器是神经模糊控制器,其组合神经网络和模糊逻辑规则,从而映射神经模糊控制器的输入变量和输出变量之间的统计关系。
背景技术:本发明涉及工业过程的控制,即工件的热喷涂涂层。用于涂层的材料在载气的帮助下被注入高温射流中,在高温射流中材料被加速和/或熔化。即使涂覆操作的参数看似恒定,所得涂层的性能也会发生很大的波动。用CCD照相机视觉监测喷雾射流。由摄像机拍摄的图像被发送到图像处理系统,从该图像处理系统可以导出喷雾射流中的颗粒的特性(例如,速度、温度、尺寸等)。神经模糊控制器是一种将神经网络与模糊逻辑规则相结合的数学算法。
采用基于COMVIK的问题-解决方法的步骤:
步骤(i):该方法涉及热喷涂,即一种特定的技术工艺,包括各种具体的技术特征,例如颗粒、工件、喷涂装置(隐含的)。
步骤(ii):文献D1公开了一种用于控制热喷涂工艺的方法,该方法通过使用喷涂射流将材料施加到工件,检测所述喷涂射流中的颗粒的性质的偏差,并且基于神经网络分析的结果自动地调整工艺参数。该文献代表了最接近的现有技术。
步骤(iii):权利要求1和D1的方法之间的区别包括使用组合了如步骤(d)的第二部分中规定的神经网络和模糊逻辑规则的神经模糊控制器。
与人工智能相关的计算模型和算法本身具有抽象的数学性质(G-II 3.3.1)。将神经网络分析和模糊逻辑的结果组合的特征定义了一种独立采用的数学方法。然而,与调节工艺参数的特征一起,其有助于控制涂覆工艺。因此,数学方法的输出直接用于控制特定的技术过程。
具体技术过程的控制是一种技术应用,参见G-II 3.3节 (“技术应用”小节)。总之,区别特征有助于产生用于技术目的的技术效果,并由此有助于本发明的技术性。因此,在创造性评估中要考虑到这一点。
步骤(iii) (c):客观技术问题必须从客观事实出发并由与权利要求的技术特征有直接的、因果关系的技术效果中导出。
欧洲专利局2022版审查指南关于软件的可专利性修改
在本例中,仅仅使用神经网络分析和模糊逻辑的结果的组合来计算参数而没有关于对热喷涂工艺的具体适用的任何细节的事实不能可靠地确保除了工艺参数的不同调整之外的任何技术效果。特别地,没有发现有证据能够确认由权利要求1的特征的组合产生的涂层性质或热喷涂方法的质量有任何提高。在没有证据的情况下,其客观技术问题是提供一种已经在D1中解决的调整控制热喷涂工艺的工艺参数的问题的替代解决方案。
显而易见性:从D1的教导开始,并且任务是解决上述客观技术问题,控制工程领域的技术人员(G-VII 第3节)将寻找替代的解决方案来确定该方法的控制参数。
第二篇现有技术文献D2公开了神经网络和模糊逻辑规则的组合,其提供了控制工程技术领域中的神经模糊控制器。从该现有技术中,显而易见的是,在本申请日前神经模糊控制器是公知的并应用于控制工程领域。因此,本解决方案被认为是显而易见的替代方案,使得权利要求1的主题不具有创造性。
备注:
本案例示出了这样的情况,其中,当孤立地考虑时,数学特征是非技术性的,但是有助于产生服务于权利要求的上下文中的技术目的的技术效果。使用神经网络结果和模糊逻辑的组合来调整用于控制热喷涂的工艺参数的特征有助于本发明的技术性质,因此可以支持创造性。
然而,在本案例中,权利要求1不包含关于要实现的涂层性质的任何信息。神经模糊控制器的输入和输出变量、如何训练控制器或如何在调节过程参数中使用输出都没有被定义。神经模糊控制器的特征与喷涂的任何技术特性都无关。因此,神经模糊控制器没有被应用于热喷涂涂层的特定应用。除了提供不同的工艺参数作为控制器的输入之外,没有证据表明在整个要求保护的方案范围内可靠地实现了任何特定的技术效果。
五、关于模拟(G-II 3.3.2、3.5.2和3.6.3)的修订
在EPO新版审查指南G部分第II章涉及模拟的修订包括:
(1)G-II 3.3.2节中更详细的从“与外部物理显示交互模拟、纯数值模拟、数值模拟的具体技术实现、数值模拟中输出数据为计算数值的预期技术用途、准确度、设计方法”等几个方面对模拟类方案是否具有技术性进行了阐述。
(2)G-II 3.5.2节中加入了在虚拟世界中符合物理原理的方案是否具有技术性的阐述。
(3)G-II 3.6.3 节中加入了在评估数据结构和数据格式时,需要考虑其是否在预期的技术用途中是否产生技术效果,并加入了关于AM申请的评述实例。
下面是G-II 3.3.2、3.5.2和3.6.3节的修改对照内容,其中红色字体为删除部分,绿色字体为新加入部分:
G-II 3.3.2 模拟、设计或建模
对于模拟、设计或建模的权利要求通常包括属于数学方法或用于执行智力活动的方法的特征。因此,所要求保护的主题作为整体可能属于Art.52(2)(a)(c)和(3)所排除的可专利性的主体(参见G-II 3.3和3.51)
然而,在本节中提及的方法至少部分地由计算机实施,因此所要求保护的主题作为整体不被排除在可专利性之外。
当确定哪些特征对发明的技术特征作出贡献时,适用G-II,3.3中概述中相同的原则。
在技术上相关的条件下,计算机实施的对充分定义的一类技术项目或特点技术过程的行为模拟是符合技术目的的(T1227/05)。例子是对1/f噪声的电路性能或某一特定工业化学过程的数值模拟。这种计算机实施的模拟方法不能仅仅根据它们先于实际生产和/或不包括制造物理最终产品的步骤而否认技术效果。
这种计算机实施的模拟方法不能仅仅因为它们在实际生产之前和/或不包括制造最终实体产品的步骤而被否定其技术效果。
相反的,非技术过程的模拟,例如营销活动、货物运输的管理方案或确定呼叫中心代理的时间表,并不代表技术目的。此外,诸如"模拟技术系统"之类的一般限制并未定义相关的技术目的。
在计算机辅助设计特定技术对象(产品、系统或过程)的情况下,确定与技术对象的功能有内在联系的技术参数,如果该确定基于技术考虑,则是技术目的的(T471/05,T625/11)。
例如,在计算机实施的设计光学系统方法中,使用特定公式来确定给定输入条件下的技术参数,例如折射率和放大系数,以便获得最佳光学性能,被认为有技术上的贡献。另一示例,通过迭代计算机模拟确定核反应堆在无应力导致套管破裂风险的情况可以采用的最大操作参数值,被认为有技术上的贡献。
相反,在计算机辅助确定技术参数取决于人类用户的决定,而且在权利要求中没有限定用于做出这种决定的技术考虑的情况下,那么改进设计的技术效果就得不到承认,因为这种效果与权利要求的特征无因果关系(T835/10)。
对于利用计算机实施的模拟、设计或建模方法应当与任何其它利用计算机实施的发明相同的标准来检验(参见G-VII 5.4, G1/19)。
所模拟的系统或过程是否是技术性的、或者模拟是否反映所模拟的系统的基础技术原理、以及它如何准确地反映技术原理不是判断方案是否有技术性的决定性的要素。
与外部物理现实交互的模拟
对于包括在输入或输出级与外部物理现实交互的特征的利用计算机实施的模拟,可以产生与该交互有关的技术效果。利用测量值作为输入的计算机实施的仿真方法可以作为间接测量方法的一部分,该间接测量方法用于计算或预测现有真实对象的物理状态,并且不管其结果的应用是什么都认为做出了技术性的贡献。
欧洲专利局2022版审查指南关于软件的可专利性修改
纯数值模拟
利用计算机实施的模拟尽管没有与物理现实直接连接的输入或输出,但仍然可以解决技术问题。在这种“纯数值”模拟中,基础模型和算法可以通过应用于特定技术实现或通过由模拟产生的数据的预期技术应用而具有技术性的贡献。
对发明的技术性没有贡献的模型和算法有可能包括在G-VII 5.4节的COMVIK方法的客观技术问题判断中。
数值模拟的具体技术实现
由于模型或算法应用于计算机系统或网络的内部功能,因此可以由模型或算法做出的技术贡献,以与数学方法应用于特定技术实现相同的方式来评估,参见G-II 3.3。
数值模拟中输出数据为计算数值的预期技术用途
在计算机中仅作为模型存在的系统或过程通常不能成为发明具有技术性的理由,即使它是充分地反映了真实系统或过程。
计算的数值数据可能具有“潜在的技术效果”,尤其是当根据预期的技术用途使用数据时所产生的技术效果。如果在权利要求中明确或隐含地指定了预期的技术用途,则可以仅仅依靠这种潜在的技术效果来阐述目旳技术问题。
如果由数值模拟产生的数据专门适用于预期的技术用途,则权利要求书可以认为“暗示”了数据的潜在技术效果,例如它是用于技术设备的控制数据。具体的修改意味着权利要求不包括其它非技术用途,因为预期的技术用途在实质上是权利要求的整个范围内所固有的(也参见G-II 3.6.3)。另一方面,如果权利要求还包括模拟结果的非技术用途(例如获得关于技术或自然系统的科学知识),则潜在的技术效果不能在权利要求的整个范围内实现,因此不能支持创造性的判断。
准确度
模拟是否对所要求保护的主题有技术贡献不取决于底层模型的质量或模拟所表示的现实的程度。
然而,仿真的准确性对利用计算机实施的已建立的模型的技术效果具有影响。如果模拟对于其预期的技术用途不够准确,则可能无法实现所宣称的改进。这需要在目旳技术问题的明确表述的判断(Art.56条)或在公开充分性的判断(Art.83条)中加以考虑,可参见F-III 12。相反,通过某些虽然仿真参数不准确但足以用于其预期的技术用途的方法,仍然可以实现技术效果。
设计方法
如果计算机实施的仿真被要求为设计过程的一部分,则上述原理同样适用。
如果计算机实施的方法仅生产产品、系统或过程的抽象模型,例如方程组,即使建模的产品、系统或过程是技术的,这本身也不被认为是技术效果(T49/99,T42/09)。例如,用于一系列产品配置的逻辑数据模型没有内在技术特性,仅指定如何得到这种逻辑数据模型的方法不会在其计算机实施之外作出技术贡献。同样,仅指定如何在图形建模环境中描述多处理器系统的方法不会在其计算机实施之外作出技术贡献。作为智力活动,请参阅与信息建模有关的G-II 3.6.2。
G-II 3.5.2游戏的方案、规则和方法
依据Art. 52(2)(c)和(3)条,权利要求如果要求保护游戏的方案、规则和方法则被排除在可专利性之外。该排除适用于传统游戏的规则,例如纸牌或棋盘游戏,同样也适用于在例如赌博机或视频游戏等当代玩法形式中的游戏规则。
游戏规则定义了一个涉及约定和条件的概念框架,用于管理玩家行为以及游戏如何根据玩家的决策和行动而发展。它们包括游戏的设置,游戏玩法展开时出现的选项,以及定义游戏进度的目标。它们通常被玩家视为(或甚至同意作为)服务于玩游戏的明确目的的规则。因此,游戏规则有抽象的、纯智力的本质,并且仅在游戏情境中有意义(T336/07)。例如,需要两个随机抽取的数字来匹配获胜的条件是游戏规则。
现代游戏,特别是视频游戏,通常以虚拟游戏世界的复杂交互和叙述性元素为特征。这样的游戏元素掌控着游戏的自行进展(例如角色和故事情节的演变)以及它与玩家的交互进展(例如,如果节奏匹配,则则随同游戏配乐一起敲击以使角色跳舞)。鉴于这些元素本质上是概念性的,则它们在更广泛的意义上符合Art.52 (2) (c) (T12/08)所规定的游戏规则。无论这些元素有没有被告知或仅在游戏时被揭示出,上述判断都是正确。
如果要求保护的主题限定了实施游戏规则的技术手段,则它具有技术性。例如,当实现上述匹配随机数的条件时,使用计算伪随机序列的计算机或使用诸如立方散子或均匀扇形卷轴的机械装置足以克服Art.52(2)(c)和(3)的异议。根据G-VII 5.4中所述的混合型发明的问题-解决方法,审查混合有游戏规则和技术特征的权利要求的创造性。原则上,创造性不能基于游戏规则本身确定,无论它们的原创程度如何,也不能基于游戏规则的纯自动化确定。它必须基于游戏技术实现的进一步技术效果,即超出规则固有的技术效果。例如,联网实施像宾果游戏这样的机会游戏,由操作者物理提取的数字经过随机映射再传输到远程玩家,由于这样对结果的加扰类似手加密,同时又与实际玩游戏无关,具有保护数据传输的技术效果,因此作出了技术贡献。相反,通过限制游戏的复杂性而实现降低内存、网络或计算资源的使用,并没有通过技术解决方案来克服技术限制。与通过提高实施效率的方式来解决技术问题不同,这种限制最多只能避免它的发生(G-VII 5.4.1)。类似地,由简化规则产生的游戏产品的商业成功是一种没有直接技术原因的附带效果。
需要从本领域技术人员,通常是工程师或游戏程序员的角度来评估该实现的创造性,该技术人员的任务是实现由游戏设计者给予他的游戏规则。纯粹的权利要求的撰写练习,例如对非技术性游戏元素的改写(用于监控游戏代币数量的“赢取计算手段”),或使用仅在表面上技术的术语来对它们加以抽象(“对象”假代“游戏代币”),与创造性无关。
欧洲专利局2022版审查指南关于软件的可专利性修改
游戏规则通常旨在通过诸如愉悦、悬念或惊喜等心理效应的方式来娱乐和保持玩家的兴趣。这种效果不能称之为技术效果。同样,产生平衡、公平或其他有益的游戏玩法是心理效应,而不是技术效果。因此,即使计算复杂,确定玩家的游戏分数或技能等级的规则和相应的计算指令也通常被认为是非技术性的。
诸如视频游戏中的高度交互式游戏玩法涉及用于感测用户输入、更新游戏状态以及输出视觉、音频或触觉信息的技术手段。根据G-II 3.7和3.7.1评估定义此类信息呈现和用户界面的特征。通知玩家非技术级别的当前游戏状态(例如,游戏分数,扑克牌的排列和组合)、游戏角色的状态和属性的这些认知内容,被视为非技术信息。这同样适用于游戏板或卡片上的说明,例如“回到原点”。其中信息的呈现方式可以作出技术贡献的技术情境的示例是游戏世界中的实时操纵者的交互式控制,其显示受制于冲突的技术要求(T928/03)
除了规则之外,尤其是在视频游戏中,游戏世界的状态还可以根据模拟物理原理或伪物理行为的数值数据和等式来设计。对这种游戏状态的更新的系统计算相当于基于这些模型的计算机实施的仿真(G 1/19)。为了评估该方案的创造性,模型应满足在计算机上定义的相应方法的既有约束(参见G-VII,5.4)。与在虚拟游戏世界内或以其他方式对于模型既有的效果相比,如果模拟的特定实现方法适于计算机系统的内部功能,则认为有技术效果。例如,仅预测由选手发射的台球的虚拟轨迹,即使高度准确,也不能解决超出其实现范围的技术问题。而基于当前网络等待时间调整在多人在线游戏中射击的子弹的分布式模拟中所使用的步长,则产生了技术效果。
限定使用者如何输入的特征通常是作出技术贡献的(G-II 3.7.1)。然而,如果它反映的是游戏设计者的选择,目的在于定义游戏或使其更有趣或者更有挑战性(例如,限定触摸屏上的滑动手势决定虚拟高尔夫击球的力量和旋转的条件),那么从已知输入机制获得的参数到计算机游戏参数的映射就有资格作为更广泛意义上的游戏规则。
G-II 3.6.3 数据检索、格式和结构
在介质上或作为电磁载波的计算机实施的数据结构或数据格式在整体上具有技术性,因此是在Art.52(1)规定的意义上的发明。
在评估数据结构和数据格式时,需要区分功能数据和认知数据。如果数据结构或数据格式具有预期的技术用途则认为有技术贡献,并且当根据该预期的技术用途使用时其能够带来技术效果。在评估本发明(G1/19)时,要考虑与隐含的技术使用相关的潜在的技术效果。如果数据结构或格式是功能数据,即如果它具有技术系统中的技术功能则需要考虑其潜在的技术效果,比如控制处理数据的设备的操作。功能数据包括或映射到设备的相应技术性(T1194/97)。另一方面,认知数据是指内容和含义仅与人类用户相关并且不对产生技术效果做出贡献的那些数据(然而,参见G-II 3.7用于在连续和/或引导的人机交互过程中向用户呈现信息)。
例如,用于图像检索系统的记录载体存储编码图像以及根据行号和地址定义的数据结构,该数据结构指示系统如何解码和访问来自记录载体的图像。该数据结构被定义为既有的包括图像检索系统的技术性的术语,所述图像检索系统即记录载体和用于从中检索图像的读取设备,其中记录载体在所述读取设备中工作。因此,它对记录载体的技术特性作出了贡献,而所存储的图片(例如,人的照片或风景)的认知内容则没有。
类似地,用于检索数据库中的记录的索引结构产生技术效果,因为它控制计算机执行检索操作的方式(T1351/04)。
另一个例子是具有标题和内容部分的电子消息。标题中的信息包括由接收消息系统自动识别和处理的指令。该处理反过来确定如何组合内容元素并将其呈现给最终接收者。在标题中提供这样的指令对电子信息的技术特性作出了贡献,而内容部分中的表示认知数据的信息则没有技术特性的贡献(T858/02)。
数据结构或数据格式可以具有不被表示为认知数据(即不用于向用户传达信息)但却不作出技术贡献的特征。例如,计算机程序的结构可能仅仅旨在促进程序员的任务,这不是起技术作用的技术效果这不是服务于技术目的的技术特征。此外,抽象逻辑层的数据模型和其它信息模型本身不具有技术特性(参见G-II,3.6.2)。
数字数据用于控制增材制造(AM)中的设备,AM是通过基于对象的几何形状的数字表示连续添加材料来制造物理对象的技术的通用术语。如果数据定义了用于操作AM设备的指令,则其做出如下示例中所示的技术贡献:例:
一种存储数据的计算机可读介质,所述数据定义根据权利要求1所述的产品的数字表示和操作指令两者,所述操作指令适于在所述数据被中继到AM设备时控制所述AM设备以使用所述产品的所述数字表示来制作所述产品。
备注:
计算机可读介质是技术目的,因此满足Art.52(2)和(3)的规定是没有异议的。
由于所述数据包括权利要求1的(物理上的)产品的数字描述和适于控制AM设备的关联操作指令两者,因此其旨在用于控制AM设备以制造所述产品。数据的这种技术使用包含在权利要求的整个范围内。将本权利要求解释为包括仅仅可视化数据的非技术使用将是不正确的。因此,当根据其预期用途使用数据时实现的制造权利要求1中限定的物理产品的技术效果是在评估创造性时要考虑的潜在技术效果。产品的数字表示在其限定所制造的物理产品的技术上做出了技术贡献。
然而,如果权利要求没有暗示数据的这种技术使用,则当判断创造性时,制造物理产品的数据的潜在技术效果不能被考虑,因为它没有暗示在权利要求的基本整个范围内。例如,如果数据仅定义了产品的数字描述或3D模型,却没有应用于产品的增材制造中,并且可以用于在CAD软件工具中仅对产品进行可视化,则情况将是如此。抽象的描述或建模不被认为是技术性的,即使所描述
2021年10月9日,国务院印发了《“十四五”国家知识产权保护和运用规划》。《规划》针对专利审查部门提出了:“提高知识产权审查质量和审查效率”、“提升审查效能,缩短审查周期”的要求。其实,不止咱们国家知识产权局,世界各国都有提质增效的审查需求。下面介绍下各国的审查数据。
张慧娟
信息安全室审查员
栾越
六、小结
EPO新版审查指南修订了软件的可专利性指南部分的数学方法、模拟和人工智能等创造性案例,该章节的内容涉及新领域新业态,尤其是人工智能、机器学习等热门议题相关专利申请的审查标准,我们对该章节的内容进行了翻译并以修订格式呈现,方便读者更加清楚的了解修订内容所在。
修订后的EPO审查指南对审查标准进行了完善,无论对于申请人还是对于审查员都给出了更加明确的指引,也敦促我们进一步思考如何完善审查标准以适应技术的发展和形势的需要,使专利制度进一步起到鼓励技术创新和促进经济发展的目的。(完)
的实体是技术性的(参见G-II 3.3.2)。在这种情况下,所存储的非技术数据将不会作出技术贡献。
一、全球发明专利申请量
根据WIPO IP Statistics Data Center[1]公布的全球发明专利申请量,中国2020年的发明专利申请量有149.7万件,仅次于巅峰期2018年的申请量154.2万件,还高于2019年的申请量140.1万件,可见新冠疫情并没有影响申请人对发明专利的申请。从图1全球申请量图中,可以看出,149.7万件这个申请量在2020年是全球之最,远超第二美国59.7万件以及排名第三、四、五的日本(28.9万件)、韩国(22.7万件)和欧专局(18万件)。
二、IP5的审查员数量
消解巨大的专利申请量,离不开一线专利审查员们的共同努力。各国的审查员的数量都有多少呢?根据WIPO IP Statistics Data Center提供的数据,我们看看IP5近十年(2011年至2020年)的审查员数据(图2)。(注:这个数量不只是发明专利审查员的数量,还包括了实用新型、外观审查员等;中国国家知识产权局2018年和2019年审查员人数的数据以及美国专利商标局2017年的审查员数据有缺失)。
韩国特许厅(KIPO):截止2017年底,韩国特许厅共有1,661名员工。其中:专利和实用新型审查员875人,外观与商标审查员172,申诉审查员107人,其他人员507人,总计1,661人。截止2020财年,韩国专利和实用新型审查员增加到932人。
三、全球发明专利审查周期
各国提质增效的效果如何呢? WIPO IP Statistics Data Center提供了一个可供观察的指标:各国专利局从申请人提交实质审查请求到审查员发出第一次审查意见通知书的间隔时间天数(后简称一通周期指标)。
中国国家知识产权局(CNIPA):截止2020年底,包括中国国家知识产权局总局以及中国国家知识产权局专利局的直属分支机构,北京(含福建中心)、江苏、广东、河南、湖北、天津和四川的7个专利审查中心,一共有13,704名专利审查员,而2017年这个数据是11,421名。上图中2018年和2019年的审查员数据缺失,主要是由于2018年为进一步完善知识产权管理体系,促进知识产权的创造、保护和运用,中国国家知识产权局进行重组,增加了对商标和地理标志的管理职责的原因。从上图的趋势可以看出,我国专利审查员的数量在近十年(2011年至2020年)有明显的增长。除了合并商标局等机构的原因,各审查协作中心的建立和成长,也是审查员数量增加的原因。
美国专利商标局(USPTO):根据2018年财年年报,美国专利商标共有12,579名联邦雇员。其中,实用专利、植物专利和再颁专利审查员8,007人,外观审查员178人,商标审查员579人,管理、行政和技术支持人员3,815人。2020财年,美国专利商标局共有实用专利、植物专利和再颁专利审查员8132人。从上图,可以看出美国的专利审查员的数量,虽然相较于巅峰时期2015的8524人有所下降,但在近三年(2018年至2020年)里,审查员人数是稳步增长的。
欧洲专利局(EPO):据EPO官方报道,截止2018年底,欧洲专利局共有来自35个不同欧洲国家6,696名雇员。其中,负责检索、审查与异议的员工总数为4,276人,申诉委员会员工166人。2020年,欧洲专利局负责检索、审查与异议的员工总数为3945人,比2019年的4,241人还减少了294人。
日本特许厅(JPO):为提升专利审查效率,日本特许厅努力确保必要数量的专利审查员,返聘了一些任期届满的审查员。2018财年,日本特许厅拥有1,690名审查员(包括固定任期的审查员)。2019财年,日本特许厅拥有1,682名审查员(包括固定任期的审查员),而2020财年,数量减少至1 ,666名。如果没有返聘制度,审查员数量减少将更多。
从图3所示全球发明专利审查一通周期图,可以看出:2020年,爱沙尼亚,从申请人提交实质审查请求到审查员发出一通的平均时间只需要6天,圣文森特和格林纳丁斯只需要7天,冰岛只需要8天。当然这三个国家的申请量也不多,参见图1中2020年发明专利申请量图,爱沙尼亚、圣文森特和格林纳丁斯和冰岛的申请量分别是:23件、5件和47件。IP5中,EPO的审查最快,一通周期135天,日本特许厅306天,韩国专利局333天,中国432天,美国最慢,间隔462天。阿根廷专利局最慢的,发出一通需要1800天(4.9年),而在2019年最慢的是巴西,需要2196天(6.02年)才能发出一通。
中国国家知识产权局:从申请人提交实质审查请求到审查员发出第一次审查意见通知书(即一通周期),2011年国知局需要342天,到了2020年,需要432天,看起来周期还长了,但是相比2018年的462天,2020年还是减少了30天的。这个数据里包括了很多长周期案件的集中消减等因素,看起来减少幅度不大。这个是平均值,要是从美国近两年(2019至2020年)的数据来看,这个指标从2019年的465天减少到2020年的462天,虽然只减少了3天,却花费1年之久。从以上数据和分析,让人深刻感受到:提质增效,各国都在努力。相信通过智能化检索系统、排审融合、优先审查、快速预审以及专项审查等多种消减周期的组合措施,尤其是长周期案件的消解之后,一通周期这个指标有望得到进一步压缩。
美国专利商标局:在申请人提交实质审查请求到发出第一次审查意见通知书这个指标上,2011年需要774天,而到了2020年,这一数据缩减到了462天。虽然缺失了2017年的数据,但整体趋势上,可以看出是不断缩减的,但也快逼近美局的极限处理速度了,因为近三年(2018-2020年)的一通周期基本保持不变。为了提质增效,美国建立了超级快审等保障制度。
欧洲专利局:从申请人提交实质审查请求到发出第一次审查意见通知书,2014年需要165天(2011年至2013年的一通周期数据缺失),到了2020年,需要135天,审查周期一直都是IP5中最短的,而且还在逐年缩短。无愧为全球满意度最高的审查机构。
日本特许厅:2014年,日本特许厅制定了在未来十年(到2023年)的审查加速计划,目标是将“总审查周期”降低到平均14个月,将第一次审查意见通知书(一通)周期降低至10个月或更短。从图6可以看出,自2014年制定计划以来,日本特许厅的一通审查周期基本都保持在10个月左右。2011年,需要777天(2.1年),申请人才能收到第一次审查意见通知书,2014年这一数据是279天(少于10个月),到了2020年,这一数据是306天(10个多月)。由于供职特
刘芳
大数据室46期审查员,审查领域涉及信息检索、数据库、
图像处理等
韩国特许厅:2011年,从提交实质审查请求书,申请人需要504天(1.4年),才能收到韩国特许厅的第一次审查意见通知书,到了2020年,减少至333天(0.9年)。仿效日本,韩国特许厅也通过合同外包的形式,委托独立机构进行发明、实用新型、商标与外观设计在先检索工作。为了减轻审查员的工作负担,韩国特许厅扩大了对在先技术的外包范围。2018年,外包独立检索机构承担了所有的发明、62.7%的实用新型申请(105,589件)、43.5%的商标(200,341件)以及43.5%的外观设计(29,208件)的检索工作。可见,韩局审查制度受日局影响很大,无论是专利法以及实施细则的制定到提质增效审查制度的设置,韩局在很多方面都借鉴了日局。此外,韩国特许厅还引入审查员和公众审查之间的审查咨询,邀请外部专家分担一部分必要的检索,促进多种形式的协作审查。还建立了“专利审查3.0”制度,通过全过程中申请人与审查员之间的充分沟通来帮助申请人获得高质量的专利。
四、总结
从以上数据和分析,可以看出,中国的申请量仍是全球最多的,显示了强大的创新活力。面对海量的专利申请量,国家知识产权局的审查员数量,在近十年(2011年至2020年)有明显增长,美韩两局专利审查员的数量,略有增长。而IP5中欧专局和日局的专利审查人数,则略有减少。为了提质增效,各国在审查制度上也进行了探索,美国建立超级快审等制度,中国有优先审查、快速预审等制度,日本和韩国采用检索任务外包等模式。从IP5的审查周期来看,欧专局的审查周期好于其他四局。各局的一通处理周期,从近三年(2018至2020年)的数据来看,基本趋于稳定状态。(完)
许厅的官方人员在减少,为了保障审力,除了返聘老员工以外,日本特许厅还将原本由审查员负责的在先技术检索工作,外包给已在日本特许厅登记注册的检索机构来承担,利用私营部门的能力,加快专利审查。截止2018年12月,日本共有10家登记在册的检索机构。2018财年,日本在先技术检索外包量为152,000件左右。其中大约116,000件涉及外国专利文献检索。可见,返聘老员工和检索任务外包等方式,对于日局提质增效具有重要保障作用。
(3)布尔+语义
使用关键词“mobilenet”先进行布尔检索,再使用申请号作为语义基准进行排序,对比文件(CN109344731A) 排在第7位。
2、原因分析
在选择中文数据库进行检索时,对分词结果手动调整时加入的英文关键词是需要先在领域的中文词典中进行匹配的,如果英文关键词包含在领域的中文词典中,则该英文关键词是能参与相关度计算的;但是,当领域词典中并未包括该英文关键词时,则加入的该英文关键词对排序没有影响。本案在添加英文分词“mobilenet”后,结果并未发生变化,表明“mobilenet”并未包含在领域的中文词典中。
当在中文数据库检索时,对于中文文献中可能会出现的英文术语,需要使用英文关键词检索时,优先使用‘先布尔后语义’的检索方式。(完)
建议
在智能检索系统的中文数据库中进行语义检索时,将体现发明点的英文单词加入到语义分词列表中可能不能提升目标文献的排位,对于体现发明点的英语单词建议使用‘先布尔后语义’的检索方式。
关键词:英文单词,布尔,语义分词
某案,权利要求1为:
1.一种针对嵌入式部署的人脸检测模型优化方法,其特征在于:其包括以下步骤:
步骤 S1,构造一人脸检测训练集;
步骤S2,提供一人脸检测训练模型,采用针对嵌入式端设计的网络作为特征提取骨干网络,对人脸检测训练模型进行构造;及
步骤S3,将人脸检测训练集用于对构造后的人脸检测训练模型进行训练,以获得优化后的人脸检测模型;
其中,步骤S1与步骤S2顺序可置换或可同步进行。
通过对本申请说明书的理解,为提升人脸检测模型在嵌入式端的运行效率,本申请在嵌入式端采用mobilenetV1网络或mobilenetV2网络作为提取骨干网络,相比传统的VGG网络,提升了运行效率。因此,mobilenet是能够表明本申请发明点的关键词。
1、检索过程
(1)使用申请号进行纯语义检索,前100位无对比文件,后经确认对比文件排224位;使用权利要求1进行纯语义检索,前100位无对比文件,后经确认对比文件排在374位。
(2)尝试使用“mobilenet”进行分词调整:使用权利要求1进行纯语义检索,并将通过阅读说明书获取的关键词“mobilenet”新增到分词列表中进行分词调整,如图,检索发现对比文件仍然是374位。可见,当选择中文库进行检索时,若将英文关键词添加到中文的分词列表中进行干预,很可能是没有效果的。
案例介绍
徐卫锋
通用计算机应用室副室主任
在智能检索系统的中文数据库在检索人工智能领域相关案件时,由于申请文件中词语使用宽泛常规、应用场景不明、内容晦涩难懂等情况会导致难以提取出体现发明构思的关键词。针对该类型的案件,提出了基于场景推演的关键词扩展方法,在深入理解申请文件的基础上对技术方案的实现过程进行具体场景的推演,得到实施该技术方案产生的结果,根据该结果获取准确的关键词。
关键词:场景 推演 关键词扩展
1、常规检索过程
(1)由权利要求书记载的特征,提取出关键词‘人脸、关键特征、目标人脸、相同维度’进行检索,检索到的对比文件大多为人脸检测的文件,与本申请的发明构思完全不同。这是因为上述关键词属于本领域比较宽泛的术语,从而无法获得合适的对比文件。
(2)将发明点概括为“相关区域替换为一定的像素值”、“无关区域替换为一定的像素值”进行语义检索,仍无法获取合适的对比文件,这是因为,对该发明点分词后的词语仍属于比较宽泛的术语。
2、基于场景推演的关键词扩展检索
上述两种常规检索的表达都太宽泛,那么如何将检索关键词进一步聚焦、提炼呢?可以考虑基于人脸这一应用场景,将权利要求书中所记载技术特征进行具体化:
(1)“人脸关键特征”具体扩展为眼睛、眉毛、鼻子、嘴、耳朵等五官特征;
(2)“对所述中间人脸进行区域划分,得到多个子区域”具体扩展为根据人脸五官的布局对五官的区域进行了划分。
(3)“采用所述第一像素均值,替代与各个所述子区域对应的所述无关的像素点的像素值”可以理解为对于非五官区域均采用统一的像素值替换;
(4)“采用所述第二像素均值,替代与各个所述子区域对应的所述相关的像素点的像素值”可以理解为对于五官区域均采用统一的像素值替换。
在人脸作为应用场景的基础上,将该方案的操作步骤推演到人脸上,得出如下技术效果图:
基于该技术效果图,本领域技术人员能够确定,其属于图像处理领域语义分割算法得到的结果图,因此,可以将“语义分割”作为场景推演后扩展的关键词,结合眼睛、鼻子、嘴、耳朵、眉毛等关键词检索得到对比文件(CN108985181A,检索式为:语义分割 and 眼睛 and 嘴)。
1. 一种图像数据处理方法,其特征在于,所述方法包括:
获取包含人脸的原图像;
通过所述人脸检测模型检测所述原图像中的人脸,检测出中间人脸;
提取所述中间人脸的人脸关键特征;
根据所述人脸关键特征生成与所述中间人脸相同维度的目标人脸。
2. 根据权利要求1所述的方法,其特征在于,所述根据所述人脸关键特征生成与所述中间人脸相同维度的目标人脸,包括:
按照预设划分规则对所述中间人脸进行区域划分,得到多个子区域;
根据所述人脸关键特征,确定各个所述子区域中与所述人脸关键特征无关的像素点;
计算各个所述子区域的像素点的第一像素均值;
采用各个子区域的所述第一像素均值,替代与各个所述子区域对应的所述无关的像素点的像素值。
3. 根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述人脸关键特征,确定各个所述子区域中与所述人脸关键特征相关的像素点;
计算各个所述子区域中相关的像素点的第二像素均值;
采用所述第二像素均值,替代与各个所述子区域对应的所述相关的像素点的像素值。
通过对本申请说明书的理解可知,由于图像中包含的内容越来越丰富,在对图像进行处理时,图像数据大导致数据处理速率低,针对该缺陷,本申请通过将与人脸关键特征无关的区域替换为一定的像素值,与人脸关键特征相关的区域替换为一定的像素值,生成一个相同维度的人脸图像,从而达到了降低人脸图像数据量的目的。
案例介绍
徐卫锋
通用计算机应用室副室主任
当通过申请文件难以提取关键词或语义检索分词检索无效时,为待检索的技术方案在心中构建一应用场景,并在该应用场景中实施该技术方案的方法步骤,以推演出实现过程和技术效果,深度还原发明构思,有助于更准确地理解技术方案,从而扩展出更准确的关键词。(完)
小结
一、量子计算机及发展历程
量子计算机作为世界科技前沿重大挑战之一,已成为各国角逐的焦点。量子计算机,是一种可以实现量子计算的机器,是一种通过量子力学规律以实现数学和逻辑运算,处理和储存信息能力的系统。量子力学态叠加原理使得量子信息单元的状态可以处于多种可能性的叠加状态,从而导致量子信息处理从效率上相比于经典信息处理具有更大潜力。随着量子比特数目的增加,对于n个量子比特而言,量子信息可以处于2种可能状态的叠加,配合量子力学演化的并行性,可以展现比传统计算机更快的处理速度。 对于量子计算机的研究,本领域的国际同行公认有三个指标性的发展阶段: 第一阶段:发展具备50-100个量子比特的高精度专用量子计算机,对于一些超级计算机无法解决的高复杂度特定问题实现高效求解,实现计算科学中“量子计算优越性”的里程碑。 第二阶段:通过对规模化多体量子体系的精确制备、操控与探测,研制可相干操纵数百个量子比特的量子模拟机,用于解决若干超级计算机无法胜任的具有重大实用价值的问题(如量子化学、新材料设计、优化算法等)。 第三阶段:通过积累在专用量子计算与模拟机的研制过程中发展起来的各种技术,提高量子比特的操纵精度使之达到能超越量子计算苛刻的容错阈值(>99.9%),大幅度提高可集成的量子比特数目(百万量级),实现容错量子逻辑门,研制可编程的通用量子计算原型机。 量子计算机在原理上具有超快的并行计算能力,可望通过特定算法在密码破译、大数据优化、天气预报、材料设计、药物分析等领域,提供相比传统计算机指数级别的加速。
二、76个光子的量子计算机原型机“九章”
2020年12月4日,中国科学技术大学宣布潘建伟、陆朝阳等组成的研究团队与中科院上海微系统所、国家并行计算机工程技术研究中心合作,构建了76个光子的量子计算原型机“九章”,实现了具有实用前景的“高斯玻色取样”任务的快速求解。根据现有理论,该量子计算系统处理高斯玻色取样的速度比目前最快的超级计算机快一百万亿倍(“九章”一分钟完成的任务,超级计算机需要一亿年)。等效地,其速度比去年谷歌发布的53个超导比特量子计算原型机“悬铃木”快一百亿倍。相关论文于2020年12月4日在线发表在国际学术期刊《科学》(“Quantum computational advantage using photons”, Han-Sen Zhong et al.,《Science》, Vol. 370, Issue 6523, pp. 1460-1463, 20201218)。
附:量子计算IPC分类及主要申请人
三、62比特可编程超导量子计算机原型机“祖冲之号”
超导量子计算核心研究目标是增加“可操纵”的量子比特数量,并提升操纵的精度,最终应用于实际问题。中科大潘建伟、朱晓波、彭承志等人组成的团队长期研究超导量子计算,先后实现了保真度达70%的12比特超导量子芯片、24个比特的高性能超导量子处理器等国际前沿成果。近期,他们在自主研制二维结构超导量子比特芯片的基础上,成功构建了目前国际上超导量子比特数目最多、包含62个比特的可编程超导量子计算原型机“祖冲之号”。相关论文于2020年5月8日以《Quantum walks on a programmable two-dimensional 62-qubit superconducting processor》为题发表于《Science》。
潘建伟等人在二维结构的超导量子比特芯片上,观察了单粒子、以及双粒子激发情形下的量子行走现象,并在实验中研究了量子信息在二维平面上的传播速度,同时,通过调制量子比特连接的拓扑结构的方式构建出一种名为马赫-曾德尔的干涉仪,实现了可编程的双粒子量子行走。
这一成果使得我国成功达到了量子计算研究的第一个里程碑:量子计算优越性(国外称之为“量子霸权”),牢固确立了我国在国际量子计算研究中的第一方阵地位,为未来实现可解决具有重大实用价值问题的规模化量子模拟机奠定了技术基础。此外,基于“九章”量子计算原型机的高斯玻色取样算法在图论、机器学习、量子化学等领域具有潜在应用,将是后续发展的重要方向。
该团队设计并构建出一个8×8的超导量子比特阵列,其面积为3x3平方厘米,一个橘色“+”代表着一个量子比特,除去两个因为损坏而无法实现功能的量子比特,图中共有62个“+”高品质量子比特,它们之前相互耦合。通过相关实验技术,调节体系中的各种参数,让量子比特阵列可模拟玻色-哈伯德模型(Bose-Hubbard)的行为,在该模型下研究准粒子“漫步者”的行为,之后,针对每个量子比特频率进行精确调控,让量子可在不同路径结构上进行行走。比起光子等系统,超导量子比特系统的参数可调性更优。
尽管还不能立马投入实际应用,但这也说明超导量子比特处理器具备良好的应用前景。就后续进行更复杂量子多体模拟来说,该成果扮演着基石角色。一言以蔽之,基于“祖冲之号”量子计算原型机的二维可编程量子行走,在通用量子计算、量子搜索算法等领域具备潜在应用能力,更是后续领域内发展的重要方向。此外,该成果为促进中国在超导量子系统上实现量子优越性奠定了技术基础,也为后续研究具有重大实用价值的量子计算提供了支持。
1、量子计算相关IPC分类号
基于 Patentics 系统,以量子计算为关键词,利用“R/”操作符进行检索后,对检索结果进行统计分析,确定如下关联 IPC 相关分类:
H04L9/00 保密或安全通信装置;
G06F21/00 防止未授权行为的保护计算机、部件、程序或数据的安全装置;
H04L29/00 数字信息的传输;
G06N10/00 量子计算机;
李福永
于白
党总支专职副书记
丁蓬莉
人工智能室审查员
人工智能室审查员
图:G06F 21/00 中涉及量子计算的相关IPC分类号统计
G06Q20/00 支付体系结构、方案或协议;
G06Q40/00 金融保险税务策略;
G06F7/00 通过待处理的数据的指令或内容进行运算的数据处理的方法或装置;
G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法;
G06F16/00 信息检索,数据库结构,文件系统结构;
H04B10/00 利用无线电波以外的电磁波(例如红外线、可见光或紫外线)或利用微粒辐射(例如量子通信)的传输系统。注:电学部涉及的IPC 分类主要为G06F21/00 及 G06N10/00。
2、G06F 21/00 的进一步细分
上述 IPC 分类中,电学部主要涉及 G06F21/00 和 G06N10/00,它们分别对应 UA030 信息安全及 UA034 人工智能这两个审查单元。其中,G06N10/00 为量子计算机,无进一步细分。因此,利用 Patenctis进一步统计了G06F21/00 中涉及量子计算的相关 IPC 分类,大体分布如下图所示。
可以看出,量子计算主要还是应用于信息安全的存储/访问控制、用户鉴权、设备认证等方面,属于偏应用性发明。
3、国内申请排名前十的申请人
在 Patentics 系统中,统计了量子计算相关申请的申请人分布情况,如下图所示。整体上看,主要申请人为国外公司,其中谷歌、D-Wave System Inc.的总申请数大于 50 件。国内申请人中,百度申请量最多,为 13 件。(完)
一、量子纠缠的基础概念
二、我国量子纠缠技术的研究进展
在量子力学里,当几个粒子在彼此相互作用后,由于各个粒子所拥有的特性已综合成为整体性质,无法单独描述各个粒子的性质,只能描述整体系统的性质,则称这现象为量子缠结或量子纠缠(quantum entanglement)。
假设一个零自旋中性π介子衰变成一个电子与一个正电子。这两个衰变产物各自朝着相反方向移动。电子移动到区域A,在那里的观察者“爱丽丝”会观测电子沿着某特定轴向的自旋;正电子移动到区域B,在那里的观察者“鲍勃”也会观测正电子沿着同样轴向的自旋。在测量之前,这两个纠缠粒子共同形成了零自旋的“纠缠态”。这两个粒子相互反关联,对于两个粒子的自旋分别做测量,假若电子的自旋为上旋,则正电子的自旋为下旋,反之亦然。即使一颗粒子行至太阳边,一颗行至冥王星边,在如此遥远的距离下,它们仍保有关联性(correlation)。如此现象导致了鬼魅似的超距作用之猜疑,仿佛两颗电子拥有超光速的秘密通信一般。
量子纠缠是一种物理资源,如同时间、能量、动量等等,能够萃取与转换。应用量子纠缠的机制于量子信息学,很多平常不可行的事务都可以达成:
- 量子密钥分发能够使通信双方共同拥有一个随机、安全的密钥,来加密和解密信息,从而保证通信安全。在量子密钥分发机制里,给定两个处于量子纠缠的粒子,假设通信双方各自接受到其中一个粒子,由于测量其中任意一个粒子会摧毁这对粒子的量子纠缠,任何窃听动作都会被通信双方侦测发觉。
- 密集编码(super dense coding)应用量子纠缠机制来传送信息,每两个经典位元的信息,只需要用到一个量子位元,这科技可以使传送效率加倍。
- 量子隐形传态应用先前发送点与接收点分享的两个量子纠缠子系统与一些经典通讯技术来传送量子态或量子信息(编码为量子态)从发送点至相隔遥远距离的接收点。
- 量子算法(quantum algorithm)的速度时常会胜过对应的经典算法很多。但是,在量子算法里,量子纠缠所扮演的角色,物理学者尚未达成共识。有些物理学者认为,量子纠缠对于量子算法的快速运算贡献很大,但是,只倚赖量子纠缠并无法达成快速运算。
在量子计算机体系结构里,量子纠缠扮演了很重要的角色。例如,在单路量子计算机(one-way quantum computer)的方法里,必须先制备出一个多体纠缠态,通常是图形态(graph state)或簇态(cluster state),然后借着一系列的测量来计算出结果。
中国科学技术大学走在我国量子科学技术研究中的前沿,其中有两位重要的领军人物,潘建伟院士和郭光灿院士。
潘建伟院士团队相关研究成果:
1996年,从中国科学技术大学毕业的潘建伟,赴奥地利因斯布鲁克大学留学,师从量子实验研究的著名学者安东•蔡林格教授。1997年,还是博士研究生的潘建伟以第二作者身份发表了题为《实验量子隐形传态》的论文。这个实验,被公认为量子信息实验领域的开山之作。该论文与“爱因斯坦建立相对论”等划时代的论文一同被《自然》杂志选为“百年物理学21篇经典论文”。
潘建伟1999年博士毕业的时候,国内的量子信息研究还处于刚刚起步的阶段。2001年,潘建伟在中国科学技术大学组建量子物理与量子信息实验室,经过10多年的努力,带出了一支声震国际的量子“梦之队”。
2006年夏,潘建伟小组和美国洛斯阿拉莫斯国家实验室—欧洲慕尼黑大学—维也纳大学联合研究小组各自独立实现了诱骗态方案,同时实现了超过100公里的诱骗态量子密钥分发实验。从32厘米到100公里,时间用了不到20年,却打开了量子通信走向应用的大门。
由潘建伟任首席科学家的“墨子号”量子科学实验卫星成功发射后不到一年,2017年9月,世界首条1000公里级量子保密通信干线——“京沪干线”正式开通。利用量子“京沪干线”与“墨子号”量子卫星的天地链路,中科院与奥地利科学院进行了人类历史上第一次洲际量子保密通信视频通话。
2019年8月15日,国际权威学术期刊《物理评论快报》报道,中国科学家潘建伟研究团队在国际上首次成功实现高维度量子体系的隐形传态。美国物理学会等发表评论称,这一成果为发展高效量子网络奠定了坚实的科学基础,是量子通信领域的一个里程碑。
潘建伟1999年博士毕业的时候,国内的量子信息研究还处于刚刚起步的阶段。2001年,潘建伟在中国科学技术大学组建量子物理与量子信息实验室,经过10多年的努力,带出了一支声震国际的量子“梦之队”。
2006年夏,潘建伟小组和美国洛斯阿拉莫斯国家实验室—欧洲慕尼黑大学—维也纳大学联合研究小组各自独立实现了诱骗态方案,同时实现了超过100公里的诱骗态量子密钥分发实验。从32厘米到100公里,时间用了不到20年,却打开了量子通信走向应用的大门。
由潘建伟任首席科学家的“墨子号”量子科学实验卫星成功发射后不到一年,2017年9月,世界首条1000公里级量子保密通信干线——“京沪干线”正式开通。利用量子“京沪干线”与“墨子号”量子卫星的天地链路,中科院与奥地利科学院进行了人类历史上第一次洲际量子保密通信视频通话。
2019年8月15日,国际权威学术期刊《物理评论快报》报道,中国科学家潘建伟研究团队在国际上首次成功实现高维度量子体系的隐形传态。美国物理学会等发表评论称,这一成果为发展高效量子网络奠定了坚实的科学基础,是量子通信领域的一个里程碑。
郭光灿院士团队相关研究成果:
1998年,郭光灿团队以非线性光学的实验为切入点,又重新进入实验领域,建立量子光学实验平台,并先后完成了量子克隆和K—S理论检验等有影响的实验。
2000年,郭光灿又领导课题组开辟量子密码的实际应用研究,建立了演示性量子通信系统,成功地完成了从理论研究转向实验研究与理论研究相结合的重大转变。
2015年8月,郭光灿及中国科学院量子信息重点实验室李传锋研究组,在固态系统中首次实现对三维量子纠缠态的量子存储,保真度高达99.1%。
2018年2月,郭光灿院士团队创新性地制备了半导体六量子点芯片,在国际上首次实现了半导体体系中的三量子比特逻辑门操控,为未来研制集成化半导体量子芯片奠定了一定的基础。
2021年4月,中国科学技术大学郭光灿院士团队在光量子存储领域取得重要突破。该团队李传锋、周宗权研究组将相干光的存储时间提升至1小时,大幅度刷新了2013年德国团队光存储1分钟的世界纪录,向实现量子U盘迈出重要一步。该成果4月22日发表在国际知名期刊《自然•通讯》上。
2021年7月,郭光灿院士团队提出并实验实现无噪声光子回波,实测噪声比前人的结果降低了670倍,首次观察到单光子的光子回波并由此实现了高保真度的固态量子存储。
近期美国联邦巡回上诉法院维持了美国专利商标局驳回的四项关于量子纠缠的专利申请。
三、量子纠缠相关的专利资讯
这四项专利申请是两位发明人(HUPING HU;MAOXIN WU)向USPTO提出的,声称所述产品利用了量子纠缠的特性,四件专利申请分别是:
US11/670,996,2007年2月4日提交,发明名称“产生量子纠缠的物质的非局部效应的方法和设备”,涉及一种给病人注射麻醉剂的方法。将一个麻醉剂样本连接到一个装置,通过样本播放音乐以产生量子,通过量子纠缠的特性对病人进行麻醉。
US11/944,631,2007年11月25日提交,发明名称“用于产生非局部物理、化学和生物效应的方法和设备”,涉及基于量子纠缠特性改变物质的物理、化学和生物效应。申请主要描述了通过使用电磁脉冲、激光或微波之类的照射,使包含目标物质和源物质的物质中的多个量子产生纠缠,然后在分离得到的源物质中加入第三种物质,从而操纵目标物质的温度、重力或pH值。
US13/449,739,2012年4月18日提交,发明名称“用于产生物质的非局部效应的方法和设备”,涉及在健康增强物质(如药物)与人或动物之间产生量子纠缠,通过量子纠缠产生非局部效应,从而在诸如健康、医学甚至娱乐的领域中为人类服务。申请人在说明书中声称发明具有的有益效果包括:药物可以重复使用而无需被消耗,以及药物的效果可以从任意距离的位置传递到人或动物。
US13/492,830,2012年6月9日提交,发明名称“用于产生和检测物质的非局部效应的方法和设备”,涉及产生和检测诸如人和动物的心脏与目标药物之间的量子纠缠,在示例中,药物(如心脏兴奋剂)被微波激活以产生量子纠缠,进而使得处在另一房间远离药物的人的心跳加速。
USPTO驳回了上述专利申请,认为这些申请无法实施(inoperative)因而没有“实用性”(lacks utility),使用的法条是35 U.S.C. 101;同时,这些申请根据说明书记载的内容无法实现(not……enable one……to make and/or use the invention),使用的法条是35 U.S.C. 112。
审查员认为没有已知的科学原则解释发明如何能够按照专利申请中规定的方式运作,也没有对导致发明发生的一般原则或机制做出令人信服的解释。并且,申请人采用的实验并非盲测(blind study)也未经独立第三方验证,因而申请人未能提供可合理归因于所称结果的可核实的测试数据。在(四份)申请的审查意见中只有一份引用了现有技术文件。审查员指出,量子纠缠的原理没有争议——审查员的驳回是基于对发明人应用量子纠缠来实现所要求的结果的怀疑。
美国联邦巡回上诉法院对审查员和委员会对上述四项申请的结论予以支持,申请文件对要求保护的方法或设备没有给出科学支撑,实验数据和答复意见也不足以支持申请人对于申请具有授权前景的主张。同时,美国联邦巡回上诉法院认为,专利局作为新技术发明的守护者,必须接受不寻常的概念,因为发明的核心是“非显而易见性”。然而,严重依赖于科学原理的概念应当采用更高的标准来要求,而这个标准通常是通过结果的可重复性来衡量的。在这四份申请中,摆在专利局面前的内容明显背离了人们对传统科学理解,因此,要求足够的实验验证数据是合理的。
该案例显示了发明人在为不寻常的发明获得专利保护方面所面临的挑战——尤其是那些违背科学共识的发明。申请人需要以具有明确科学依据的可重复结果的形式提供令人信服的证据,才能在诸如量子计算等新领域获得专利保护。仅仅断言本发明有效(或将会有效)是不够的。事实上,美国(乃至全世界)的专利审查员很少质疑专利说明书中的实验细节。但是,在某些情况下,审查员确实要求提供更多详细信息,这个案例显然是其中之一。然而,审查员同时指出了专利说明书缺乏必要的信息,发明人似乎也无法提供更多有关其发明有效性的信息。(完)
于白
王欣玥
大数据室审查员
随着美国对中国的贸易制裁逐渐加码,半导体/集成电路领域成为了双方竞争的主战场, EDA软件正成为半导体/集成电路主战场中“战火”最为集中的焦灼“阵地”之一。
一、什么是EDA
EDA的全称是电子设计自动化(Electronic Design Automation)。大部分工科学生都学习过的《工程制图》课程中通常会讲到AutoCAD,而AutoCAD还只是相对较为“初级”的计算机辅助设计方法,EDA则是20世纪90年代初从计算机辅助设计(CAD)、计算机辅助制造(CAM)、计算机辅助测试(CAT)和计算机辅助工程(CAE)的概念发展而来的,其是利用计算机辅助设计软件,来完成超大规模集成电路芯片的功能设计、综合、验证、物理设计(布局、布线、版图、设计规则检查等)等流程的设计方式。
在开始设计一颗芯片时,首先需要论证设计方案的正确性;其次需要确保输入已经完整且正确地覆盖了设计需求;然后需要将设计转换为具体的设计细节,做进一步验证;此后还需要将设计转换为实际的物理设计;在芯片制造过程中依然需要EDA软件的辅助,在芯片的良率分析、加工工艺仿真等环节,EDA软件依然起到非常关键的作用。
第四阶段:现代EDA时代。随着大规模集成电路、计算机和电子系统设计技术的不断发展,EDA 技术在多种产业广泛应用,从设计、性能测试、特性分析、产品模拟等,都可在EDA 环境下进行开发与验证。同时随着智能手机、4G/5G、物联网等技术的发展,射频EDA软件迎来了发展的黄金阶段。
EDA是芯片设计与生产的核心,是电子产业的根基技术。随着半导体行业的发展,集成电路的复杂程度指数级上升,如今的一颗芯片上面集成的晶体管个数动辄就是几亿,甚至上十亿、百亿,未来芯片的集成度会越来越高,人工绘图已经是不可能完成的任务,将设计经验、设计思想、设计方法和设计流程转化到EDA软件,通过发挥计算机强大的计算能力和软件本身重复执行的可靠性,让计算机去替代人力做这些工作量大、重复性高、容易出错的繁琐工作就成为了一种必然的选择。也由此可以看出,EDA软件并不是单指一个或几个软件,而是涉及近百种不同的技术,涵盖多种“点工具”的软件工具集群。EDA软件的发展是这么多年集成电路产业能够持续发展的原动力之一。
从整个产业链来看,EDA是芯片制造的最上游、最高端的产业,是衔接集成电路设计、集成制造和封装测试的关键纽带,对行业生产效率、产品技术水平有重要影响。设计方面,设计人员必须使用EDA工具进行超大规模集成电路设计,以减少偏差、提高成功率及节省费用;制造方面,基于新材料、新工艺的下一代EDA 技术将给集成电路性能提升、尺寸缩减带来新的发展机遇。EDA工具广泛应用于数字电路设计、模拟电路设计、晶圆制造、封装、系统五大环节,已经成为芯片设计生产过程中不可或缺的工具。
从市场角度来看,EDA是几十万亿电子信息产业的支点。整个EDA软件的全球市场规模不足一百亿美元,却撬动了5000亿美元的半导体产业,再向上更是支撑着几十万亿规模的数字经济。国内的集成电路市场相较于全球其他地区规
二、EDA的发展历程
三、EDA的重要性
如果用建筑行业来做一个简单的类比,那么EDA软件的作用可以不那么准确的类比为“出设计图纸”、“出施工图纸”和“施工过程辅助”三个环节。如同建筑设计要得到标注了各种建筑尺寸、形状、结构的设计图一样,集成电路设计首先要得到一张由各种电路器件符号标注的“电路图”;然后基于这张图进行“仿真”,确定设计的合理性和完备性;而仅仅得到了设计图/电路图是不够的,因为只能验证设计方案的合理性,而无法直接加以施工/制造,如果要施工/制造,还需要得到更为细节的“施工图”。以上得到“设计图”的过程在集成电路中被称为“前端设计”,而得到“施工图”的过程则被称为“后端设计”。
从CAD到现代EDA,逐渐成为半导体行业的核心节点。EDA发展至今已经成为整个半导体行业生态链中最上游、最高端的节点,芯片制造的全流程几乎都有EDA的参与。回顾EDA发展的50年,共经历了四个发展阶段:
第一阶段:计算机辅助设计(CAD)时代。20世纪70年代中期,随着电路集成度的提升,设计人员开始尝试使用CAD工具进行设计工程自动化来替代手工绘图,当时CAD的主要功能是交互图形编辑、晶体管级版图设计、布局布线、设计规则检查、门级电路模拟和验证等。
第二阶段:计算机辅助工程(CAED)时代。1980年卡弗尔•米德和琳•康维发表的《超大规模集成电路系统导论》,第一次提出用语言编程的方式设计芯片。EDA工具功能开始包括自动布局布线、定时分析、逻辑模拟、仿真故障等,主要对设计电路的功能检测问题进行处理。这个时代EDA商业化逐渐成熟,现在的EDA三巨头Mentor、Cadence和Synopsys相继成立。
第三阶段:电子系统设计自动化(EDA)时代。90年代之后,硬件语言的标准化和微电子技术的突飞猛进(芯片可以集成上亿晶体管),推动了EDA设计工具的发展和普及。设计师开始从电路设计转向系统设计,以高级语言描述、系统级仿真和综合技术为特点的EDA就此出现,真正实现了设计的自动化。
从全球范围来看,EDA行业企业可以按照市场规模划分为三类:第一类企业是Synopsys、Cadence和Mentor Graphics(Siemens EDA),占据了全球EDA市场约70%的份额,其中,Synopsys占据32%,Cadence占据23%,Siemens EDA占据14%。三家企业均拥有完整且优势明显的全流程EDA工具,且部分流程工具在细分领域拥有绝对优势,IC设计的高端软件EDA工具基本上由Synopsys、Cadence、Mentor三家EDA公司以上三家美国公司垄断。EDA相关营收每年超过10亿美元。第二类企业拥有部分领域的全流程EDA工具,且在局部领域具有绝对优势。例如Ansys在热分析、压电分析等领域占据绝对优势;Keysight的EEsof在电磁仿真、射频综合等领域具有优势;华大九天在FPD面板领域有领先优势。这一类的企业占据了全球约15%到20%的市场规模。第三类的企业主要聚焦于某些特定领域或用途的点工具,整体规模和产品完整度与前
EDA的技术分支主要有三个,设计,仿真和验证。EDA 相关专利全球申请量在2015年之前保持平稳,之后迅速增长。国内申请量一直缓慢增长,2015 年后与全球申请量差距拉大。在技术来源国和目标市场国方面,美国分别占比高达56%和42%。全球EDA相关专利申请量排名前3位(截止2021年7月)的申请人正是EDA三巨头,其中,Cadence排名第1,Synopsys紧随其后,Mentor位列第三。
目前,国内EDA企业百花齐放。如:国产EDA龙头——华大九天,在部分领域具有全球竞争力的EDA厂商——概伦电子、广立微;以及近年来涌现出的一批新兴EDA厂商——思尔芯、鸿芯微纳、芯和半导体、芯华章。(完)
模最大、增速最快,EDA工具的杠杆效应更加明显。如果没有了这颗基石,全球所有的芯片设计公司都会直接停摆。
四、EDA的市场现状
五、EDA领域专利宏观状况
两类的企业存在明显的差距。2018年后,国内本土品牌国产企业崭露头角,在部分领域已经实现突破,整体份额有所上升,但与三大巨头相比仍差距明显。当今EDA国际市场主要是三大巨头三足鼎立主导市场,头部企业(第一、第二类企业)高度垄断,国产EDA公司仍处于发展的前期阶段。
张卉
曾宇昕
半导体一室室主任
刘振玲
半导体二室室主任
半导体一室审查员
上期内容讲述了EDA前世与今生,这期EDA知多少专题,我们将着眼EDA的未来与发展,分析产业需求,展望未来趋势和我国EDA产业的发展机遇。
一、EDA的产业需求
EDA作为芯片产业的关键一环,其产品需求和芯片产业发展趋势息息相关。根据可预期的芯片产业未来发展态势,可以推测下一代EDA的产业需求。
1、扩大产能需求
随着数字化转型持续推进,芯片需求量持续上升。据中国信通院的统计和预测,2020年我国数字经济规模达到39.2万亿元; 2025年我国数字经济规模有望达到78.8亿元。芯片需求量持续上升已经造成芯片需求的缺口。
为了解决芯片需求的缺口,需要提高整个芯片产业的生产效率、增加产业的相关工作人员数量。具体到EDA产品来说,需要进一步提高EDA产品的芯片设计效率,降低芯片设计技术门槛,扩大芯片设计人群。
对于提高设计效率和降低技术门槛的需求,可以通过开放和标准化、自动化和智能化、平台化和服务化的产品改良来实现。通过开放和标准化的IP和模块库,可以提高芯片设计的效率;自动化、智能化的验证平台,不但可以提高计算的效率,而且降低了对工作人员经验上的要求;平台化和服务化,降低了对设计者本地资源的要求,上述方式不仅可以大幅度提高芯片设计效率,还能降低芯片设计技术门槛,普惠芯片设计,扩大芯片设计人群,多管齐下满足扩大产能需求。
2、设计能力和计算性能提升的需求
过去三十年,摩尔定律驱动半导体行业不断往前发展,单位硅片面积能够容纳的晶体管数量指数型上升,芯片设计的复杂度随之提升,因此对EDA工具也提出了更高的要求。随着工艺制程节点不断往前推进,尤其在5nm制程节点之后,半导体产业的发展将进入“后摩尔时代”,芯片设计的成本大幅提升。
后摩尔时代技术演进驱动EDA技术延伸拓展需求,后摩尔时代的集成电路技术演进方向主要包括延续摩尔定律(More Moore)、扩展摩尔定律(More than Moore)以及超越摩尔定律(Beyond Moore)三类,分别从缩小器件尺寸、集成、新材料方面推动芯片性能的提升。
与之相匹配的是对EDA更高的要求,其中,面向延续摩尔定律(More Moore)方向,单芯片的集成规模呈现爆发性增长,为 EDA 工具的设计效率提出了更高的要求;面向扩展摩尔定律(More than Moore)方向,伴随逻辑、模拟、存储等功能被叠加到同一芯片,EDA 工具需具备对复杂功能设计的更强支撑能力;面向超越摩尔定律方向,新工艺、新材料、新器件等的应用要求EDA工具的发展在仿真、验证等关键环节实现方法学的创新。
后摩尔时代,芯粒(Chiplet)技术已成为重要的发展方向,芯粒技术将不同工艺节点和不同材质的芯片通过先进的集成技术(如 3D 集成技术)封装集成在一起,形成一个系统芯片,实现了一种新形式的 IP 复用。这一过程需要EDA工具提供全面支持,促进EDA技术应用的延伸拓展。
SiP的发展,促进了EDA工具升级迭代需求。SiP对EDA产生的影响首先是适应设计方法的改变。如何简化SiP的设计过程将是推动对系统级封装(SiP)芯片技术需求的最关键能力。一个完整的设计流程与工具支持将使得产品开发工作大幅简化,工具对未来技术的扩展性,向下兼容以及数据交换的标准化都是必要的考量点。从系统芯片(SoC)过渡到SiP的设计方法,给芯片设计人员和封装设计人员都带来了新的挑战,对硅基板的布局和验证提出了新的挑战,另外,因为小型化紧凑化,除了电性能之外,电与热的交互也需要非常完整的设计能力,包括热感知、电磁干扰设计方法等。因此,随着封装变得越来越复杂,EDA解决方案空间必须涵盖设计、热学、3D解决方案和信号完整性,以确保其全部功能良好。
此外,进入后摩尔时代,器件尺寸进一步降低,由于芯片设计中为防漏电等问题,硬性规则增加,EDA所能实现的变通空间受压缩,设计难度也随之迅速提升。而早期验证工作有助于减少试错成本,因此,在EDA多种工具中,验证相关工具(包含验证软件、原型验证、物理验证等)的需求增加。
基于产业对于EDA产品的主要需求——提高生产效率、降低设计门槛、提高设计能力和计算能力等,EDA产业初步形成了以下几个发展趋势。
1.EDA+云——超强计算资源赋能EDA工具,降本增效
随着工艺越来越先进,芯片设计规模愈发庞大,EDA厂商对服务器与算力的需求也与日俱增。规模的增大使得设计、逻辑综合、物理验证到Signoff等各个阶段对cpu和内存要求越来越高。在芯片项目的早期以及中期,服务器资源需求还可控。一旦到了项目后期,全芯片的前仿、后仿、PV、时序修复等算力需求火力全开,使得服务器不堪重负。
芯片设计流程中,对于算力的需求在仿真环节体现得尤为明显。在如今的尖端制造工艺节点上,DRC(Design Rule Check,设计规则检查)已经不只是简单的DRC了,还牵扯到eqDRC、多重曝光(Multi-patterning)、模式匹配等问题;LVS(Layout Versus Schematic,一致性检查)则需要加上ESD检查、可
如下图所示,EDA与云结合包括EDA上云与云原生EDA两种方式。EDA+云带来的好处主要体现在三个层面:首先,弹性算力支持。工艺进步带来算力需求暴增。第二,算力智能调度。第三,便于研发协同。
目前,全球半导体企业上云进程表现为如下格局:
二、EDA产业的未来趋势
靠性检查之类的问题。不仅检查操作数量在增加,类型也在扩展,节点迭代造成的算力需求增长还在持续。芯片设计企业如果按照传统的自采自用,在存储和算力方面的投入是巨大的,而EDA+云的方式很好的解决了服务器与算力问题。
2.EDA+AI——PPA更优化,流程更智能化
由于单位面积上晶体管的集成度越来越高,电路之间的交互、工艺复杂度、热物理效应等在不断变化,芯片设计流程也将随之变化,传统EDA工具已经无法满足工程师们的需求,EDA 工具也势必朝着智能化方向发展。近年来,人工智能(AI)的部署在诸多应用中发挥着重要的作用,在 EDA 领域也是如此。
EDA中采用AI的过程可以分为四个阶段,分别为快速模式、增强智能、假设最优、全机器自动化,目前将AI应用到EDA方面,处于增强智能阶段。
现阶段,AI 技术在 EDA 工具中的应用主要体现在以下几个方面:数据快速提取模型、布局中的热点检测、布局与布线、高层次综合工具、电路仿真模型、功能与时序验证、PCB 设计工具等。此外,软硬件协同设计的重要性在AI SoC 设计中越来越高,而且需要协同设计的不只有软件与硬件,还有存储器与处理器;这类因 AI衍生的协同设计需求,也需要新一代的 EDA 工具来支撑。
AI不仅使得工具使用者获得更好的PPA(功耗、性能和面积)和更快的引擎,从而提升测试和诊断性能表现;而且通过让工具具有学习的能力,使工具本身积累更多经验,减少设计过程中的人为干预,让EDA设计者能有更多事件从事富有创造性的劳动,减少重复性的繁杂工作。
针对EDA+AI技术, 2020年Synopsys推出了DSO.AI, Cadence2017年推出了Vision C5 DSP,2018年推出了Cadence Tensilica DNA100处理器IP。
国产 EDA 产业尚存在EDA软件工具不全面等短板。但是,目前国家和产业层面已经充分认识到了EDA重要性,国产EDA也迎来了发展机遇。
1.国家政策支持及相关进展
随着国家加大对核心芯片国产化的政策、资金投入,半导体产业链自给率低的问题得到了整个社会舆论和资本的关注与重视,半导体产业链国产替代成为关系到国家安全的亟待解决的问题。
2006年,国务院发布《国家中长期科学和技术发展规划纲要(2006-2020年)》,其中包括对核心电子器件、高端通用芯片和基础软件产品(简称“核高基”)、载人航天等16个重大科技专项,以支持国家重点技术产业发展。
从2008年EDA入选国家“核高基”项目开始,国家开始颁布一系列政策支持国产EDA的发展。继《国务院关于印发鼓励软件产业和集成电路产业发展若干政策的通知》(国发(2000)18号)、《国务院关于印发进一步鼓励软件产业和集成电路产业发展若干政策的通知》(国发(2011)4号)以来,我国集成电路产业和软件产业快速发展,有力支撑了国家信息化建设,促进了国民经济和社会持续健康发展。为进一步优化集成电路产业和软件行业发展环境,2020年7月27日,《国务院关于印发新时期促进集成电路产业和软件产业高质量发展的若干政策》(国发(2020)8号),提出进一步创新体制机制,鼓励集成电路产业和软件产业发展,大力培养集成电路领域和软件领域企业,加强集成电路和软件专业建设,加快推进集成电路一级学科设置,支持产教融合发展;严格落实知识产权保护制度,加大集成电路和软件知识产权侵权违法行为惩治力度;推动产业集聚发展,规范产业市场秩序,积极开展国际合作。
十四五期间,我国集成电路产业处于攻坚期,突破核心技术瓶颈,增强内生发展动力,迫切需要大批领军人才、专业技术人才、经营管理人才、工匠型人才的支撑。人才作为集成电路产业的第一资源,是制约我国集成电路产业发展的主要瓶颈。
2020年7月,国务院学位委员会通过提案,集成电路专业成为一级学科,从电子科学与技术一级学科中独立出来,将为我国完善高校人才培养体制、培养更多集成电路人才打下坚实基础。
三、我国EDA产业的发展机遇
2020年10月22日,中国首家“芯片大学”南京集成电路大学成立,其中包括集成电路设计自动化学院。2021年,清华大学、北京大学、华中科技大学等十几所知名高校先后成立集成电路学院。据不完全统计,国家支持建设示范性微电子学院的高校名单:北京大学、清华大学、中国科学院大学、复旦大学、上海交通大学、东南大学、浙江大学、电子科技大学、西安电子科技大学等。以服务国家重大战略和区域经济发展为目标,瞄准集成电路“关键核心技术攻关”难题,聚焦集成电路学科前沿、聚焦核心关键技术EDA、打破学科壁垒,强化交叉融合,突破关键核心技术,培养国家急需的集成电路人才。
国内EDA厂商可以把握国家相关政策,加速研发和产品更新。
2.巨大的市场需求和增长潜力
2019 年,中国半导体市场规模为 1547 亿美元,占了全球市场份额的 33%,已经成为全球最大的半导体消费国,规模相当于美国、欧盟及日本的总和,其中芯片设计行业市场规模约为 440.7 亿美元,年复合增长率为 25.9%,市场规模暂居世界第二。我国芯片设计企业的数量自 2012 年以来逐年增加,逐步进入全球市场的主流竞争格局中,截至2019 年年底,我国芯片设计企业达到 1780 家。在 2019 年全球前 50 家芯片设计企业中,我国企业占据了 10 个席位,并且培育出华为海思等达到国际先进水平的芯片设计巨头,巨大的产业规模为国产 EDA 软件的发展提供了足够大的市场。
3. 全产业链协同发展
从整个产业链来看,EDA产品开发模式为铁三角模式,EDA的进步背后是整个产业链能力的提升。在这个三角中,第一个顶点为EDA厂商,其为Fabless提供支持;第二个顶点是Foundry厂商,通过Foundry厂在工艺文件、工艺参数(PDK)上的支持,EDA厂商才能将设计出的曲线与实际流片曲线进行拟合,吻合度越好说明工具越成熟;第三个顶点是Fabless,其是EDA工具的主要使用者,EDA的研发重点在于解决设计过程中遇到的问题,而新的问题来源都是新工艺和复杂设计,Fabless厂商复杂设计的演进会带给EDA厂商新的机会和改进空间。
随着我国Foundry厂的发展,国产 EDA 厂商有了与Foundry厂深度合作的可能。目前中芯国际已经能够量产 14nm 的芯片,同时 12nm、7nm 也在测试之中,离国际先进水平只差 1 至 2 代。国产 EDA 软件厂商与中国先进芯片代工厂商绑定,使在物理验证、综合等领域完善 EDA 软件成为可能。芯片设计公司、EDA 厂商和芯片代工厂合作进行EDA 软件研发,制定国产 EDA 软件的开发规范,成立 EDA-IP-代工厂联盟,带动 EDA 软件协同发展极有希望。
具有强大资本实力和技术储备条件的国产EDA公司,可以通过EDA-Foundry-Fabless产业生态协同合作,全力攻克前端综合和后端设计等“硬骨头”环节。
4.点工具/算法取得局部突破
尽管无法像巨头一样实现电路设计EDA 工具全流程覆盖,国内EDA 厂商已经以点工具为切入点实现了单点突破,通过各自擅长的点工具环节为客户服务,国内EDA厂家点工具情况,参见下图。
1.背景介绍
两台机器人分别控制双层托盘,让其不断地倾斜、转动,另一台机器人控制机械臂在托盘上十个障碍物间不停地穿行而不受阻碍。这段工业机器人演示视频让人看得眼花缭乱。“这可是人家2009年的技术,我们现在也无法做到”,资深机器人从业者马龙感慨地说。
想要完成如此复杂的动作,核心控制器必须足够聪明。但是由于没有掌握核心算法,国产工业机器人“大脑”还不够聪明,精准度、稳定性、故障率、易用性等关键指标远不如发那科、ABB、安川、库卡“四大家族”的工业机器人。
“工厂里一百多台‘四大家族’设备,一年也出不了几次故障;如果用国产机器人,故障率可能是人家几倍。”沈阳霹雳科技有限公司技术合伙人、资深机器人软件工程师周超说。【 】
在市场层面,中国作为制造业大国,对于工业机器人的需求量,却节节攀升,在2016年,中国工业机器人年销售7.2万台,2017年超过10万台,超过美国和欧盟的总购买量,2019年则销售14.4万台,其中71%的工业机器人由外国机器人公司供应,尤其高端机器人主要依赖进口【 】。
部分客户宁愿买二手进口机器人,缴纳一笔不菲的“重新开机费”,也不愿意使用国产机器人。“好的算法,几千行就能让机器人稳定运行不出故障;差的算法,几万行也达不到人家的水准,”周超介绍,这种差距打个比方:咱们是刚从驾校领到驾证的新手,而人家是一个具有多年经验的赛车手。
2.评价工业机器人的四大性能指标
从上面的背景可以看出,评价工业机器人的四个主要指标分别是精准度、稳定性、故障率和易用性,而不论哪个指标,国产工业机器人和国外高端工业机器人都存在较大差距。
此外,在EDA软件的算法方面,我国也取得了突破。在EDA(电子设计自动化)领域的国际会议ICCAD 2021上,华中科技大学计算机学院吕志鹏教授团队获得了CAD Contest布局布线(Routing with Cell Movement Advanced)算法竞赛的第一名。
本届竞赛的布局布线问题作为EDA芯片后端物理设计中最重要的环节,直接影响芯片的功耗、面积、时延等各项性能指标。其中,布局过程需将一系列电路单元放置于给定的长方体空间中;而布线过程则需将属于同一个网的单元引脚用导线连接起来。参赛算法需要在考虑空间容量、电压区、最小布线层、金属层布线方向等众多真实约束的情况下,确定每个单元在芯片内的位置,并同时为每个网规划无短路、无断路的信号传输路径,使得导线的加权总长度最短。
EDA属于跨领域的行业,难点主要在于算法,其核心问题在算法上通常具有极高的计算复杂度。本届竞赛的布局布线问题作为EDA芯片后端物理设计中最重要的环节,直接影响芯片的功耗、面积、时延等各项性能指标。吕志鹏教授团队所设计的启发式优化算法,在冗余导线检测、布线环路消除、并行化邻域评估加速、布局调整最优移动区域识别等多项关键技术上实现了突破。可喜的是,这支高校“战队”平均年龄仅24岁。
国产EDA公司可以考虑从EDA细分领域突破,打造最强点工具。而EDA整个版图中,仿真和验证类工具具有一定的独立性,因此仿真和验证类工具可成为重要突破口。
5.云计算、人工智能等技术与 EDA 技术的融合带来机遇
随着芯片设计的规模和复杂程度逐年增长,芯片设计需要处理大量计算,芯片验证是一项计算尤为密集的任务,云计算技术可以满足计算密集需求;同时,随着人工智能逐渐成为市场的主要驱动力,将人工智能引入 EDA 工具,可以帮助芯片设计达到更优化的目标,开发性能更高的终端产品。基于云计算、人工智能的 EDA技术可助力我国 EDA 企业快速发展。
本文的上篇介绍了EDA的概念、发展历程的四个阶段、在芯片设计中的重要性以及头部企业垄断的市场现状,并展示了EDA领域专利申请的宏观状况。
本文的下篇首先分析了下一代EDA的产业需求,包括扩大产能的需求和设计能力和计算性能提升的需求。基于上述的产业需求,进一步分析了EDA的未来发展趋势,主要包括:通过EDA+云,提供超强计算资源并降本增效、通过EDA+AI,进一步PPA更优化,使得流程更智能化。最后,基于EDA产业的未来趋势,并结合本国EDA产业现有情况,分析了我国EDA产业发展可利用的机遇,包括:国家政策支持、巨大的市场需求和增长潜力、全产业链协同发展、点工具/算法取得局部突破、云计算、人工智能等技术与 EDA 技术的融合带来机遇。(完)
四、结语
一、国产工业机器人与世界高端产品差距在哪里?
那么在这四个评价性能优劣的指标中,究竟哪一个指标才是国产工业机器人最大的瓶颈?
3.核心差距
2014年7月,富士康宣布引进1万台机器人,进行iphone的装配,为了大幅提高装配效率,但在2014年9月,这批机器人的操作准度却达不到苹果的要求,因为iPhone 6组装时实际所需精度在0.02mm之内,而富士康引进的机器人生产线操作精度最高为0.05mm,由此可见,单单是精准度就导致了产品的难产,而稳定性、故障率、易用性虽然重要,但是却不会直接导致产品无法生产。
因此,精准度便成为了核心瓶颈,而国产机器人的精准度往往与国外产品相比,会差一个数量级,直接导致很多产品难产,但是如果仅仅停留瓶颈在精准度这一认知上,只是对工业机器人有了最基本的了解,如果想进一步理解核心问题,还需要了解工业机器人的基本概念,下面会围绕精准度的实质,以及如何提升进行介绍。
在机器人分类中,主要针对市场范围广阔的串联式机器人展开,然后介绍其基本组成模块,有了对机器人物理结构的认识后,再对精准度的内涵进行进一步的探究。
1.工业机器人的分类
精准度固然重要,但是机器人如果只能在非常狭小的移动空间移动,也会阻碍机器人的应用范围,而评价机器人移动空间的广度和灵活性的指标则是“运动自由度”。工业机器人可以具有多种自由度,而其主要依据使用场景来决定,比如扫地机器人的自由度就可以相对较低,而工厂的装配型机器人就要自由度相对较高。
机器人的自由度取决于自身能够独立运动的关节数目。自由度越多,就越接近人手的动作机能,通用性也就越好,比如人类单一手的自由度就有16个,如果加上小臂、大臂、身体等,自由度则更高。
自由度高固然是好,但随之而来的烦恼就是结构设计也会越加复杂,算法的求解难度也伴随关节数目的增加而指数级增长,这是机器人设计中的一大矛盾点。现如今,主流的串联机器人以4-6自由度为主,比如6自由度的串联机器人,其机械手的位置表达可以用向量(x,y,z,α,β,γ)来表示,换句话说,只要向量相同,理论上位置就是相同的。
2.工业机器人的组成
在明白自由度决定机械手移动空间大小的基础上,人们的目标就会从移动空间的大小转向精准度的大小,而对于工业机器人的精准度,主要指的就是机械手移动到目标位置的精准度。
从结构图上,可以推断,决定机械手精准度的关键是驱动机构,因为它决定执行本体(机械臂)平移多少,转动多少角度等,而驱动机构中的伺服驱动器则是控制伺服电机旋转的关键部件,减速器又是进一步提高伺服电机旋转角度的颗粒度的核心部件,伺服驱动器和减速器共同决定了机械手操作的精准度,举个简单的例子,如果伺服驱动器可以控制伺服电机最少转动一圈,那么减速器就可以控制伺服电机最少旋转百分之一圈,两者配合,大大提高了机械臂旋转角度的最小值(从可以控制旋转1度提升到可以最小控制旋转1/60度,这就是分辨率的概念)。
因此,在伺服电机和减速器的配合下,能够精准控制伺服电机的旋转角度了。
二、工业机器人的基本概念
虽然我们知晓了三大核心部件是决定精准度的关键点,但要特别强调的是,这三大部件主要决定的是机械手精准度中的最主要的难点”绝对定位精度”,实际上,精准度是很多子概念的统称。
具体来说,精准度在工业机器人中,具体包括两个常见指标,一个是绝对定位精度,一个是重复定位精度,其中算法的瓶颈是在绝对定位精度,因为工业机器人在重复到达一个坐标位置的时候,可以记录位置的坐标(x,y,z,α,β,γ),以及坐标对应的伺服电机旋转圈数等信息,下次再到达的时候只需读取坐标相对应的伺服电机圈数等信息即可精准到达;而绝对定位精度,是在第一次到达的时候需要通过算法进行解空间的计算,算出各个关节的旋转圈数等信息。
至此,我们基于前面的基础概念和知识,已经深入到问题的最实质之处,那就是中外工业机器人的核心差距点,就在于精准度中的绝对定位精度,而在三大机器人核心部件(伺服驱动电机、减速器和核心算法(控制系统))的协同合作之下,才能够提高绝对定位精度的水平。
业内针对绝对定位精度如何提高这一问题,通过下图的思路进行检索,结果显示,不论是非专利文献,还是专利文献,文献数量都较为稀少,并且检索结果显示外国四大企业很少就核心算法申请相关专利,总体态度是秘而不宣,专利申请主要以结构等形式进行保护,而国内高校和企业在这方面也只有少量的相关专利,可见这一领域的专利布局也是较为薄弱。
下图则是驱动机构组成部件之间的关系。
大家都知道伺服驱动器和减速器是核心零件,但中国的实际情况却是无法制造高端型号,特别是高端减速器,而日本几家公司独占全球市场,日本企业现如今以高价将减速器出口给中国企业,即便如此,中国企业拿到这些关键零部件,仍然无法组装出一台精准度与外国企业等同的工业机器人,问题在于我们还缺少算法库,这是控制伺服电机和减速器的核心,这又是需要额外购买的模块。几年前,中国企业和日本企业的生产的机器人零部件往往是相同的,但因为控制核心算法的不同,机器人的售价便有10倍之巨。
如果不好理解,可以假设有两辆性能参数相同的赛车,分别交给新司机和专业赛车手驾驶进行比赛,结果可以想象,不论是驾驶的准确性、速度、稳定性都会有差异,因为司机是驾驶汽车的关键,控制车如何运转、如何前进,让车是否能够快速又安全地抵达目的地的驾驶者才是问题的核心,因此,控制的核心算法,也就是控制系统成为了决定机器人机械手精准度的最后一大关键点,由此,决定机械手的精准度的拼图至此已经完全部拼齐。
总结就是,伺服驱动器、减速器和决定设备如何运转的核心算法(控制系统)就成为了工业机器人的核心三大部件。
3.精准度的核心
三、问题解决方案
对定位精度,是一种成本相对低廉的解决方案,但问题在于光学仪器的检测精度仍然不高,以及随机误差是以黑盒的方式进行的折衷解决方案。
3. 基于激光测量的解决方案二:CN103968761A
通过方案二的简要步骤描述,可以看出,其主要硬件框架是基于激光测量仪,而算法上是基于粒子群的神经网络来得到最优DH参数,其成本相对高昂,但准确度较高,不过如何得到DH参数的过程仍然是以黑盒的形式得到的,因此
后续通过扩展关键词,并通过效果等词入手,检索到若干篇相关文献,选取其中两件专利,来一探业内现有的解决方案。
1.解决思路
绝对定位误差主要有两个来源,但是解决方案有很多,其中,最为常见的解决方案就是补偿法,补偿法顾名思义,就是对偏差进行补偿,举个简单的例子,如果你射击的结果每次都偏右,那最常见的解决方案就是你站立的角度应该向左偏转以进行补偿,从而达到结果正确的目的。
下文中检索到的两项专利是以这一思路实现的两种方案:
2.基于非激光测量的解决方案一:CN102607552A
在现有技术中,为了校正、调整安装、使用过程中的误差,需要利用各种设备进行机械手坐标位置的跟踪和测量,而用于工业机器人领域精准度最高的激光测量仪使用成本极为高昂,例如单单购买Leica AT901这一型号的测量设备,调试、保养和维护,一年的成本就需要上百万,因此,本申请为了降低高昂的安装调试成本,申请了一种非激光的提高绝对定位精度的补偿方法。
总体来看,方案一首先通过设定靶球和光学仪器来追踪机械手的位置,然后不断重复测试,通过测试来调整DH参数(即机械臂的伺服电机转动圈数等信息),然后对于其余的随机性误差再用神经网络进行消除,从而整体上提高了绝
本文在工业机器人的背景介绍中,介绍了中外工业机器人最主要的差距在于精准度,精准度直接决定了哪些产品可以被生产制造出来;随后,又讲述了工业机器人的四种分类方式,常见的可按机械结构、驱动方式、程序输入方式和按应用领域来划分,其中,机械结构中的串联式机器人用途广泛,其又以自由度来衡量机器人的移动范围的广度和灵活性。
工业机器人是由四大部分组成(控制系统、驱动系统、本体、传感系统),其中驱动系统包括减速器、伺服电机和伺服控制器,但是决定机械手精准度的核心三大部件是减速器、伺服电机和核心控制算法(控制系统)。
精准度的核心瓶颈是绝对定位精度,难度主要在于计算绝对定位精度的算法,而在中国业内,多以补偿法进行修正和提高,可以采用成本低廉的非激光式补偿法和准确度相对更高的激光式。
从技术上看,硬件的发展已有几十年历史,秘密无多,而底层算法和软件方面,基础相对薄弱,经验不足,就好比外国企业做的是操作系统,我们研发的是系统之上的各种APP,但是操作系统一旦封锁,APP也就丧失用武之地,并非没有企业尝试底层研究,历史上一旦一家企业投入巨大精力进行研发,等待市场检验成熟,外国企业就会压低此产品价格,并推出更加先进的产品,这便导致国内企业的先前投入无法回本,便鲜有企业再进行尝试,因此在基础环节就一直存在着欠债,但是为了追赶乃至超越世界先进技术,我们应该拥有更长远的眼光,更多的耐心,而知识产权人也要伴随市场创新主体,不断学习新技术,跟上时代的步伐。(完)
对于其中的数学原理、机械结构等误差都选择性忽略,仍然无法做到知其所以然的程度。
以上两种方案都是从结果反推参数的补偿式提高方法,而对于正向推导式的解决方案在专利中仍然是稀少的,因为这一领域需要深厚的数学基础、物理基础、材料科学等多学科知识的融合,时间漫长,成本巨大。
四、总结
丛磊
张文
大数据室室主任
人工智能(Artificial Intelligence,AI)又称机器智能,是指由人制造出来的机器所表现出来的智能,即通过普通计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等),使计算机能实现更高层次的应用。其研究范围主要包括自然语言处理、知识表现、智能搜索、推理、规划、机器学习、知识获取、组合调度问题、感知问题、模式识别、逻辑程序设计软计算、不精确和不确定的管理、人工生命、神经网络、复杂系统、遗传算法等领域,并实际应用于机器视觉,指纹识别,人脸识别,视网膜识别,虹膜识别,掌纹识别,专家系统,自动规划,智能搜索,定理证明,博弈,自动程序设计,智能控制,机器人学,语言和图像理解,遗传编程等领域。
兴起阶段(1950-1969):1950 年,马文•明斯基与他的同学埃德蒙一起,建造了世界上第一台神经网络计算机,这被看作是人工智能的一个起点。同样是在 1950 年,英国数学家阿兰•图灵在其题为“计算的机器与智能”的论文中提出图灵测试、机器学习、遗传算法和强化学习,直接推动人工智能早期的发展。
低谷阶段(1970-1979):当时,人工智能主要面临计算机性能不足、问题的复杂性和数据量严重缺失三个技术瓶颈。由于科研人员在人工智能方面的评估不足,导致美国国防高级研究计划部署的合作计划失败。1973 年,Lighthill 在针对英国 AI 研究状况的报告中批评了AI 在实现“宏伟目标”上的失败。种种不利形势致使人工智能遭遇了长达 6 年的科研低谷。
复苏阶段(1980-1987):1980 年,卡内基梅隆大学设计了XCON专家系统,这是一套具有完整专业知识和经验的计算机智能系统,在1986 年之前能为公司每年节省下来超过四千美元经费。有了这种商业模式后,衍生出了 Symbolics、Lisp Machines 等和IntelliCorp、Aion 等硬件、软件公司。20 世纪 80 年代,随着美国一批网络设备公司的开发,人工智能程序的系统被重视起来。其中智能化计算机软件被广泛使用,苹果、微软等公司相继开发智能操作系统。
第二次低谷阶段(1987-1996):人工智能在此阶段技术成果较少。到 1987 年时,苹果和 IBM 公司生产的台式机性能都超过了Symbolics 等厂商生产的通用计算机,专家系统风光不再。
一、人工智能发展历程
快速发展阶段(1997 至今):1997 年 5 月 11 日,IBM 的计算机系统“深蓝”战胜了国际象棋世界冠军卡斯帕罗夫,又一次在公众领域引发了现象级的 AI 话题讨论。这是人工智能发展的一个重要里程。2006 年,Hinton 在神经网络的深度学习领域取得突破,人类又一次看到机器赶超人类的希望。2016 年,谷歌 AlphaGo 4:1 战胜了人类围棋冠军李世石。大数据、云计算以及认知技术等的出现和发展,推动了深度学习技术在人工智能领域的普及,并推动语音识别、图像识别等技术快速发展并迅速产业化。
人工智能涉及计算机科学、控制论、信息论、神经心理学、哲学及语言学等多个学科,是一门新理论和新技术不断出现的综合性边缘学科。AI与思维科学是实践和理论的关系,属于思维科学的技术应用层次,延伸了人脑的功能,实现脑力劳动的自动化。
作为一门多学科交叉的课程,人工智能在机器学习、模式识别、机器视觉、机器人学、航空航天、自然语言理解、Web 知识发现等领域取得了突破性进展。机器学习与知识表达的关系,模式识别与机器人学、机器视觉的关系,是学习的难点。人工智能的研究方法、学术流派、理论知识非常丰富,应用领域十分广泛。没有一个比较科学的AI 知识体系,找不到体系和关系,会对AI 产生神龙见首不见尾的感觉,很难真正了解什么是人工智能。
通常认为智能源于脑,把脑(主要人脑)宏观层次的智能称为脑智能。而蜜蜂群、蚂蚁群等群体行为表现出的智能称为群智能。两种智能分属不同的层次和应用,脑智能是个体智能,群智能是社会智能或系统智能。模拟上述智能而生成的AI 分两种,模拟脑智能的符号智能和模拟群智能的计算智能。
AI 划分为符号智能和计算智能有些笼统。如进行仔细区分,AI 来源于心理模拟、生理模拟、行为模拟和群体模拟。
二、人工智能技术概览
符号智能的研究内容主要有知识模型化及表示、搜索理论、推理、不确定性推理、系统结构和符号学习等。计算智能的研究内容有进化计算、模糊逻辑、神经计算和统计学习。这些研究内容所涵盖的研究方法在下表 中进行详细的说明,同时较为完整地体现AI 课程的体系结构。
从思维观点看,AI 不仅仅限于逻辑思维,同时需要形象思维和灵感思维。数学是基础科学,也进入语言和思维领域,在逻辑、模糊数学等范围发挥作用。AI 是一个庞大的家族,包括众多的基础理论、重要的成果及算法、学科分支和应用领域等。如果将AI 家族作为一棵树来描述,智能机器应作为树的最终节点。将AI 划分为问题求解、知识与推理、学习与发现、感知与理解、系统与建造等五个知识单元。下表 总结了AI 家族的知识体系及其相关的学科、理论基础、代表性成果及方法。
在智能硬件方面却举步维艰,要实现人工智能的最终目标,作为载体的智能计算机系统必须由质的飞跃。人工智能的研究仍然是机遇与挑战并存。
2.4 感知与理解
机器感知涉及图像、声音、文字等信息的识别问题。
模式识别的主要目标是用计算机模拟人的识别能力,运用知识表达和推理方法,主要从图形、图像和语音抽取出模式,表征或刻画被识别对象类属特有的信息模型。模式识别前,先提取样例模式,通过模式辨识或机器学习识别出分类知识,并对新的待识别模式进行类比判决。
目前有基于模式、基于判别函数、基于统计决策、神经网络、自适应等模式识别方法。
理解包括自然语言、图形和图像的理解,是智能系统进行交流的关键。
自然语言理解需要大量知识表示方法和推理技术,在机器翻译和语音理解程序方面取得了长足进步。
机器视觉在图像处理基础上,需要模式识别、机器学习理解视觉对象。由低层视觉提取对象特征,通过机器学习理解视觉对象。
2.5 系统与建造
自从1965 年第一个专家系统DENDRAL 问世后,出现了各种实用的系统。专家系统的发展依托大量知识表示技术和推理技术,是最先发展的智能系统。
Agent 系统是典型的分布式智能系统,由多个智能个体协作或竞争体现智能,是比群智能高级的社会智能。Agent 系统采用了知识表示、推理、机器学习、模式识别等领域知识。
智能机器人是一个具有感知机能、运动机能、思维机能、通信机能的Agent 系统,需要Agent 理论和多Agent 协同系统的技术支持。机器人是人工智能标志性研究成果,是一个实用的Agent 系统。是人工智能多个基础应用的综合,同时依据了融合了多种基础理论。
3.1发展概况
(1)计算力提升
在过去5~10 年,人工智能技术得以商业化主要得益于芯片处理能力提升、云服务普及以及硬件价格下降的并行使得计算力大幅提升。
虽然人工智能已经有数十年的历史,但是两个新元素促进了人工智能的广泛应用:海量训练数据以及GPU(Graphics Processing Units) 所提供的强大而高效的并行计算。用GPU 来训练深度神经网络,所使用的训练集更大,所耗费的时间大幅缩短,占用的数据中心基础设施更少。GPU 还被用于运行机器学习训练模型,以便在云端进行分类和预测,从而在耗费功率更低、占用基础设施更少的情况下能够支持远比从前更大的数据量和吞吐量。与单纯使用CPU
2.1 问题求解
1957 年,Newell 和Simon 通过心理学实验,发现人在问题求解时思维过程的一般规律大致可分为三个阶段:①先思考出大致的解题计划;②根据记忆中的公理、定理和推理规则组织解题过程;③进行方法和目的分析,不断修正解题计划。搜索是问题求解的核心技术,符号智能进行图搜索,计算智能进行智能优化搜索。
2.2 知识和推理
知识就是力量,知识是智能基础和来源。推理是人脑的基本功能,知识与推理是AI 的重要内容。知识表示模型有谓词逻辑、产生式表示、语义网络、框架等方法。推理方法有自动推理和不确定推理等。 AI 的研究对象,大多具有不确定性。不确定性是针对系统或问题含有的不确定结构、参数等信息, 如天气预报下雨概率45.6%,此预报属结论的不确定性。
2.3 学习与发现
机器学习是指机器对自身行为的修正或性能的改善,使计算机具有学习能力,自动获取新的事实及新的推理算法。机器学习的研究重点是学习过程的认知模型、机器学习的计算理论、新的学习算法、综合多种学习方法的机器学习系统等。主要有符号学习、连接学习和统计学习等。
机器发现客观规律的过程称为知识发现,主要从大规模数据集或数据库发现知识或模式。知识发现方法有统计方法、粗集和模糊集、机器学习、智能计算等方法。知识发现的任务分为数据总结、概念描述、分类、聚类及相关性分析等。机器学习的研究成果主要是机器的直接学习,类似人类通过阅读、讲课等间接继
三、人工智能的发展
(3)用户需求
从C端用户的需求来看,人工智能解决的是与人相关的健康、娱乐、出行等生活场景中的痛点。人的需求会随着社会的发展水平不断升级,人工智能的出现正契合了人们对于智能化生活的需求。从智能音箱到智能手环,再到VR、AR 以及无人驾驶汽车的应用,无不体现人工智能为C端用户的生活便捷和智能化带来的改变。
从B端需求来看,企业对于效率提升的需求旺盛,而人工智能可以显著提高效率,并且B端应用场景和需求比较明确,人工智能在各行业渗透速度加快。
从G端政府对人工智能的需求来看,人工智能切入政府关注民生、提升职能部门办事效率等多方面的需求,从智慧医疗、智慧城市到智慧政务,人工智能正快速的落地和应用,并为政府效率提升和城市发展带来新一轮的动力。
综合而言,C端用户重视体验和产品,且需求相对多样复杂,然而目前技术还不够支撑体验很好的产品和应用(如服务机器人);B端和G 端更注重效率提升且需求明确,因此目前大部分人工智能企业选择以此为突破。
3.2人工智能产业链
总体来看,人工智能行业可分为基础支撑层、技术层和应用层。
基础层提供计算力,主要包含人工智能芯片、传感器、大数据及云计算。其中芯片具有极高的技术门槛,且生态搭建已基本成型。目前该层级的主要贡献者是Nvidia、Mobileye 和英特尔在内的国际科技巨头。中国在基础层的实力相对薄弱。
技术层解决具体类别问题。这一层级主要依托运算平台和数据资源进行海量识别训练和机器学习建模,开发面向不同领域的应用技术,包括语音识别、自然语言处理、计算机视觉和机器学习技术。科技巨头谷歌、IBM、亚马逊、苹果、阿里、百度都在该层级深度布局。中国人工智能技术层在近年发展迅速,目前发展主要聚焦于计算机视觉、语音识别和语言技术处理领域。除了BAT在内的科技企业之外,出现了如商汤、旷视、科大讯飞等诸多独角兽公司。
应用层解决实践问题,是人工智能技术针对行业提供产品、服务和解决方
人工智能芯片价格下降而尺寸缩小。预计2020 年,全球的芯片价格将比2014 年下降70% 左右。数据处理的费用下降。随着大数据技术的不断提升,人工智能赖以学习的标记数据获得成本下降,同时对数据的处理速度提升。宽带的效率提升。物联网和电信技术的持续迭代为人工智能技术的发展提供了基础设施。2020 年,接入物联网的设备将增加至500亿台。代表电信发展里程的5G 的发展,将为人工智能的发展提供最快1Gbps 的信息传输速度。高效人工智能技术的广泛应用。近年来,我国在语音识别和图片识别等人工智能技术层的应用得到了长足的发展。
(2)顶层设计
随着人工智能对社会和经济的影响日益凸显,各国政府先后出台人工智能发展政策,并将其上升到国家战略的高度。截至目前,包括美国、中国和欧盟在内的多国和地区颁布了国家层面的人工智能发展战略。
我国从2015 年开始,先后发布多则支持人工智能发展的政策,为人工智能技术发展和落地提供大量的项目发展基金,并且对人工智能人才的引入和企业创新提供支持。《新一代人工智能发展规划》是中国在人工智能领域进行的第一个系统部署文件,具体对2030年中国新人工智能发展的总体思路、战略目标和任务、保障措施进行系统的规划和部署。政策根据中国人工智能市场目前的发展现状分别对照基础层、技术层和应用层的发展提出了要求,并且确立中国人工智能在2020、2025以及2030 年的“三步走”发展目标。
(Central Processing Units)的做法相比,GPU 具有数以千计的计算核心,可实现10~100倍的应用吞吐量。
海量的数据是人工智能发展的必备条件。在人工智能的商用发展中,使用高质量和高关联度的数据训练人工智能可以快速地提高人工智能算法的准确性,使其更快更准确地应用到更多的行业中。自2000 年以来,互联网和个人移动设备产生了海量的数据,伴随着物联网技术的强势发展,更大规模的数据将会产生。目前,中国在以数据量为发展前提的计算机视觉和语义理解算法上有了长足的进步。涌现出了商汤、依图、Face++、科大讯飞等独角兽和上市公司。
算法作为人工智能技术的引擎主要用于计算、数据分析和自动推理。目前美国是人工智能算法发展水平最高的国家。从高校科研到企业的算法研发美国都占据着绝对的优势。目前以Facebook、谷歌,IBM 和微软为主的科技巨头均将人工智能的重点布局在算法和算法框架等门槛高的技术之上。在中国,目前仅少数几家科技巨头拥有针对算法的开放平台。其中,百度的Paddlepaddle平台是典型的深度学习算法的开源平台。
2. 技术层
从技术领域来看,主要包括了计算机视觉、语音识别、自然语言理解、机器学习等。清华大学数据显示,计算机视觉、语音、自然语言处理是中国市场规模最大的3 个应用方向, 分别占比34.9%,24.8% 和21%。
3. 应用层
未来,场景数据完整(信息化程度原本比较高的行业或者数据洼地行业),反哺机制清晰,追求效率动力比较强的场景或将率先实现人工智能的大规模商业化。
从全球来看,Facebook、苹果将重心集中在了应用层,先后在语音识别、图像识别、智能助理等领域进行了布局。得益于人工智能的全球开源社区,这个层级的门槛相对较低。目前,应用层的企业规模和数量在中国人工智能层级分布中占比最大。
1. 基础层
作为人工智能发展的基础,以芯片为载体的计算力是人工智能发展水平的重要衡量标准。从市场角度来看,对人工智能芯片的需求主要来自训练、云端和终端推断3 个方面,由此形成包括训练、云端终端人工智能芯片市场。
• 通用类AI芯片: 面向人工智能企业和实验室研发阶段。美国的英伟达的GPU 占统治地位。谷歌也以其ASIC 芯片和TensorFlow 的软硬件结合构建了横跨训练和云端推断层的TPU生态。中国由于基础薄弱,在训练层市场上鲜有发展。
• 云端AI芯片: 在云端推断方面,各大巨头纷纷在FPGA 芯片+ 云计算上布局。FPGA 芯片的主要玩家为英特尔、Altera。目前包括亚马逊AWS、微软Azure、IBM、Facebook 都采用了FPGA 加速服务器。中国的云计算数据中心阿里云、腾讯云、百度云也布局了云端推断市场。
• 终端AI芯片:是高度定制化的终端推断设备。在终端推断方面,针对智能手机、无人驾驶、计算机视觉、VR 设备等相关的芯片公司包括苹果、Mobileye、Movidus、微软等。目前中国在终端人工智能芯片上也有了长足的发展。寒武纪、地平线和深鉴科技等中国芯片厂商都在终端人工智能芯片的商用上做出了成绩。
案,其核心是商业化。应用层企业将人工智能技术集成到自己的产品和服务,从特定行业或场景切入(金融、安防、交通、医疗、制造、机器人等)。
自2006年,“AI教父”杰弗里•辛顿以及他的学生鲁斯兰•萨拉赫丁诺夫提出深度学习理念后,基于深度学习技术的人工智能浪潮席卷全球。机器通过学习样本数据的内在规律与层次,从而获得预测能力。随着深度学习算法从学术界走向工业应用,大数据资源的使用也越来越普遍。无论是早期如语音识别、人脸识别等应用数据生产,还是互联网电商体系下的行为数据生产,都是基于大规模数据分析结果,以此推动了整个数据产业的发展。
根据传统认识,尖端人工智能依赖于大量数据。对人工智能的这一认识让数据成为了一种重要的战略资源,一个国家或公司可以访问多少数据被视为人工智能进步的关键指标。
2021年9月,美国安全与新兴技术研究中心发布报告《小数据人工智能的巨大潜力》,针对“人工智能依赖于大量数据,数据是重要的战略资源,可用数据的数量被视为人工智能进展的关键指标”这一传统观点,报告指出,这种对数据在人工智能中的作用的理解是不全面的,可能会对政策制定者产生误导。当前许多人工智能系统确实利用了大量数据,但并非所有人工智能系统都需要大量数据作为支撑。对于大数据的过度强调,忽视了小数据人工智能的存在,也低估了小数据人工智能方法的巨大潜力。
小数据方法是一种只需少量数据集就能进行训练的人工智能方法。它适用于数据量少或没有标记数据可用的情况,减少对人们收集大量现实数据集的依赖。与依托于海量数据总结规律的学习方法不同,小数据方法是基于人类的先验知识,在仅有少量数据的情况下利用小样本数据集进行训练的人工智能方法,大致分为迁移学习、主动学习、强化学习、贝叶斯方法、数据生成等。
迁移学习(Transfer learning)的工作原理是先在数据丰富的环境中执行任务,然后将学到的知识“迁移”到可用数据匮乏的任务中。其可以将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。通俗来讲,人在实际生活中有很多迁移学习,比如学会骑自行车,就比较容易学摩托车,学会了C语言,在学一些其它编程语言会简单很多。迁移学习的目的就是让机器像人类一样学会举一反三。
比如,开发人员想做一款用于识别稀有鸟类物种的应用程序,但每种鸟可
广阔的产业及解决方案市场是中国人工智能发展的一大优势。以上优势的形成除了得益于大量的搜索数据、丰富的产品线以及广泛的行业提供的市场优势,还因为各大国内外的科技巨头对开源科技社区的推动,帮助人工智能应用层面的创业者突破技术的壁垒,将人工智能技术直接应用于终端产品层面的研发。从行业来看,人工智能已经在医疗、健康、金融、教育、安防等多个垂直领域得到应用。(完)
魏峰
一、小数据AI研究背景
二、什么是小数据AI
1. 缩短大小实体间AI能力差距
AI 应用程序的大型数据集价值在不断增长,不同机构收集、存储和处理数据的能力差异明显。人工智能的“富人”(如大型科技公司)和“穷人”(例如小型创业公司)之间也因此拉开差距。如果迁移学习、自动标记、贝叶斯方法等能够在少量数据的情况下应用于人工智能,那么小型实体进入数据方面的壁垒会大幅降低,这可以缩减大、小实体之间的能力差距。
2. 减少个人数据的收集
2021年11月1日,《个人信息保护法》正式生效,对个人信息处理者收集、加工、使用、传输个人信息都提出了进一步要求。《个人信息保护法》要求,任何组织、个人不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息;个人信息处理者利用个人信息进行自动化决策,不得对个人在交易价格等交易条件上实行不合理的差别待遇;在公共场所安装图像采集、个人身份识别设备,应当设置显著提示标识。当今,个人数据收集将受到限制。
而小数据方法能够显著减少收集个人数据的行为,人工生成新数据(如合成数据生成)或使用模拟训练算法的方法,一方面不依赖于个人生成的数据,另一方面则可以抹掉部分敏感的个人信息。通过减少收集大规模真实数据的需要,让使用机器学习变得更简单,从而让人们对大规模收集、使用或披露消费者数据不再担忧。
3. 促进数据匮乏领域的发展
可用数据的爆炸式增长推动了人工智能的新发展。但对于许多亟待解决的问题,可以输入人工智能系统的数据却很少或者根本不存在。比如,为没有电子健康记录的人构建预测疾病风险的算法,或者预测活火山突然喷发的可能性,或者对某种濒危物种的图片特征进行深度学习。这类事件的样本量非常少或者根本没有,在这种情况下只能采用小数据方法训练模型。小数据方法以提供原则性的方式来处理数据缺失或匮乏。它可以利用标记数据和未标记数据,从相关问题迁移知识。小数据也可以用少量数据点创建更多数据点,凭借关联领域的先验知识去探索新领域的问题。
4. 避免脏数据问题
很多大型机构需要耗费大量人力物力进行数据清理、标记和整理才能够“净化”掉脏数据。小数据方法中数据标记法可以通过自动生成标签更轻松地处理大量未标记的数据。迁移学习、贝叶斯方法或人工数据方法可以通过减少需要清理的数据量,分别依据相关数据集、结构化模型和合成数据来显著降低脏数据的规模。
数据标记(Data labeling)适用于标记数据有限,但有大量未标记数据的情况,使用自动生成标记或主动学习(active learning)等方法来理解现有的未标记数据。
例如,主动学习已被用于皮肤癌诊断的研究。图像分类模型最初在100张照片上训练,根据它们的描述判定是癌症皮肤还是健康皮肤从而进行标记。然后该模型会访问更大的潜在训练图像集,从中可以选择 100 张额外的照片进行标记并添加到它的训练数据中。
人工数据生成(Artificial data generation)是通过创建新的数据点或其他相关技术,最大限度地从少量数据中提取更多信息。
举一个简单的例子,计算机视觉研究人员已经能用CAD软件生成日常事物的拟真 3D 图像,当真实图像数据集样本过少时,则可以利用拟真图像来增强现有的图像数据集。
人工合成数据的能力不仅在处理小数据集时有用。很多情况下,收集到的个人数据中大多包含隐私信息(比如个人的健康记录),但研究人员只对数据的整体分布感兴趣,这时人工合成数据的优势就显现出来了,它可对数据进行随机变化从而抹去私人痕迹,更好地保护了个人隐私。
贝叶斯方法(Bayesian methods)是通过统计学和机器学习,将有关问题的先验信息纳入解决问题的方法中,更适用于数据有限的情况,可以通过有效的数学形式写出关于问题的信息。贝叶斯方法侧重于对其预测的不确定性产生良好的校准估计,其把已有的常识性信息通过先验概率嵌入到公式里,而新的观测会修正先验得到后验概率。
强化学习(Reinforcement learning)是一个广义的术语,指的是机器学习方法,其中智能体(计算机系统)通过反复试验来学习与环境交互。强化学习通常用于训练游戏系统、机器人和自动驾驶汽车。
例如,强化学习已被用于训练学习如何操作视频游戏的AI系统,系统开始时对玩游戏知之甚少或一无所知,但通过尝试和观察逐渐摸索出奖励信号出现的原因,从而不断学习(在视频游戏的例子中,奖励信号常以玩家得分的形式呈现)。
强化学习系统通常从大量数据中学习,需要海量计算资源,因而它们被列入其中似乎是一个非直观类别。强化学习被襄括进来,是因为它们使用的数据通常是在系统训练时生成的,而并不是预先收集和标记的。
三、小数据AI的优势
能只有几张标有其物种的照片。运用迁移学习,他们先用更大、更通用的图像数据库(例如ImageNet)训练基本图像分类器,该数据库具有数百万张图像并被标记为数千个类别。当分类器能区分狗与猫、花与水果、麻雀与燕子后,他们就可以将更小的稀有鸟类数据集“喂养”给它。然后,该模型可以对学习到的图像分类的知识进行“举一反三”,利用这些知识从更少的数据中学习新任务(识别稀有鸟类)。
人工智能不等于大数据,随着信息安全越来越受到重视,大量收集个人信息的行为很可能受到限制,一些新兴的科技公司也可能不再因为缺乏大量数据来源而阻碍技术的发展,所以在未来,基于小数据方法的人工智能将会越来越多的被运用。而针对小数据的具体算法,强化学习自2016年之后以较快的发展速度,可能会拓宽小数据方法越来越多的应用场景。贝叶斯算法则是传统有效的小数据解决方案,在未来也会持续应用,而对迁移学习的研究也在持续进展,在未来迁移学习也可能会被更广泛的应用。整体来讲,小数据AI的潜力还是不容小觑的,很可能成为未来人工智能时代的一个新的发展趋势。(完)
1、申请量变化趋势
在申请量方面,过去十年中五种小数据方法的曲线如图所示。可以看出强化学习和贝叶斯方法是申请量最大的两个类别。贝叶斯方法的申请量在过去十年间稳步增长,强化学习相关申请量从2015年才开始有所增长,2018—2021年期间的增长尤为迅速。因为深度强化学习一直处于瓶颈期,直到2015年才经历了技术性变革,此后技术迅速发展。相比之下,过去十年间,人工数据生成和数据标记技术申请量一直较少。最后,涉及迁移学习技术的申请在 2016年之前数量都比较少,但到 2021 年也实现了大幅增长。
2、申请人分布情况
接下来的两张图示出了涉及小数据方法最近十年国内外申请人情况,可以看出国内申请人以高校和科研院所为主,企业包括国家电网、南方电网和平安保险三家,除了中国科学院和国家电网之外,其余申请人的申请量相差不大;国际申请量比较靠前的申请人大多是大型科技公司,国内企业只有华为排在前十,这一结果也与国内的科技公司更注重大数据AI的现状比较相符。
五、总结
四、小数据AI专利情况
郝宁
王荣
大数据室副室主任
人工智能AI、机器学习ML、深度学习DL已经成为当下最热门的前端科技之一。这三者其实是子-子集的关系。随着技术发展和应用的深入,深度学习越来越重要,成为AI的金字塔。本文总结了人工智能领域在2022年及以后数年内最热门的八大应用领域和方向。
基于神经网络架构的深度学习技术是机器学习的一个子集,它模仿人类
获取知识的方式。在神经网络中,“深度”是指隐藏层的数量,传统神经网络中的隐藏层数量为2到3层,而深度神经网络可以容纳 150 层甚至更多。作为包括统计和预测建模在内的数据科学的一部分,深度学习是一个重要组成部分。深度学习的一个主要好处是它加快并简化了收集、检查和分析数据科学家使用的大量数据的过程。
1、 自动驾驶汽车
驾驶的目的是对外部因素做出安全反应,例如周围的汽车、路牌和行人,以便从一个点到达另一个点。尽管我们距离全自动驾驶汽车还有一段距离,但深度学习对于让这项技术达到今天的水平至关重要。
自动驾驶在当今时代得到了推动,并且比以往任何时候都更强大,这得益于许多进步,例如性能更高的显卡、强大的处理器和大量信息。除了缓解交通拥堵外,它还将提高安全性。自动驾驶汽车是自主决策系统。惯性探测器和 GPS 是可以提供数据流的几种传感器。然后,深度学习算法对数据进行建模,并根据汽车的环境做出决策。
例如,Pony.ai 采用深度学习为其规划提供动力,并为其独立车辆技术提供控制模块,该技术允许汽车在八车道道路上导航、控制事故等。谷歌子公司 Waymo 是另一个自驾驶使用深度学习的汽车公司。
2、 视觉识别
图像识别涉及识别照片并根据其特征将它们组织成单独的类别。因此,图像识别软件和应用程序可以确定照片中显示的内容并区分它们。事实上,可以确定您已经在您的社交媒体应用程序或手机上看到了这一点。本质上,它根据照片中人物的位置、场合等对图像进行分类。
考虑浏览一组旧照片以记住一些美好的旧时光。有些照片需要取景,但首
3、 聊天机器人
聊天机器人是通过文本或音频消息模仿人类对话的计算机软件程序。当我们现在使用在线平台时,聊天机器人非常普遍,今天的人工智能系统能够理解用户的需求和偏好,并推荐在很少或几乎没有人类干预的情况下执行哪些操作。目前市场上有许多流行的会话助手,包括苹果开发的 Siri、微软开发的 Cortana、亚马逊和谷歌助手开发的 Alexa。
随着聊天机器人的出现,所有平台现在都可以为其访问者提供定制的体
验。聊天机器人使用机器学习算法和深度学习算法来生成回复的组合。经过大量数据的训练,聊天机器人可以理解客户的要求,以及他们面临的困难,并以非常简单的方式指导和帮助客户解决他们的问题。此外,它还有许多其他好处,比如它可以为客户节省时间,并且随着聊
天机器人的出现,公司雇用的人数减少了。员工以降低成本并改善客户体验。
4、 自然语言处理(NLP)
NLP是一种解释和处理人类语音的算法,称为自然语言处理,属于语言
学、计算机科学和人工智能领域。我们需要多年的人类互动和接触各种社会环境来学习和理解一种语言的语调和模式的变化,所以我们不能指望机器自己学习所有这些东西。
在深度学习和构建对每种情况的正确响应的帮助下,NLP训练机器可以
轻松地做到这一点。NLP 中使用了各种算法来分析数据,从而使系统能够产生人类语言或识别人类语音中的音调变化。深度学习曾经不受欢迎,现在越来越受欢迎。自然语言处理领域,包括提供各种问题的答案、模型构建等。它经常用于升级自然语言处理的文本分析功能和特性。这些建议在将早期未结构化的文本转换为有益信息方面有很大帮助。
5、 虚拟助手
亚马逊开发的 Alexa、Apple 开发的 Siri 和 Google Assistant 等虚拟助手是深度学习的流行应用程序。这些用于许多家庭和办公室,以简化日常任务。使用这些助手的人数正在增加,并且这些助手变得越来越聪明,并且在您与他们互动时越来越多地了解您和您的偏好。虚拟助手使用深度学习来了解我们的兴趣,例如我们最喜欢的聚会场所或我们最喜欢的电视节目。为了理解我们所说的,他们考虑了人类的语言。虚拟助手还可以将我们的声音翻译成文本格式,为我们安排会议等。
虚拟助手可以做所有事情,从处理到即时自动接听我们的工作电话,帮助我们和我们的团队管理任务。虚拟助理还可以通过汇总文件来协助我们撰写和邮寄电子邮件给您的老板、客户、老师等。
一、什么是深度学习
二、深度学习八大热门应用领域
先,我们喜欢按正确的顺序排列它们。由于没有有关照片的信息,因此只能手动执行此操作。我们所能做的就是根据照片的拍摄日期进行排列,但有时下载的照片中缺少日期。由于深度学习,现在可以根据照片的拍摄地点或长相、个人、场合等来排列图像。
但是深度学习算法是能够直接从数据中学习的通用模型,因此它们非常适合机器人技术。当然,机器人技术和人工智能提高了人类的能力,提高了生产力并实现了从简单思维到类人能力的转变。
深度学习使计算机在性能和行为方面更像人脑。它已在各行各业中脱颖而出。有了深度学习的应用,我们的生活变得更轻松、更高效,从自动驾驶汽车到语音助手,它无处不在。
但是,有关深度学习及之上的人工智能伦理却越来越多的受到关注和挑战。(完)
此外,虚拟助手在很多地方都得到了应用,并且还被集成到各种设备中,包括物联网和汽车。由于互联网和智能设备,这些助手将继续变得越来越智能。
6、 地震预报
由于地震预报的破坏性后果,科学家正在努力解决地震预报问题。成功的地震预报可以挽救无数生命。科学家们正试图根据地震发生的时间和地点以及震级来预测地震。
Von mises 屈服准则被深度学习用于预测地震,深度学习的这种应用帮助科学家将地震预测时间提高了 5000%。我们从仅仅猜测地震何时会发生转变为能够准确预测地震何时会发生。
在大量数据上教授的深度学习模型将能够通过从原始数据中提取元素来从数据中学习,以识别自然事物并就广泛的学科领域做出正确的决策。此
外,由于计算能力的改进,大型模型的训练变得更加容易。深度学习由于其优势使地震预报成为可能。
7、 欺诈检测和新闻聚合
如今的货币交易正在走向数字化,在深度学习的帮助下正在开发许多应
用程序,这些应用程序可以帮助检测欺诈行为,从而帮助金融机构节省大量资金。此外,现在可以过滤新闻提要以删除所有不需要的新闻,并且读者可以阅读基于他们感兴趣的领域的新闻。
如今,检测假新闻非常重要,因为互联网上充斥着大量的博客、研究论文、新闻和许多其他形式的信息来源,而且它们都不忠实。在机器人的帮助下,假新闻在今天的传播速度非常快,因此很难判断新闻是假的还是真实的。
除了开发分类器来检测虚假和有偏见的新闻外,深度学习还可用于通知您潜
在的隐私侵犯并删除内容。训练和验证用于新闻检测的深度学习神经网络的主要挑战是数据中充斥着来自世界各地的意见,很难确定新闻报道是有偏见的还是中立的。
这就是为什么深度学习是一种有价值的工具。
8、 机器人
深度学习在计算机视觉领域的良好成果推动了一些机器人技术的应用,
深度学习在机器人技术中被大量用于执行类似人类的任务。机器人的构建是为了了解它们周围的世界,对它们来说弄清楚什么是什么是非常重要的。如果你回到 20 年前,机器人无法弄清楚许多基本的区别,比如汽水瓶和钢笔之间的区别,因为它们的形状相同。
众所周知,机器人领域对学习算法提出了一系列独特的挑战,这些挑战是:为机器人执行的每项工作编写全新的学习算法和元素可能很困难,甚至是不可能的。第二个挑战是机器人必须处理现实世界中的大量多样性,这使得许多学习算法难以处理。
三、小结
大数据室审查员
刘芳
大数据室46期审查员,审查领域涉及信息检索、数据库、 图像处理等
在“稳增长”经济政策大背景下,2022年2月17日,由国家发改委、中央网信办、工信部和国家能源局联合启动——在西部建立数据中心,支撑东部算力需求,同时带动西部发展的国家战略工程,简称为“东数西算”工程,目前包括:8个国家算力枢纽节点,10个国家数据中心集群。
东数西算中的“数”是指的是数据,“算”是指的是算力,即数据中心对数据的处理能力。数据中心是东数西算工程的核心组成部分,近些年,随着数字经济的发展和应用的不断增加,我国数据中心的建设进入了高速扩张的阶段,2021年底,我国IDC机架数量达415.06万架,目前与数据中心相关的专利申请共计141390件。
本文将以“数据中心”为线索为大家展现目前“东数西算”的发展概况。经统计,东数西算相关公司发明专利数量前十的公司如下:
一、不间断电源技术
不间断电源(Uninterrupted Power Supply,简称UPS)是一种含有储能装置的电源变换装置,为关键负载提供稳定可靠交流电源。当电停电时,以内部储能装置为输入电源,不间断地为负载供电,保证负载的正常运转。不间断电源除了满足为用户不间断供电的功能外,还有净化电源,提供高电能质量的作用。UPS一般采用双变换工作模式,在工作的时候,需要消耗电能,其输出功率越大,消耗的电能 也越多。为了节能,在电网质量比较好的时候,提出了经济运行ECO模式工作的概念,即电网直接通过UPS 的旁路线给用户的负载提供市电,UPS内的主要部分处于待机状态,其输出功率为零,消耗的电能也比较低,使整机的效率较高。
UPS可以根据市电质量采用在线模式和ECO模式为负载提供电能。例如,在市电质量不好的情况下采用在线模式,在市电质量好的情况下采用ECO模式。ECO模式也称节能运行模式、旁路模式或节电模式。UPS可以用两条通路为负载供电:在线主回路和旁路。
在采用在线模式时,如果市电正常,则整流器和逆变器组成的在线主回路给负载供电,如果市电故障,则由UPS的电池和逆变器组成的放电回路为负载供电。在采用ECO模式时,UPS的在线主回路处于备用或待机状态,旁路处于激活状态,负载由市电供电。UPS可以不断监控市电输入,在市电质量好的情况下切换到旁路运行,并在市电质量下降到一定程度时切换到由UPS的逆变 器为负载提供电能。市电可以指与在线主回路提供的交流电的电压、波形、频率、 接地系统和电阻抗相同或相似的电源。
右图是不间断电源的一个具体实施例(参见CN103337901A 20131002):不间断电源包括:主回路110和旁路120。主回路120包括:整流电路111、母线112、逆变电路113、直流转直流(DC/DC)114、电池115、充电器116和辅助电源117。
二、灾备技术
灾备技术是指在在一个数据中心发生故障或灾难的情况下,其他数据中心可以正常运行并对关键业务或全部业务实现接管,达到互为备份的效果。数据中心整体灾备技术可以分为四种:冷备、暖备、热备和双活。
冷备技术是中小型数据中心或者承载业务不重要的局点经常使用的灾备技术。冷备技术的用站点通常是空站点,一般用于紧急情况;或者仅仅是布线、通电后的设备。在整个数据中心故障时无法提供服务时,数据中心会临时找到空闲设备或者租用外界企业的数据中心临时恢复,当自己数据中心恢复时,再将业务切回。
暖备技术是在主备数据中心的基础上实现的,前提是拥有两个一主一备的数据中心。备用数据中心为暖备部署,应用业务由主用数据中心响应,当主用数据中心出现故障造成该业务不可用时,需要在规定的RTO(Recover Time Objective,即灾难发生后,信息系统从停顿到恢复正常的时间要求)时间以内,实现数据中心的整体切换。
热备最重要的特点是实现了整体自动切换,其它和暖备实现基本一致,实现热备的数据中心仅比暖备的数据中心要多部署一项软件,软件可以自动感知数据中心故障并且保证应用业务实现自动切换。业务由主用数据中心响应,当出现数据中心故障造成该业务不可用时,需要在规定的RTO时间内,自动将该业务切换至备用数据中心。
通过双活技术可以实现主备数据中心均对外提供服务,正常工作时两个数据中心的业务可根据权重做负载分担,没有主备之分,分别响应一部分用户,权重可以是按地域划分,或数据中心服务能力或对外带宽。当其中一个数据中心出现故障时,另一数据中心将承担所有业务。
以下是该技术领域发明专利前十的公司专利分布概况。
在不间断电源100采用在线模式时,整流电路111可以将输入的市电经 过整流转变成直流电施加到母线112上,然后经逆变器113将母线112的电 压经过逆变变换成交流电给负载供电。在不间断电源100采用ECO模式时, 旁路120用于将不间断电源旁路,使得不间断电源切换至旁路运行,即由市电直接给负载供电。充电器116用于给电池115充电,并且可以由母线112 或市电供电。辅助电源117用于给不间断电源100的各个部分提供工作电源,并且可以由母线112、市电和/或充电器116供电。
在不间断电源100采用在线模式时,如果市电故障,电池115的输出可以经过直流转直流(DC/DC)电路114(放电电路)施加到母线112上,从而保证负载不间断供电。一般情况下,充电器116停止工作。母线112的能量由电池115提供。如果充电 器工作,能量从母线112通过充电器116到电池115,又从电池115通过 DC/DC电路114到母线112。特殊情况下,母线112可以通过逆变器113从 旁路120取电,这样充电器116可以工作,给电池115充电。
以下是该技术领域发明专利前十的公司专利分布概况。
四、负载均衡技术
负载均衡技术是指采用一组服务器群代替单台服务器,该服务器群由多台服务器组成,每台服务器都具有同等地位,均能单独对外提供服务,在该服务器群前增加负载均衡设备,客户端只需要访问负载均衡设备提供的虚拟地址,再由负载均衡设备按一定的规则选择一台服务器为客户端提供服务的技术。该技术可以平衡服务器群中所有 服务器之间的通信负载,从而提高整个网站的性能和响应能力,提高服务器群的效率。以下是该技术领域发明专利前十的公司专利分布概况。
三、服务器冷却技术
数据中心内存在大量的服务器、存储、网络设备,消耗大量能源,同时也散发着大量热量。为保证数据中心稳定运行,通常需要专用精密空调来为数据中心散热。有数据显示,数据中心冷却功耗占到整体功耗的45%-50%,这也是数据中心的PUE值难以降低的主要原因之一。
在早期计算机发热量还不是很大的时候,被动式散热技术广泛使用。被动式散热主要通过加装与发热元件接触的金属散热片,增加散热表面积来达到散热目的,热量被直接转移到空气中。传统风冷散热则主要是在被动式散热器上加装风扇来加快散热片表面的空气流动从而加强散热效果,这种冷却方式又被称为空冷。但是,由于空气的换热效率差、热流密度很低,造成风冷服务器具有冷却能耗高、噪音大、设备密度低、易积灰等先天性缺陷,已经成为服务器冷却技术发展瓶颈。特别是随着高性能计算机的发展,服务器布局密度越来越高,对冷却技术的要求也愈加苛刻,传统空冷技术所发挥的作用愈发显得捉襟见肘。
在这种情况下,液体冷却技术便应运而生,且已逐步成为服务器冷却技术的主要趋势。液冷是一种安静且高效能的散热方式,其原理是:吸热装置接收来自被散热部件发出的热量以传给吸热装置内的冷却液,通过泵带动冷却液流动,将热量转移到散热片处散发掉,周而复始地运作便达到散热的目的。近年来,随着服务器液冷技术的不断发展及推广,不少著名科技企业已经开始致力于液冷技术的研究。
以下是该技术领域发明专利前十的公司专利分布概况
五、数据迁移技术
数据迁移技术是指数据在几个不同版本、地理位置之间转换时,为保障系统不间断运行,降低数据在转换时对系统运行产生影响的技术。将数据从一台机器迁移到另一台机器,或者将数据从一个数据库迁移到另一个数据库,并且这些数据在转移后能正常运行。对于单个数据来说,迁移的过程中,被迁移的数据是无法被使用的,只有当数据迁移完成后,该数据才可以被访问或修改。 以下是该技术领域发明专利前十的公司专利分布概况。
七、数据信息安全
数据安全包括两个方面,第一是数据本身的安全,主要指采用加密算法对数据进行加密,实现数据被主动保护,相关的技术包括数据加密、数据完整性验证、数据鉴权等;第二是数据防护的安全,主要指采用现代信息存储手段对数据进行主动防护。机密性、完整性和可用性是数据安全的三要素。
数据信息安全是指数据信息的硬件、软件及数据受到保护,不受偶然的或者恶意的原因而遭到破坏、更改、泄露,系统连续可靠正常地运行,信息服务不中断。他是一门涉及计算机科学、网络技术、通信技术、密码技术、信息安全技术、应用数学、数论、信息论等多种学科的综合性学科。数据信息安全包括的范围很广,大到国家军事政治等机密安全,小到如防范商业企业机密泄露、防范青少年对不良信息的浏览、个人信息的泄露等。建立数据中心,数据信息安全是必要保证。
以下是该技术领域发明专利前十的公司专利分布概况。
六、数据同步技术
2021年中央经济工作会议的主基调是“稳增长”,稳增长必然要增加基建的政策扶持,基建包括传统基建和新基建,传统基建主要包括铁路、公路、机场、港口、水利设施等等,新基建包括5G基站、人工智能、工业互联网、大数据中心、新能源汽车充电桩、特高压、城际高速铁路和城市轨道交通。东数西算工程是新基建的主要构成,是国家未来战略布局的确定性方向,对大数据领域的专利数据进一步挖掘和分析,具有很强的现实意义。 (完)
数据同步技术是指在不同存储设备、或终端与终端,终端与服务器之间的数据备份与信息共享操作,使得存储在各个数据源处的数据保持完整性和统一性。 目前数据同步处理领域常见的主流同步方式包括下述几种:
-
任务调度数据同步方式,该方式通过由任务调度管理系统加载注册的定时程序基于定时器配置的时间点来定时执行数据同步操作。这种基于任务调度的定时数据同步的方式对于一些实时性要求较高的应用场景,例如支付场景,会存在处理上的时间差异,无法实现实时的数据同步处理。因此,存在数据同步实时性问题。
-
运行脚本任务方式,该方式以数据库运行脚本形式,或服务器Shell脚本的形式配置系统定时任务以执行完成数据同步操作。这种数据库运行脚本形式的数据同步方式本质上还是基于预定的时间点来定时执行数据同步操作,因此,它还是无法解决数据同步实时性问题。
-
数据库触发器同步方式,即利用数据库自带的触发器在数据写入或更新时执行数据同步处理和转换。这种触发器数据同步方式是基于数据表记录写入或更新操作来触发完成数据同步转换,因此,其能够实现实时的数据同步。但同时,由于当读写操作较多时,每次读写都会触发相应的数据同步操作,因此,对数据库本身的性能消耗较大,同时影响原系统逻辑的处理效率。
-
单纯依赖消息队列的同步方式,该方式基于消息队列的生产者和消费者模式,在系统做出数据操作的同时,发送相关的消息至消息队列中间件,再转由同步服务处理。所述消息队列的同步方式主要具有异步、低耦合、消峰填谷等优点,但是其也存在诸如可用性、复杂性、一致性等问题。
以下是该技术领域发明专利前十的公司专利分布概况。
大型数据中心为了满足大数据运算、传输和保存的能力,需要配置大量的硬件设备,对电能的消耗巨大。据中国电子技术标准化研究院发布的《绿色数据中心白皮书》,2018年全国数据中心耗电量达到1608.9亿千瓦时,占我国全社会用电量的2.35%。
因此,提升数据中心的能源利用效率、降低碳排放,是“东数西算” 契合“双碳节能”目标的一个核心要点。
实现这一目标,除了利用西部地区得天独厚的自然条件为数据中心采取自然散热外,综合利用技术创新也是一种重要途径。接下来主要从灵活微电网技术、先进储能技术和柔性输电技术三个方面展开说明。
大型数据中心的能耗巨大,“东数西算”工程的核心之一即是提高数据中心的利用效率,降低能耗。在综合利用西部自然条件实现温控的基础上,探索用绿色能源供电,实现低碳甚至零碳,是未来长远的发展目标。今天我们就来谈谈实现与之相关的关键技术。
一、灵活微电网技术
微电网系统通常包括:风光等分布式电源、储能设备、保护装置、电力电子变换装置等。其原理是通过储能设备,把波动性和间歇性的供电曲线拉平,满足稳定供电需求。
将数据中心与微电网集成,可塑造出一个能源岛,与大电网分离时既能保护本地不受大电网故障的影响,继续满足本地负载的电能需求,也能在适当的时机选择接入大电网,利用电价差异进行电能交易,优化能源成本。
对于该项技术,施耐德公司有较为全面的专利布局。根据其2020年发布的《如何利用微电网提高数据中心弹性、优化成本以及增加可持续性》白皮书,其专利布局涉及智能协调现场分布式发电资产,优化用电成本和提高电力稳定性等多个方面,贯穿数据中心微电网系统的各个技术分支。
数据中心24小时运行,保障其供电系统安全稳定至关重要。
因为风电、光伏发电的波动性和间歇性,无法直接为数据中心供电。因此,组建灵活的微电网,是有效利用风电、光伏发电为数据中心供电的解决方案之一。
二、先进储能技术
灵活微电网技术解决的是微电网与主网的智能化切换问题。但对于不并入主电网,完全实现独立能源供应的数据中心而言,先进储能技术成为其发展的关键。
三、柔性输电技术
目前世界已投运的柔性直流输电工程约40项,在建约20项,主要分布在欧洲,其次是北美洲、亚洲和澳洲,其中最高技术水平为我国在建的±800千伏/800万千瓦乌东德特高压混合多端柔性直流工程。
大型数据中心需要大规模的能源供给,也意味着需要匹配大规模储能。目前化学储能无法满足需求,氢能储能由于能量密集度大的特点,有望成为重要支撑性技术。
氢能,由于是清洁能源,其制备和利用愈发受到了全球的重视。2020年4月,氢能被写入《中华人民共和国能源法(征求意见稿)》,2020年6月德国政府正式推出以可再生能源制氢(即“绿氢”)为核心的氢能发展战略,紧随其后,欧盟也发布了 “绿氢”战略。
利用可再生能源(光伏、风电)制能,利用氢能储能的技术解决方案成为创新主体积极研发的热点。日本的三洋电机公司及松下电器公司在该领域起步较早,相关基础专利积累较多。而近年来我国的各大能源公司也在逐步进行氢能储能发电领域的专利布局,该领域的典型专利技术有:CN202110481337.9、CN202110539134.0等,公开了将光伏、风电产生的电能直接汇入直流汇流母线,避免多级电能转换,利用过剩的风能和太阳能产生清洁的氢,通过燃烧氢气、使用氢燃料电池供电。
除了为数据中心集群自建风、光、储外,数据中心还可作为大型能源基地的可变负载,从风电、光伏、水电等能源基地购电。此时,为了智能协调供需功率,需要构建柔性电力系统,采用柔性输电等技术,将风电、光伏、水电等通过柔性直流输电联通起来,实现风、光、水发电时空互补和电网间接储能作用,实现电能的稳定输出。
国家电网公司针对柔性输电技术的专利布局起步较早,申请量在世界上处领先地位,尤其近年来更侧重于新一代配电系统形态特征的“源-网-荷-储”柔性协调控制,例如典型专利CN202010838560.X,公开了源网荷储柔性协调控制和运行优化方法,建立输电网-配电网-设备本地三层柔性协调集中控制架构和配电系统多层柔性协调分布式控制架构;探究配电系统“源-网-荷-储”全面协调互动机制;可以实现新一代配电系统柔性协调优化运行。
柔性直流输电可以形象地比喻为电网中的可控“水泵”,不仅能够精准控制水流的方向、速度和流量,还相当于在电网中接入了一个和电源,可以根据电网需求,自身快速、灵活、可调地发出或者吸收一部分能量。
“东数西算”是契合“数字经济”发展战略建设及“双碳节能”指引的综合工程,必将带动在利用西北部地区的自然条件和丰富的可再生能源方面的技术创新,期待在此工程引领下,我国的微电网、储能、柔性直流输电、控温等技术能有所突破,为我国实现“双碳”目标,贡献力量。 (完)
韩笑
智能电网二室审查员
元宇宙的概念始于科幻作家史蒂文森于1992年创作的科幻小说《雪崩》,意指在共享的线上世界,使用者能够在虚拟世界中生活、工作。小说中创造了一个平行于现实世界的网络世界,在现实世界中地理位置彼此隔绝的人们通过各自的“化身”在该网络世界中进行交流娱乐。
对于元宇宙的概念,各机构和权威人士均给出了不同的定义。目前较被广泛接受的观点是元宇宙是整合多种新技术而产生的新型虚实相融的互联网应用和社会形态,它基于扩展现实技术提供沉浸式体验,基于数字孪生技术生成现实世界的镜像,基于区块链技术搭建经济体系,将虚拟世界与现实世界在经济系统、社交系统、身份系统上密切融合,并且允许每个用户进行内容生产和世界编辑,其具备“交互现实、虚拟化身、实时创造、永续存在”的特征。元宇宙的实现以虚拟现实为基础,目前行业提出元宇宙概念的主要目的在于推动虚拟现实互动平台的构建,促使人类社交活动虚拟化。虚拟现实软件(Facebook)、硬件(NVIDIA)两个领域的“领头羊”均不遗余力地进行了相关推进工作,如Facebook公司CEO扎克伯格在其生态布局中的重要平台Workrooms中以自己的虚拟形象接受了VR采访(图2),NVIDIA公司CEO黄仁勋则于2021年在其公司主打产品RTX 30系列显卡发布会上使用由演算构建的自身数字孪生形象和虚拟场景主持了发布,其虚拟形象的神态动作和真人难以区分。
一、元宇宙概念的提出和普及
上述厂商领头人物的宣传均对元宇宙概念热度的上升起到了重要推动作用,使得元宇宙的概念迅速获得了高度关注。元宇宙概念在当前时期被提出,主要是由以下两方面背景原因导致的:1)元宇宙所需的硬件条件,即强算力、高速交互网络、人机交互设备均已逐渐走向成熟——基于云计算的平台算力已经达到能够支撑具备丰富交互功能的初期大型虚拟平台的水准,基于5G的交互网络将逐渐走向普及阶段,VR、AR等人机交互硬件设备经过较长期发展,产品成熟度已经逐渐进入能够大批量投入市场的阶段。在硬件设施已经初步成熟的基础上,虚拟交互平台(软件生态)的搭建成为各大开发商、运营商将元宇宙作为一个产业推进的下一阶段性目标。在此时间节点推广元宇宙的概念,表明各开发商开始进入软硬件整合、平台搭建和周边生态构建环节。2)中国互联网用户数量已经于2020年开始进入稳定期,国内互联网市场由增量市场转为存量市场(见下图3),加之疫情影响导致的全球实体行业受挫,各互联网内容公司的运营主题已逐渐转为存量互割和零和博弈,在这样的环境下国内外公司均需寻找能够带来新增量的市场空间。在这个外有疫情影响和维持竞争力的压力,内有较为成熟的硬件基础的大环境下,元宇宙应运成为各方所期望的下一个增长点。制定以元宇宙的运行作为最终目的、以虚拟社会活动环境的搭建作为阶段性目的的发展策略成为各开发、运营商的普遍选择。
图2 黄仁勋以自己的数字孪生形象主持2021年RTX30系列显卡发布会,其中人物和发布会场景均为虚构
元宇宙作为数字化的虚拟世界,其中既包含与现实世界对应的虚拟物品或内容,也包含仅存在与虚拟世界中的物品或内容。其内容可大致分为由平台创造的(Professionally Generated Content,PGC)和用户创造的(User Generated Content,UGC),用户可通过在虚拟世界中进行社交活动、内容生产等来创造价值。元宇宙中社交活动的可能应用包括远程会诊或手术、远程会议、工业设计、虚拟现场拍卖、游戏及泛娱乐等,其与当前基于视频、音频的社交交互的主要区别在于具有依托于高速数据网络带来的更强的即时性(随时随地)、更高的沉浸度(用户对待设计的产品模型、待会诊的器官病灶形态、待拍卖的物品细节具有更细致的把握)、以及由更高频度的远程虚拟社交带来的社交活动的虚拟化、与地理位置上距离较远的用户进行高沉浸度、类型多样的社交活动的常态化、以及元宇宙中存在独有的奖励机制和经济规则和其与现实货币的交换规则,图4、图5分别从技术路径和应用场景角度归纳了元宇宙的发展预期(图片源自中信证券研究部)。元宇宙上述特性的实现不仅依赖于高算力、高速通信的深度沉浸交互设备,还依赖于非同质化代币和区块链作为与现实经济的接口,非同质化代币和区块链技术是建立元宇宙中数字资产和经济体系的底层支撑技术。
二、元宇宙的软硬件基础及实现形式
非同质化代币(Non-Fungible Tokens,NFT),通常指在以太坊平台根据ERC721/1155/998标准所发行的代币,主要应用于对虚拟物品唯一归属权的证明。NFT的生成需要获取对象的唯一ID,目前常见的方式是使用哈希函数获取对象的哈希值,以该哈希值作为ID。在获取该ID后选择合适的区块链公链,在所选的公链上开发智能合约,所开发的智能合约需要保证目标的ID能达到验证去重(即在该区块链上同一ID不可对应于多个目标对象),将该智能合约部署至区块链,并在新ID需要上链时通过发布交易的方式调用该智能合约中的方法,将ID等相关数据存储到链上。NFT与区块链的结合使其具有对目标(可以是虚拟物品,也可以是现实物品的虚拟表示,如某现实物品的照片等)的唯一标识属性(NFT在其代码中包含描述每个Token的属性信息)、可溯性(每个NFT 都有链上交易的记录,从创建时间开始到每次交易,从而证明其真实性)、稀缺性(NFTs的数量有限)和不可分割性(NFT不能分成更小的面额,不能以整体的一部分进行交易),这使其成为证明虚拟物品归属权的合理工具。目前全球NFT产业链分为基础设施层(底层公链、侧链、代币标准、开发工具等)、协议层(针对艺术/收藏品类、游戏类、粉丝经济等的协议、流动性协议等)、应用层(数据、展会策划/社区建设、社交、泛二级市场、金融等),每层均有数十公司参与。NFT主要应用于艺术品交易、虚拟资产、数字音乐、数字证书等领域,如苏世比拍卖行入驻基于以太坊的面向艺术作品、虚拟房地产交易的VR虚拟世界Decentraland等。Decentraland是基于以太坊的虚拟世界雏形,其实质为与3D网络游戏近似的供多用户使用的3D VR场景。其与当前网络游戏的主要区别在于用户具有搭建房屋、改变地形等编辑场景以及进行虚拟土地交易的权利,Decentraland具有自己的世界地图、土地交易市场等,使用的NFT代币为MANA币,以浮动汇率兑换美元。
在用户交互方面,能够短期内投入市场的用户从计算机进行信息接收的设备主要是VR/AR/MR设备,目前已投放市场的主要有的Facebook的Oculus系列产品(目前周边生态方面已发布虚拟会议室/工作室Workrooms、锚定美元的虚拟货币diem等)、字节跳动通过收购小鸟看看公司获取的VR一体机Pico系列产品、以及大鹏VR、HTC、索尼等公司的VR设备等。同时,在由用户向计算机进行的信息输入设备方面,目前投放市场的主要设备仍是视频动作捕捉摄像头和相应算法、以及动作捕捉手套、指套等各类动作捕捉设备。但值得关注的是,近年脑机接口(Brain Computer Interface,BCI)设备的相关实验室研究仍在取得稳定进展,并已细化为肢体动作识别、图像识别、文字识别、语音识别、情感识别等多个细分领域,并且根据脑电信号采集方式等的不同衍生出了多种BCI系统(图6)[1]。
BCI领域的典型研究如Rashkov等于2019年10月发布的研究[2],使用非侵入式BCI读取正在观看视频的受试者脑电信号,解码并输出该受试者所看到的彩色图像(图7,每组图的左图为受试者观看的视频,右图为解码输出结果);以及Angrick等于2021年9月发布了使用经训练的深度学习网络,通过侵入式BCI读取脑电波信号来实时模拟人脑中想象的发音的研究[3],图8为其实验结果中人脑想象的发音(上)与计算机生成发音(下)频谱对比图。脑机接口与传统人机交互设备相比,具有无需使用手(按键)或嘴(发声)进行输入且输入信号多元化(可输入想象的图像和想象的音频、动作、甚至抽象概念等)的优势,其作为键盘鼠标、麦克风、手柄控制器的替代方案具有较高的应用潜力,若编解码精度得到进一步提升,BCI设备也有通过义肢控制、模拟发声等方式拓展残疾人、聋哑人的交流渠道,以及在机器人运动算法的辅助下通过控制机械臂执行远程维修组装等作业的应用前景。
图7 原视频及对观看视频的受试者脑电信号重构结果,每组图像包括受试者观看的视频中的一帧图像︵左︶及由神经网络基于脑活动重构的相应图像︵右︶
三、相关专利分析
元宇宙作为新兴的概念,尚处于初期发展阶段,申请量相对较少。但是作为为其提供技术支撑的虚拟现实技术、5G交互网络和区块链技术已经发展多年。基于上述底层支撑技术,元宇宙才能得以发展和实现。因此,作为元宇宙的重要铺垫和底层支撑技术,以虚拟现实、5G和区块链为关键词对专利申请进行分析。目前,国内申请以高校为主,例如江南大学、清华大学等。公司申请方面以科技公司为主,例如华为、腾讯等。申请量不高,且差距不太大。
图8 受试者脑中想象的发音︵上︶与对脑电信号进行重构后生成的发音︵下︶频谱对比
虚拟现实设备和脑机接口设备,是实现元宇宙用户交互的重要手段,在虚拟现实设备和脑机接口设备的申请量方面,可以看出,美国韩国处于领先地位,中国紧随其后。
元宇宙作为人类社会活动虚拟化的愿景,其具体实现目前仍处于早期阶段。有研究认为元宇宙的实施需经历5年左右的虚拟设备普及期、5-10年的周边生态构建和成熟期,之后真正意义上的元宇宙才能够作为具有成熟产业基础的虚拟世界开始运行,目前元宇宙的发展仍处于虚拟设备普及和周边生态发展雏形期。鉴于虚拟世界的运行需要终端设备能够向用户呈现精细建模的大型3D多人交互场景,目前普遍认为终端设备难以提供渲染该场景所需的算力,因此需要基于云计算提供的算力为维持虚拟场景提供算力保障,但这需要用户终端完全依赖云端提供场景数据及交互数据,从而对高速数据传输产生需求。鉴于目前的4G网络提供的数据传输速度完全无法满足3D渲染的需求,而5G网络尚处于普及期,短期内虚拟现实的沉浸度仍无法达到较高水准。同时,在区块链的协议的具体形态及其产生的虚拟货币与现实货币的兑换机制,以及虚拟现实世界的经济规则制定方面,各平台还未形成系统性共识,并且可能面临立法层面的问题。
在用户交互设备方面,目前仅视、听两个层面的沉浸式体验较为成熟,动作和触觉(动作采集设备)、意识和概念(基于脑机接口的图像、声音、文字甚至抽象概念的直接收发)等其他层面的沉浸式体验设备仍处于特定产业中的公司应用阶段(如电影、游戏制作公司所用的动作捕捉设备仍沉重庞杂)或实验室研究阶段,其设备的便携性、精度等使得其在短期内仍难以进入能被投入到个人用户终端市场的阶段,并且可能面临伦理、立法方面的问题。
元宇宙的最终目标是高度沉浸式体验和沉浸式虚拟社交活动的实现,并基于此进行同时涉及虚拟与现实的经济活动。在AR/VR/MR尚未普及、并且除视、听之外的其他感官的沉浸工具的开发度尚低的当前,元宇宙尚停留在作为推进AR/VR/MR生态的工具性概念的阶段,但其作为愿景存在一定的合理性。沉浸式虚拟环境对实现过去未曾实现的工作方式(如基于数字孪生的工业设计或原型验证、从数字孪生到数字原生,从而产生出仅在虚拟世界中才能创造出的新内容、
国际申请量多于国内申请量,大约为国内申请量的两倍,同时,国际申请中除三星电子和华为申请量较多外,其余申请人申请量不多,且趋于相近。国内公司中如华为、腾讯、阿里巴巴也处于排名靠前的申请人,与高通、NTT和英特尔等国际公司不相上下。
四、总结
北京冬奥会已经圆满闭幕,伴随着对即将到来的冬残奥会的期待,冬奥话题依然在持续热议。科技感十足的开闭幕式以及一流的比赛场馆设施,为我国赢得了国际社会的广泛好评,一系列新技术、新应用、新产品的投入使用,成为北京冬奥的亮点。冬奥会成功的背后,是我国大数据、人工智能、云计算、虚拟现实、显示技术、和视频处理等新技术、新产业的快速崛起,也是体育产业数字化转型的里程碑,推动着数字技术领域的发展和变革,那么就让我们来探寻奥运中的计算机新兴技术。
1、AI实时特效
《雪花》节目中,超过600多位小朋友挥舞着和平鸽灯童声合唱,使得每位孩子脚下的雪花都如影随形。这是世界上首次对超过600人进行集体实时人工智能动作捕捉和实时渲染,致敬人民环节中也使用了该特效。这种实时交互使用了英特尔3DAT计算机视觉动作捕捉技术、北京电影学院声音学院师生团队AI实时视频特效等技术,利用捕捉系统提供过来的位置信息,把预先设计好的视频效果,精准呈现在演员脚下,这样就能形成如影随形的效果。
第一步:现场的若干台架设在6层观众席的高清摄像机对场上的670多人进行高清拍摄,这些摄像机可以非常低延时地捕捉图像,技术人员可以远程控制摄像机的启动和对焦。拍摄的画面通过光纤连到了机房。
第二步:每台摄像机信号后面都连着一主一备的服务器,通过光纤将摄像机拍摄的视频信号传送到边缘计算系统中进行三维信号重建及渲染,并将场上每个孩子的坐标精确提取出来,通过计算机视觉和人工智能技术将物理世界的坐标传输到数字世界,渲染服务器随后会在每个孩子脚下渲染出美丽的图案。
基于数字孪生的远程会诊甚至手术等)具有极大的推动作用,由于其能够支持远程、高拟真度的社交沟通,大幅降低了由物理距离导致的社交门槛,元宇宙甚至可能改变公司的组织形式,以及人们的日常工作方式。在虚拟现实处于推广期的当前,由于已有大量对虚拟环境有高适应性的用户群(主要来源于娱乐活动受众),在此基础上针对非娱乐型应用进行用户群拓展相对容易。随着技术改进导致的沉浸度的提高,通过虚拟环境及场景提供跨越距离的全面社交、娱乐、内容创造服务的相关设备和商业模式具有值得关注的发展前景。(完)
一、人工智能(AI)
智能电网二室室主任
赵亚丽
人工智能室审查员
马晓宇
计算机网络室副室主任
1、计算机视觉中的虚拟仿真
虚拟仿真,又称虚拟现实技术,是计算机视觉中的一项重要技术分支,虚拟仿真系统是一个可以全方位模拟表演的全流程技术解决方案,可以对奥运开闭幕式呈现的所有要素:从观众席、灯带、主舞台、竖屏、覆盖超大型LED地屏到这个空间内上演的所有节目的活动轨迹进行模拟。北京理工大学数字表演与仿真技术实验室研发的平台上相当于搭建一套线上的‘虚拟开幕式’,是开幕式演出背后的‘科技大脑’,能够帮助导演团队直观了解开幕式的整体效果。仿真系统精确到每一名演员的位置、动作、步伐速度,精确到开幕式的每分每秒,。通过虚拟现实技术,可以将导演创作团队的创意进行拆解、细化,提炼成训练手册指
进行理解,基于在AI领域的长期积累,AI云智剪可以对多种体育赛事进行细粒度行为、赛场事件、人文事件、镜头类型的深度理解,同时对视频片段进行美学评价、动作精彩度评价、多样性评价,这等同于整个系统的眼睛和大脑,只有看得多、看得细、想得全、想得快,才可以在激烈的冬奥赛场上,为观众们尽快呈现精美绝伦的内容。第二,基于AI模型输出的各类型片段和多指标评价,素材生产模块会基于符合权重进行素材选取,生产大量精选素材,同时也输出多种主题集锦素材。同时,为了响应绿色冬奥的主题,AI云智剪首次采用了单视频理解模型,对多赛事、多来源、多种类的视频进行内容解析、多类型视频素材生产、跨视频的复杂主题视频生成的多层级短视频生产。
导训练,从而大大提升大型演出的排演效率,无需演员反复试验,为开幕式的策划、设计和排练提供了有力的科技支撑。
“AI实时视频特效”是多种技术的综合运用。其中包括一些比较前沿的技术,例如人工智能模型训练、游戏引擎与图像合成技术;也依赖于各类成熟的综合技术,包括图像采集、网络通信等等。实时拍摄到的图像通过AI系统进行实时分析,判定人的坐标,而AI系统预先经过AI模型训练,通过前期海量的图像采集、把视频资料训练学习到与此次演出高度关联的识别模式,从而准确地捕捉到每个人的位置;然后在每个人所处的位置处实时渲染出最终的雪花视频效果,最后由播控将画面呈现在地屏上。
2、火炬AI呈现
火炬点燃那一刻,巨型雪花屏由中心向四周辐射开来。快速变换、完美同步的显示画面背后,是京东方AIoT技术体系及自主研发的同/异步兼容信发系统,异步集控能在极短时间内将大规模视频内容快速下发,同步集控确保102块双面屏幕实现毫秒级响应。此外,“主路+环路”备份的高冗余控制系统确保了火炬台播控系统的超高可靠性。同时,通过采用LoRa(远距离无线电)低延迟控制系统搭配同步播放时间校正技术,进一步确保视频画面完美协同。
AIoT(人工智能物联网)=AI(人工智能)+IoT(物联网)。AIoT融合AI技术和IoT技术,通过物联网产生、收集来自不同维度的、海量的数据存储于云端、边缘端,再通过大数据分析,以及更高形式的人工智能,实现万物数据化、万物智联化。物联网技术与人工智能相融合,最终追求的是形成一个智能化生态体系,在该体系内,实现了不同智能终端设备之间、不同系统平台之间、不同应用场景之间的互融互通,万物互融。
LoRa是semtech公司开发的一种低功耗局域网无线标准,其名称“LoRa”是远距离无线电(Long Range Radio),它最大特点就是在同样的功耗条件下比其他无线方式传播的距离更远,实现了低功耗和远距离的统一,它在同样的功耗下比传统的无线射频通信距离扩大3-5倍。
3、AI云智剪
为了在冬奥赛事短视频内容时兼顾实效、精彩、人文、美学,央视体育新媒体和总台技术团队联合阿里云视频云、阿里巴巴达摩院,引入AI编辑部的智能生产工具“AI云智剪”,可以实时完成多赛事的智能内容理解,在极短时间内智能化自动生成大量精彩视频素材,覆盖赛场动作、赛事内容、各类镜头等多个描述维度,生成美学主题的集锦素材。
AI云智剪的技术实现过程,主要包含两个步骤:第一,AI模型要对赛事视频
二、计算机视觉
本届冬奥会首次由云计算替代传统IT,精准破除传统IT模式的痛点,并且缩短了应用开发和部署流程。冬奥会的高清转播,离不开云技术的支撑,赛事成绩、组织管理、比赛转播等核心系统100%跑在阿里云上,成为真正的“云上奥运”,以提供类似“子弹时间”的高自由视角观赛特效为例,阿里云借助云高并发、低延时特性,再由智能算法对多机位信号进行分析和3D建模,将超慢动作、全景观看的电影特效式画面,带进冬奥赛事转播中。
高速滑动中的运动突然定格,能进行多角度全方位回看,这被称为“子弹时间”。在传统赛事直播中,往往多个机位拍摄不同视角的比赛画面,这几路信号通过卫星传输至各个转播电视台,再由电视台的导播指挥,切换不同画面视角,就形成了观众看到的赛事转播。直到近年,才出现了这种可随时暂停、可360度回看的赛事转播“子弹时间”。
三、云计算平台上的数字奥运
360度环拍摄像机,也就是俗称的“子弹时间”,可以捕捉、回放运动员的精彩瞬间。2月6日的单板滑雪男子坡面障碍技巧资格赛中,中国00后小将苏翊鸣完美一跳,以资格赛断层第一的成绩强势晋级。在这场比赛中,使用360度环拍技术,以超炫酷的“子弹时间”特效,360度重现苏翊鸣高质量的1980动作,将这一高光时刻永久定格。
四、计算机视频图像捕捉
计算机视频图像捕捉技术也是东奥赛场上很好的辅助裁判,其是快速捕捉视频图像,视频图像定位、视频图像回访技术的融合,例如速度滑冰的“捕鹰能手”猎豹和短道速滑的“火眼金睛”飞猫,它们在东奥赛程上也是不可忽视的重要角色,是高精尖数字科技的完美再现。
在2月7日的北京冬奥短道速滑男子1000米决赛中,率先冲过终点的匈牙利选手因犯规判罚被
在“子弹时间”中,几十个拍摄视角将形成几十路4K高清信号内容,同步传输至部署于场馆的边缘服务器和远程的云端服务器。同时,几十路视角和信号传输至云端,在智能算法的支持下,在云上进行快速3D建模,带来更流畅的观看画面。对于电视观众来说,虽然无法来到现场,但同样能大饱眼福。冰壶比赛的电视转播,现场架设了60多台
取消资格,中国选手任子威和李文龙分获冠亚军。全网沸腾之时,众多网友发起“谢谢‘猎豹’”活动。一场冬奥会比赛,场边的摄像机竟“意外”成了主角!
2、计算机视觉中的图像处理技术
东奥会中的竖屏是一块近60米高、20米宽的LED屏,名为“冰瀑”,开幕式中的“冰爆”中的黄河之水水墨画,是经过图像处理算法,再通过机器学习训练大量中国传统水墨画,建立水墨纹理特征模型,以此生成融合了图像处理算法和人工智能训练模型技术的风格化的山水图像。其中竖屏中,通过图像处理技术将三
维动画转化为激光机需要的点位数据,实现快速的效果迭代,满足创意更新需求,这是数字科技对中国传统水墨风格的解构与重塑。通过记录鸟巢中的一二百种风况,并设置模拟实验,人工智能数据训练,攻克了在秋冬季过大风时不被风“吹碎”的技术难题。
此次开幕式、闭幕式的舞台地面(地屏)是目前最大的8K超高清地面显示系统也应用到了计算机视觉中的图像处理技术,其由42000多块LED显示屏组成,整体面积达10393平方米,京东方采用多个8K+级分辨率的画面融合技术,超大规模的光学校正
算法可对每个显示画面进行像素点级的光学校正,可呈现出100000:1超高对比度,3840Hz超高刷新率,以及29900×15096超高分辨率的超高清绚丽画面。首次实现全LED影像,画质也达到了空前的16K。
开幕式上的冰立方是一个高10米、净深8米、宽22米的LED机械装置,总重量400吨,升降重量达180吨,大约是一辆小汽车重量的120倍,其是计算机视觉中的3D技术和数字影像中的技术完美结合。冰立方里面的碎冰和冰球是技术人员通过光影、数字影像的手段来展现,‘雕刻’的视觉通过在激光与冰立方3D视效的结合下产生的,上升又降落的冰立方,则使
用了三维数字装置,借助五面裸眼3D效果实现。在这个84m x 42m x 10m的基坑内,要实现的升降载荷超过了一般剧院大型升降台的8倍,是整个开闭幕式最大功率的驱动设备,可见,3D下技术下破冰而出的奥运五环和冰立方这一壮观景象正是计算机视觉中多项技术分支的完美结合与融合。
冬奥会已经结束了,其中多角度计算机技术的高科技展现和融合是否让出我国数字科技的伟大与成功,冬奥会成功的背后,正是是我国大数据、人工智能、云计算、计算机视频图像、计算机视觉等新技术、新产业的快速崛起,也是体育产业数字化转型的里程碑。(完)
五、小结
白桦
董洪梅
商业方法室审查员
商业方法室审查员
吴琼
商业方法室审查员
商业方法室副室主任
马美红
商业方法室室主任
猎豹不是动物,是中央广播电视总台历时5年研发的“超高速4K轨道摄像机系统”。安装在国家速度滑冰馆赛道的最外侧,它融合了计算机视频图像捕捉技术,由陀螺仪、轨道车、360米长的U型轨道三部分组成。
如果说运动员是冰面上的雄鹰,那“猎豹”就像是神秘的捕鹰人。在冬奥会的速度滑冰比赛中,运动员的速度可达到15-18米/秒,而“猎豹”的设计技术标准更是达到了25米/秒。它还具备4K高清捕捉能力,可以将运动员比赛过程中竭尽全力的姿态与冲线的兴奋一览无余,具有低延迟、高质量
等特点。“猎豹”系统目前只有一套,安装在“冰丝带”场馆内,它的研发弥补了短道速滑比赛中直播摄影机无法快速跟踪拍摄的缺陷,可实时跟踪运动员的位置,捕捉现场画面,通过计算机的视频图像捕捉技术快速捕捉定位。
短道速滑的“火眼金睛”飞猫也是计算机视频图像捕捉的体现,短道速滑决赛场馆(首都体育馆)使用的摄影系统由40台4K超高清摄影机阵列加上3台8KVR摄像头组成,又名为“飞猫”,并不是全网感谢的“猎豹”,“飞猫”在赛场中起了重大贡献。很多短道速滑的侧重点为队员之间战术配合以及选手之间的“弯道博弈”,因此选择多机位超高清摄影机阵列的“飞猫”则更为合理。值得一提的是,“飞猫”与“猎豹”不同,并不是这套
摄影系统特定的名称,而是“索道摄像系统技术”的代名词。“飞猫”系统摄像头可以做到全视角覆盖。除了转播画面,也起到了辅助判罚的作用。在短道速滑决赛中,韩国与匈牙利运动员的隐蔽犯规能无所遁形,靠的正是这套高清摄像头的“火眼金睛”。
除了“猎豹”和“飞猫”,我国的技术团队还为8K直播系统开发了一套AI图像处理系统,让运动员比赛的精彩瞬间,以“时间切片”的方式呈现,因此东奥会中的分身术时间切片技术也是不可缺少的角色。计算机视频图像中的“时间切片”技术,就是将运动员在
空中飞跃的几秒钟剪切成数片内容,用帧的形式将运动员腾空的精彩瞬间展现给观众。这一技术不仅可供观众欣赏,还可为主播、评论员及裁判提供辅助,用以更好的评价运动员的表现。
“十四五”时期是我国由全面建成小康社会向基本实现社会主义现代化迈进的关键时期,“十四五”规划是开启全面建设社会主义现代化新征程的第一个五年计划,绘好“十四五”发展蓝图,对各地政府、国有企业意义重大。
“十四五”中规划明确指出要发展新一代人工智能,并首次将开源纳入顶层设计,提出借助数字科技对行业进行数字化智能化升级改造。《新一代人工智能发展规划》提出了面向2030年的发展战略,要带动相关产业规模将超过10万亿元。在长期的政策利好支撑下,我国的AI研究水平稳步上升。人工智能产业逐步从AI技术融合赋能各行业典型应用场景,向效率化、工业化生产的成熟阶段演进,深度学习、计算机视觉、语音识别等核心技术正逐步走向成熟。
计算机视觉作为人工智能核心技术之一,涵盖人脸识别、图像识别、光学符号识别OCR、姿态识别等多个领域,被广泛应用于各行业间的智能化升级转型。例如,自动驾驶、智能安防、医疗影像均有计算机视觉技术的身影。
计算机视觉技术是人工智能技术的重要组成部分,也是计算机科学与信号处理研究的前沿领域。计算机视觉技术又被称为机器视觉技术(Machine Vision Technology),以下简称 MVT,它是一门交叉学科,其中涵盖诸多领域,如人工智能、图像处理等。该技术以计算机作为载体,对人类的视觉功能进行模拟,提取图像中的信息,经过处理后用于检测、控制等。信息量大、速度快是 MVT 较为突出的特点。该技术以计算机为载体,以图像处理、传感器等为核心,在航空航天、医疗、教学、监控等各个领域得到了广泛应用。
MVT 的研究始于 20 世纪 60 年代,美国麻省理工学院的罗伯茨教授在论文中分析了从 2D 图像获取 3D 形状信息的可能性,由此正式开启机器视觉理论与实践的研究。20 世纪 70 年代,视觉计算理论的创始人 D.Marr创立出具有系统化特点的计算机视觉理论,为机器视觉的相关研究奠定了基础。到 80 年代后, MVT 方面的研究不断深入,从最初的实验室向实际应用方向转移。进入 90 年代,MVT 广泛应用到工业环境领域中。
我国对机器视觉这一概念的引入是在 21 世纪初,国内的研究院所、大专院
一、背景
二、计算机视觉定义
三、发展简史
校、相关企业,在最近几年里纷纷加大了对 MVT 的研究力度,并将该技术应用于工业现场,如电子制造业、半导体行业、制药等。随着 MVT 的逐步完善,其在国内的汽车制造业、新能源行业也得到一定的应用。
四、分类及关键技术
(一)图像识别
计算机的图像识别通常分为两大步骤:
传统的图像识别方法需要人为提取图片特征,识别精度依赖于特征提取的准确度。图像特征提取方法包括SIFT、HOG以及SURF等,图像分类技术包括KNN、SVM以及朴素贝叶斯等分类算法。随着计算机技术的发展,图片分辨率越来越高,深度学习图像识别技术得到更为广泛的应用,可以直接处理输入图像,避免了复杂的图像特征提取以及数据重建过程,因而成为当前图像识别领域的研究热点。
1. 目标检测
目标检测,是从不同复杂程度的背景中辨识出运动目标, 并分离背景, 从而完成跟踪、识别等后续任务。 因此, 目标检测是高层理解与应用的基础任务, 其性能的好坏将直接影响后续的目标跟踪、动作识别以及行为理解等中高层任务的性能。
图像特征是对凸显特性或属性的描述,特征提取是按照某种既定的图像分类方式来选取合适的特征并进行有效的提取。
分类器是按照所选取的特征来对目标图像进行分类的一种算法。
(二)三维重建
基于视觉的三维重建技术,是指利用数字摄像机作为图像传感器,综合运用图像处理、视觉计算等技术进行非接触三维测量,用计算机程序获取物体的三维信息。其优势在于不受物体形状限制,重建速度较快,可以实现全自动或半自动建模等,是三维重建的一个重要发展方向,能广泛应用于包括移动机器人自主导航系统、航空及遥感测量、工业自动化系统等在内的各个领域,由此项技术产生的经济效益极为可观。
(三)元宇宙
元宇宙代表了视觉沉浸技术发展的最新阶段,其本质是一个平行于现实世界的在线数字空间,正在成为人类社会创新发展的实践场域。元宇宙是一个极致开放、自由、复杂与巨大的综合系统,其涵盖了整个网络空间、终端设备以及现实条件,是由不同类型建设者共同构建的超大型数字应用生态,而各种智能数字技术则是其根基。
从元宇宙的存在形式来看,虚拟与现实的深度融合是元宇宙最基本的特征。元宇宙的组建依托于MR、区块链、通信技术、云计算、物联网与人工智能等数字技术的集合,如通过脑机接口、物联网与可穿戴设备等交互技术进入虚拟世界,进行沉浸式体验与交互;通过区块链、人工智能技术来监管和维护元宇宙的运转体系,确保元宇宙持续稳定运转;通过5G、云计算技术来支撑大规模用户的同时在线交互活动,保障交互的流畅性与低延迟。
VR
虚拟现实技术是一种可以创建和体验虚拟世界的计算机技术,它利用计算机生成一种模拟环境,是一种多源信息融合交互式的三维动态视景和实体行为的系统仿真,可借助传感头盔、数据手套等专业设备,让用户进入虚拟空间,实时感知和操作虚拟世界中的各种对象,从而通过视觉、触觉和听觉等获得身临其境的真实感受。
虚拟现实技术的原理是人在物理交互空间通过传感器集成等设备与由计算机硬件和VR引擎产生的虚拟环境交互。来自多传感器的原始数据经过传感器处理成为融合信息,经过行为解释器产生行为数据,输入虚拟环境并与用户进行交互,来自虚拟环境的配置和应用状态再反馈给传感器。
AR
增强现实是在虚拟现实的基础上发展起来的一种新兴技术。增强现实技术基于计算机的显示与交互、网络的跟踪与定位等技术,将计算机形成的虚拟信息叠
按算法处理对象的不同, 目标检测方法可以分为:
通过对背景进行估计, 建立起背景模型与时间的关联关系, 将当前帧与所建背景模型进行对比作差, 间接地分离出运动前景, 最后经过前景分割得到跟踪目标。
采用灰度、颜色、纹理等同质特征,建立起跟踪目标的表观模型, 并设计适当的分类器对其进行分类与检测。
2. 运动跟踪
运动目标跟踪问题可以等价为在连续的图像帧之间, 构建基于目标位置、速度、形状、纹理、色彩等有关特征的对应匹配问题。处理流程如下图所示, 由目标状态初始化、表观建模、运动估计及目标定位4部分组成。
目标状态的初始化一般采用人工标定或目标检测的方法进行实现。
表观建模主要包括了对目标的视觉特征(颜色、纹理、边缘等)的描述, 以及如何度量视觉特征之间的相似性。
运动估计则是采用某种运动假设来预估目标可能出现的位置, 常用的运动估计方法主要有线性回归、均值漂移、隐马尔科夫模型、卡尔曼滤波等。
最后,在表观建模与运动估计的基础上, 采用某种最优化策略获取目标最可能的位置,实现对跟踪目标的定位。
3. 图像分类
图像分类是指给定一幅输入图像,通过分类算法来判断该图像所属的类别。图像分类的划分方式十分多样,划分依据不同,分类结果就不同。图像分类的主要流程包括:
包括图像滤波和尺寸的归一化等操作,其目的是为了方便目标图像后续处理。
(四)视觉交互
1. 模态内交互
每一种信息的来源或者形式,都可以称为一种模态。例如,语音、视频、文字等。多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流,充分模拟人与人之间的交互方式。
在视觉交互中,模态内交互是指在同一模态下进行转换,例如图像与图像之间的转换(风格迁移、图像修改等)。
1)风格迁移
图像风格可以理解为图像画面给人的感觉,同一张图片应用不同的风格,画面会给人不同的感觉,比如中国风格、古典风格,后现代风格等。图像风格迁移就是使用计算机程序将的内容与图像B的风格融合在一起,形成一个独特的新图像C,也就是说图像C具有图像A的内容同时又拥有图像B的风格。
因此,图像风格迁移技术主要解决三大问题:第一,如何提取图像纹理特征而不夹杂内容特征;第二,如何提取图像内容特征而不夹杂纹理特征;第三,如何将两种特征融合生成目标图像。
2)图像修复
图像修复的目的是根据图像中已知内容来自动地恢复丢失的内容,在图像编辑、影视特技制作、虚拟现实及数字文化遗产保护等领域都具有广泛的应用价值。图像修复可以分为基于偏微分和变分的方法、基于样本的图像修复方法、基于变换域的图像修复方法、混合的图像修复方法以及基于深度学习的修复方法。
其中,基于深度学习的修复方法是指堆叠起来的包含大量隐藏层的深度神经网络可以通过海量数据的训练得到训练样本间的非线性复杂关系的映射,这正是图像修复中基于图像内容的语义修复所期望解决的问题,特别是在大区域的图像修复中可以取得非常惊人的结果。
2. 模态间交互
视觉交互中,模态间交互是指在不同模态下进行转换,例如图像转换成文字、文字转换成图像等。
加到现实中的真实场景,以对现实世界进行补充,使人们在视觉、听觉、触觉等方面增强对现实世界的体验。
增强现实的应用领域非常广泛。如在教育领域增强现实可以为学生呈现全息图像、虚拟实验、虚拟环境等;在旅游业增强现实可以帮助游客自助游玩景区,以虚拟影像的形式为游客讲解景区概况、发展历史等内容;在零售业中增强现实技术可以实现一键试穿,在网上销售中具有极大的应用空间。增强现实在工业、医疗、军事、市政、电视、游戏、展览等领域都表现出了良好的应用前景。
1)视觉问答
视觉问答将图像和基于图像内容的问题作为输入,分析并产生一个自然语言构成的答案作为输出。其基于提出的问题,从图像中提取与问题相关的语义信息,提取的过程包括细节信息的检测和图像抽象场景属性的提取等,基于这些信息做出与问题对应的回答。
视觉问答可以作为查询视觉相关内容的一种自然语言的方式来改善人机交互的过程,例如图像的快速检索。由于涉及计算机视觉与自然语言处理2个领域的交叉研究方向,视觉问答受到广泛的关注,成为当前研究的热点之一。
2)图像描述
图像描述涉及拍摄图像,分析其视觉内容,并生成文字描述,用语言表达图像最显着的方面。从计算机视觉的观点来看,这是具有挑战性的,因为描述原则上可以谈论图像的任何视觉方面:可以提及对象及其属性、场景特征,或者表达场景中的人物和物体如何相互作用。好的图像描述需要全面的图像理解,因此描述任务对于计算机视觉系统来说是一个很好的测试平台,比普通的计算机视觉评估更全面。
3)图像生成
文本描述生成图像(Text to Image,T2I)是近年来的热门研究方向之一,它可以将一句描述性文本生成与之对应的图像,常用的生成方法有DRAW(Deep Recurrent Attention Writer), VAE(Variational Auto-Encoder)以及GAN等。
在描述性文本生成图像的过程中,模型首先需要学习文本的重要细节特征,然后生成对应内容的图像。同一段文本对应的图像可能是多种多样的,即多模态性。当文本中的某个单词发生改变时,生成图像的很多像素要发生相应改变,而这些改变像素间的关联难以被发现。GAN在解决多模态问题上表现了出不错的成果,因此结合GAN实现文本生成图像具有较强的研究意义和应用前景。
(五)计算机视觉关键技术
在上述技术分类的基础上,以下列举出各主分类中所包含的关键技术,这些关键技术主要包括对历史影响较大或目前较为主流和前沿的技术。具体内容如下图所示(点击放大)。
(一)计算机视觉全球专利申请量趋势
如图所示,全球有关计算机视觉技术2005年之前每年只有少量专利申请,之后呈缓慢增长趋势,直到2015年开始呈快速增长趋势。2015至2019年的全球相关专利申请量均较多,并均于2019年达到申请量的顶峰。
(二)全球&中国主要申请人
如图所示,从计算机视觉技术分别在全球范围以及在国内的主要申请人的分布和排名情况可以看出,全球申请量排名前十的企业中老牌企业占据多个席位,其中排名前两位的是索尼株式会社和三星电子株式会社,此外中国企业或高校也名列前茅,位列第3、4、5位,分别是西安电子科技大学、京东方科技集团和腾讯科技。国内申请量排名前十的大学占位五席,分别是西安电子科技大学、背景航空航天大学、清华大学、浙江大学和北京理工大学,其中申请数量最多的为西安电子科技大学,其总排名位居第二,这体现出以西安电子科技大学为代表的各大学对计算机视觉技术研究方向的高度关注意识和深度研发能力。
如上图所示,计算机视觉技术的专利申请量呈逐年上升趋势,并在近些年保持了较高的申请量,这体现出该项技术维持了较高的关注度。具体来说,计算机视觉技术包含了图像识别、三维重建、虚拟现实和视觉交互四个分支,在2009年以前,上述四项技术的年申请量均在200件以下,2010年至2015年四项技术的年申请量持续上升,从2016年起,四项技术的年申请量迅速攀升。其中图像识别和虚拟现实的申请量相对较多,近几年申请量达千件以上。
可见,在计算机视觉技术领域,各大企业和大学在专利布局意识和研发能力上可谓是风头正劲,预期中国企业和大学未来在该领域也必定有所作为。
(一)图像识别
图像识别应用的领域很广泛。如遥感图像识别、通讯领域、安防、刑侦、军事、生物医学等。
以安防领域为例,在安防企业方面,海康威视是作为全球领先的安防龙头,在人脸识别领域也有着重要地位,人脸识别产品主要为“明眸”系列近景人脸识别产品,广泛应用于安防、交通、金融服务和楼宇等场景。同时大华股份、川大智能紧随其后也在不断开展人脸识别技术研发和相关产品研制,大华股份推出人脸识别门口机、通行闸机等产品,应用于智慧警务、智慧楼宇和日常消
五、计算机视觉技术专利分析
六、重要公司及典型产品
在互联网巨头方面,目前百度、腾讯、阿里分别利用自身云团队开展人脸识别技术研究,拓展应用场景。三大巨头云团队人脸识别产品均提供人脸检测、人脸对比等服务,应用场景不仅包含安防、门禁等领域,同时还在智能相册、人脸美颜、动态贴图等领域进行拓展。
从人脸识别专利申请人来看,2021年申请人专利量前十企业分布为欧珀、百度网讯、旷视科技、商汤科技、阿里巴巴集团、OPPO、维沃、壹账通、福丰科技、海康威视。其中欧珀人脸识别以340项的人脸识别专利申请数,排名第一。其次百度网讯、旷视科技、商汤科技的人脸识别专利申请数量分别为203项、160项、156项。
目前,人脸识别的江湖中,商汤、旷视、云从、依图,被称为人脸识别的四个独角兽。
(二)三维重建
在三维重建中,目前建筑、房地产和工程测量这个细分领域占比最高,2020年市场份额占比高达64%,预计其份额优势将会继续保持,2027年预计市场份额会接近70%。目前全球三维重建的主要软件企业包括Matterport、Autodesk、Airbus DroneDeploy和Pix4D等,2020年全球前四大厂商份额占比超过60%,预计未来几年将有更多企业进入该行业,行业竞争将更加激烈,尤其在中国市场。
微软正在进行一个名为KinectFusion的项目。目标是利用一台围绕物体移动的kinect实时重建物体的三维模型。不同于简单的三维点云的拼接,该项目吸引人的特性在于:如果对物体进行持续的扫描,三维重建精度可以由粗到细的逐渐提高。
3D实景扫描公司Mattterport3已经通过SPAC方式在纳斯达克上市,伴随Matterport的上市,人们再次将目光投到了国内的三维数字重建市场。实际上,
费场景;川大智胜以实时软件为核心,形成系列重大装备和系统,在人脸识别领域推出了人证查验通道产品、视频门禁监控系统等,广泛应用于智慧安防、金融、智慧政务等场景。
微软KinectFusion实时三维重建图
Matterport 三维重建图 四维看看高效3D实景重建图
(三)元宇宙
元宇宙的概念由来已久,但是近期将元宇宙推向高潮的公司就不得不提Facebook和苹果了。
2014年,Facebook以20亿美元的价格收购了Oculus,开始布局元宇宙。Facebook创始人扎克伯格在2021年召开了Connect大会正式宣布将公司名字更改为“Meta Platforms”,并将元宇宙作为公司未来发展的核心。首推 FRL(Reality Labs,Facebook 现实实验室),押注元宇宙的业务投入与营收主要表现在Quest 2等硬件方面及Horizon等软件方面。
之对标的企业是四维时代,专注于三维数字化、三维重建的本土企业。四维时代自主研发四维看看的软硬件产品,通过规模化、标准化的应用,通过简单拍照即可快速得到一个高精度三维模型。
Meta进入界面 Meta游戏界面
不过,目前Horizon Worlds支持在北美地区开放,用户需要使用Oculus Quest 2头盔来创建角色。
Oculus Quest 2头盔 Meta元宇宙角色
2021年12月27日,百度正式发布了首个元宇宙产品“希壤”,同时百度Create 2021(百度AI开发者大会)在希壤APP正式拉开帷幕。基于百度AR多模态技术融合打造的一句话生成虚拟形象功能,用户可在希壤世界中通过一句话的简单描述生成个性化的虚拟形象,使3D虚拟数字形象的制作实现“做起来与说起来一样容易”,同时,通过小度的对话式人工智能生态,语音已经成为了希壤世界中的主要交互方式。集合业内最领先的AI、云计算和VR技术,希壤的终极目标是为合作伙伴和开发者创造一个平台,一个可以让想象力落地生根的平台。在这个即将平行于现实世界的人类第二空间中,最终承载High Tech-Better Life的美好未来。
希壤元宇宙空间
微软也致力于在其办公软件Teams中添加3D化身和其它元宇宙元素。微软
CEO纳德拉也曾分享了关于混合现实会议平台Mesh中的体验场景,人们可以通过虚拟化身的形式见面和互动,还能共享Office文件等。
微软Mesh会议场景图
(四)视觉交互
哈利波特世界里,能让报纸上的照片动起来的魔法,现在麻瓜们已经掌握得越来越熟练了。原本在老照片中沉默的美人,当年眼波流转、巧笑倩兮的模样,也重新清晰呈现。
老照片表情重建图 微软edge浏览器自动生成图像标签图
知名家谱网站 MyHeritage 推出了一项基于人工智能的照片增强工具,能够为老照片中的人创建短视频动画,从而看起来就像是在拍照时摆出姿势和准备肖像。该工具称之为 Deep Nostalgia,能够让老照片中的人物变得生动起来。虽然MyHeritage没有详细说明这一火爆应用背后的技术细节,但大致上,让老照动起来的效果,需要两步来完成。先是用超分辨率,让照片变得更高清。
2022年年初,适用于 Windows 10/11 系统的 Microsoft Edge 浏览器引入了基于人工智能和机器学习的文本预测功能。微软宣布借助机器学习算法提供自动生成的图像标签。这项功能将会给视力障碍患者带来帮助,减少由于没有图片注释而带来的差距。
计算机视觉室副室主任
2022年1月4日,北京2022年冬奥会和冬残奥会组织委员会表示,北京2022年冬奥会将是百年奥运史上的第一个“云上奥运”。北京冬奥组委会技术部表示,北京冬奥会已经完成了这一历史性的迁移工程,将奥运最核心的赛事成绩、赛事转播、信息发布、运动员抵离、医疗、食宿、交通等信息系统迁移至阿里云上,核心信息系统已经实现100%运行在阿里云上。这是奥运史上首次由云计算替代传统IT,承载奥运的组织和运营。过去,每届奥运都需要重复建设传统IT机房,并在赛事短暂使用后拆除。上云之后,IT基础设施的成本大幅下降,并且缩短了应用开发和部署流程。“云上奥运”展现了云计算从基础设施到数据对于传统IT的重塑,也是云计算赋能传统服务的生动见证。
云计算在我国十四五规划中提出的七个“数字经济重点产业”中排在首位,是我国重点推进的新兴数字产业之一。云计算引发软件开发部署模式的创新,并为大数据、物联网、人工智能等新兴领域的发展提供基础支撑,是当之无愧的数字经济的“技术底座”。
云计算到底是什么?本文将从云计算基本概念、云计算关键技术、云计算市场现状及应用案例、云计算专利特点、云计算与其他新兴技术的融合及发展趋势等方面带领大家了解云计算。
IBM公司将云计算视作是一个虚拟化的 IT 资源池。在《“智慧的地球”――IBM 云计算2.0》中,IBM 公司对于云计算概念的理解进行了如下阐述:“云计算是一种计算模式,在这种模式中,应用、数据和 IT 资源以服务的方式通过网络提供给用户使用;云计算同时是一种基础架构管理的方法论,大量的计算资源组合成 IT 资源池,用于动态创建高度虚拟化的资源以供用户使用”。
美国国家标准与技术研究院(National Institute of Standards and Technology)的信息技术实验室对于云计算概念的定义为:“云计算是一种资源利用模式,它能以简便的途径和以按需使用的方式通过网络访问可配置的计算资源(网络、服务器、存储、应用、服务等),这些资源可快速部署,并能以最小的管理代价或只需服务提供商开展少量的工作就可实现资源发布”。这一定义以技术化的语言较为全面地概括了云计算的技术特征。
虽然云计算的概念至今未有较为统一的定义,但云计算的内涵已基本得到普遍认可。狭义来讲,云计算是信息化基础设施的交付和使用模式,是通过网络以
从市场发展情况来看,首先,近年获投的计算机视觉创业企业所选的细分赛道主要集中于零售、安防、制造、政务、医疗等行业。其中,零售行业占比最大,占比为64.4%,其可基于场景化营销、商品识别分析等应用提升营销转化率,实现门店运营的智能化改革;安防行业是计算机视觉最早落地的场景,占比为50.7%,其主要利用安防影像智能分析协助城市治理等领域的智能化转型。制造业占比47%,由于制造业基础设施复杂、数据获取难度较大,使得人工智能在其中的应用潜力未能得到充分释放。其次,计算机视觉下游应用领域主要包括电子产业、汽车产业、医药行业、食品与包装、印刷行业等。其中,电子和汽车是机器视觉应用占比最大的两个行业。按照计算机视觉系统在不同领域中用途的划分,其所实现的主要功能可分为:测量功能、检测功能、定位功能、识别功能,在各行各业都可以找到适合其发挥的场合。
而从技术角度出发,基于学习的物体视觉和基于几何的空间视觉继续“相互独立”进行。深度学习在短时期内很难代替几何视觉。深度学习在物体视觉方面较传统方法体现了巨大优势,但在空间视觉,如三维重建,物体定位方面,基于几何的方法仍然有很大优势。 基于视觉的定位将更加趋向“应用性研究”,特别是多传感器融合的视觉定位技术,并且对视频理解的趋势也将会持续。(完)
一、前言
计算机视觉室审查员
孟子山
计算机视觉室审查员
郝婕
计算机视觉室审查员
七、计算机视觉发展趋势展望
二、云计算基本概念
云计算的基本特性包括:宽带网络接入、快速弹性、可计量的服务、按需自取服务。云计算把有形的产品——网络设备、服务器、存储设备、各种软件等——转换为服务产品,并通过网络让人们远距离在线使用,使产品的所有权和使用权分离。云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需要投入很少的管理工作,或与服务供应商进行很少的交互。
根据云计算所提供服务类别的不同,云计算分为三种服务模式:其一是Software as a Service软件即服务,简称SaaS,其作用是将应用主要以基于Web的方式提供给客户;其二是Platform as a Service平台即服务,简称PaaS,其作用是将一个应用的开发和部署平台作为服务提供给用户;其三是Infrastructure as a Service基础架构即服务,简称IaaS,其作用是将各种底层的计算和存储等资源作为服务提供给用户。
按部署方式分类,云计算可以分为公有云、私有云及混合云三类。公有云是一种多租户环境,用户与其他消费者一起,在一个共性的商业资源网络上为自己所使用的资源付费。公有云的大规模使用可以极大的提高社会整个的资源利用率,降低整个社会正常运行的成本,不过现阶段公有云还存在一些不足,比如如何保障用户数据的安全性和服务的可靠性,而且公有云对网络的要求非常高,在网络状况不好的区域,公有云的服务质量就会变得非常差。私有云是指由某个企
按需要、易扩展的方式获取所需资源,提供资源的网络就被称为“云”,对于使用者来说,“云”可以按需使用,随时扩展,按使用付费。广义来讲,云计算是指服务的交付和使用模式,是通过网络以按需要、易扩展的方式获取所需信息化、软件或互联网等相关服务或其他服务。总之,云计算是一种分布式并行计算,由通过各种联网技术相连接的虚拟计算资源组成,通过一定的服务获取协议,以动态计算资源的形式来提供各种服务。
图2 三种服务模式技术层级和管理层级图
每种云服务模式都通过某种程度上的资源抽象,来降低消费者构建和部署系统的复杂性。IaaS处在整个架构的最低端,通过虚拟化技术将服务器等计算平台、存储和网络资源一起打包,通过API接口的方式提供给用户。PaaS某些时候也叫中间件,构建在IaaS之上,它除了基础架构之外,还提供软件应用的开发组件和运行环境,通常还具有相应的存储接口,比如虚拟服务器和操作系统。SaaS处在架构的最顶端,是直接面向用户的最顶层,SaaS的模式就是将应用的后台放在互联网云端,用户只需要一台能上网的电脑或者是一部手机就可以通过web浏览器或者APP来使用,不用在本地维护任何服务器等基础架构,也不需要技术人员的支持。手机自动同步到云端功能、百度网盘的存储功能,都属于SaaS服务。图2中从右到左,用户承担的工作量越来越少。
从用户角度而言,这三层服务,它们之间关系是独立的,因为它们提供的服务是完全不同的,而且面对的用户也不尽相同。但从技术角度而言,云服务这三层之间的关系并不是独立的,而是有一定依赖关系的,比如一个SaaS层的产品和服务不仅需要使用到SaaS层本身的技术,而且还依赖PaaS层所提供的开发和部署平台或者直接部署于IaaS层所提供的计算资源上,还有,PaaS层的产品和服务也很有可能构建于IaaS层服务之上。图3展示了三种服务模式技术上的依赖关系及其面对的用户群体。
业或机构自己独立构建供自己使用的云计算环境,私有云中的资源是不提供给企业外部的用户使用的,私有云的安全性一般高于公有云。混合云就是指公有云和私有云的混合,有些企业的私有云所拥有的资源可能比较多,是企业为了应付突发情况而配备的,这些多余的资源大部分的时间都不能够得到有效的使用,造成了资源的浪费,所以有些企业的私有云不单单是供自己使用,还提供给外界用户使用,外界用户使用混合云就像使用公有云一样。
3.海量数据分布存储和管理技术
为了保证数据的高可靠性,云计算通常会采用分布式存储技术,将数据存储在不同的物理设备中。这种模式不仅摆脱了硬件设备的限制,同时扩展性更好,能够快速响应用户需求的变化。在当前的云计算领域,Google的GFS(GoogleFileSystem)和Hadoop开发的开源系统HDFS(HadoopDistributedFileSystem)是比较流行的两种云计算分布式存储系统。GFS技术是谷歌的非开源的GFS云计算平台,其能满足大量用户的需求,并行地为大量用户提供服务,使得云计算的数据存储技术具有了高吞吐率和高传输率的特点。HDFS技术是开源技术,大部分ICT(Information Communications Technology)厂商,包括Yahoo、Intel的云计算采用的都是HDFS的数据存储技术。
为实现云计算系统对大量数据集进行处理和分析,进而向云计算用户提供高品质的服务,云计算的数据管理技术必须要实现高效的管理大数据集。同时,还要实现在规模巨大的数据中找到特定的数据。云计算的特点是对海量的数据进行存储、读取之后再进行大量的分析,数据读操作的频率远大于数据更新的频率。云计算中的数据管理是一种读优化的数据管理。因此,云计算系统的数据管理多数采用数据库领域中列存储的管理模式,将表按列划分后进行存储,Google 的 BigTable 数据管理技术就是比较成熟的技术。图4中展示了云计算服务模式对应的典型应用及其主要技术。
云计算的关键技术中既包括较传统但是属于云计算核心技术的虚拟化技术、分布式计算、海量数据存储与管理技术,也包括随着云计算的发展,专门为云计算而创建的云原生、无服务器等新兴技术。
1.虚拟化技术
虚拟化技术是云计算实现的最关键技术之一。虚拟化就是通过软件与硬件解耦,实现资源池化与弹性扩展。通过虚拟化技术,将底层硬件资源抽象成各种逻辑资源,也就是资源池化,支持多虚拟机的运行和使用,形成了灵活可扩展的平台服务,提高了资源利用率。
一般地,虚拟化技术主要涉及计算虚拟化、存储虚拟化和网络虚拟化。计算虚拟化主要分为Hypervisor虚拟化和容器虚拟化。Hypervisor 在虚拟机和底层硬件之间建立一个抽象层,它可以拦截操作系统对硬件的调用,为驻留在其上的操作系统提供虚拟的CPU和内存。容器技术是一种轻量级的虚拟化技术,用户通过容器镜像来交付应用,其中包含了应用程序及所需的运行时依赖。存储虚拟化是对存储硬件资源进行抽象化,构成虚拟磁盘系统,进而形成存储资源池,并通过分布式文件管理系统实现业务的提供。简而言之,用户与底层存储资源隔离,在增加使用便捷性的同时,保持相应的性能。网络虚拟化主要是网络功能虚拟化(Network FunctionVirtualization , NFV ) 、软件定义网络( Software DefinedNetwork ,SDN)。其中,NFV 侧重于网络功能单元的虚拟化,目的是减少资源的支出;SDN 侧重于网络的集中控制、虚拟化和开放接口。两者之间高度互补、相互促进。主流虚拟化技术有 KVM,Xen,VMware,Hyper-V 等。目前 KVM 是最受欢迎的虚拟化技术,AWS、阿里云、华为云、腾讯云目前也都从 Xen 转向了KVM。
2.分布式编程模型
云计算上的编程模型要确保简单,以保证用户能通过编写简单的程序就实现
特定的目标,轻松的体验云计算提供的服务,同时也要求这种编程模型后台复杂的并行执行以及任务调度向用户和编程人员透明。为处理大规模数据和实现分布式计算,目前使用的主流技术是Hadoop 项目中的MapReduce分布式编程模型。MapReduce模型是一个简化的并行编程计算模型,它采用函数式编程中的函数来实现并行编程,其核心操作是Map和Reduce。
三、云计算关键技术
图4 云计算服务模式对应的典型应用及主要技术(点击放大)
容器也是一种虚拟化技术,只是更加轻量化,它不需要虚拟整台电脑,而只需要虚拟一个个能够运行代码和程序的容器,这就导致了容器有着虚拟机很多不可比拟的优点:启动更快、集群规模更大、占用空间更小。Docker是应用最为广泛的容器引擎,在思科谷歌等公司的基础设施中大量使用,容器化为微服务提供实施保障,起到应用隔离作用。
4.2微服务
微服务将用户的软件应用程序所需要的功能进行“颗粒化”的细分,隔离成为独立的、互不干扰的小型软件服务或称为微服务。有技术专家对微服务进行了定义:“微服务架构是一种架构模式,它提倡将单一应用程序划分成一组小的服务,服务之间相互协调、互相配合,为用户提供最终价值。每个服务运行在其独立的进程中,服务和服务之间采用轻量级的通信机制相互沟通。这些服务要基于业务场景,并使用自动化布署工具进行独立的发布。可以有一个非常轻量级的集中式管理来协调这些服务,可以使用不同的语言来编写服务,也可以使用不同的数据存储。”
作为运行微服务应用程序的流行选择,容器通过包含应用程序自主操作所需的内容来实现操作系统虚拟化。它们可以是可执行文件、代码、库或文件。此外,每个微服务的数据都是独立和不可变的,这意味着它们不会被更新而是被替换,只保留API。2021年,开发者部署的新微服务有显著的增长。由于其可扩展性,在速度和敏捷性方面,微服务是云原生提升采用率的驱动因素。通过在单独的容器中运行微服务,它们都可以独立部署。
4.3 无服务器技术
Serverless 技术是虚拟机、容器技术之后的下一代计算形态。Serverless是一种构建和管理基于微服务架构的完整流程,允许你在服务部署级别而不是服务器部署级别来管理你的应用部署。serverless中文的含义是 “无服务器”,但是它真正的含义是开发者不用承担服务器管理责任,换言之,它是抽象的服务器,这样你就无需关注基础结构问题,而专注于开发人员工作。Serverless架构分为后端即服务 Backend as a Service(BaaS) 和函数即服务 Functions as a Service(FaaS) 两种技术。Serverless的应用架构是将BaaS和FaaS组合在一起的应用,用户只需要关注应用的业务逻辑代码,编写函数为粒度将其运行在FaaS平台上,并且和BaaS第三方服务整合在一起,最后就搭建了一个完整的系统。整个系统过程中完全无需关注服务器。
BaaS是指我们不再编写或管理所有服务端组件,可以使用领域通用的远程组件(而不是进程内的库)来提供服务。理解BaaS,需要搞清楚它与PaaS的区别。首先BaaS并非PaaS,它们的区别在于:PaaS需要参与应用的生命周期管
4.云原生技术
云原生计算基金会CNCF(Cloud Native Compute Foundation)给出的云原生定义为:云原生技术有利于各组织在公有云、私有云和混合云等新形动态环境中,构建和运行可弹性扩展的应用。云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明API。这些技术能够构建容错性好、易于管理和便于观察的松耦合系统。结合可靠的自动化手段,云原生技术使工程师们能够轻松地对系统作出频繁和可预测的重大变更。
容器、微服务和DevOps号称云原生三驾马车,是实现技术中台的重要组件。容器是非常轻量秒级部署的虚拟化技术,主要理念就是一次封装,到处运行。通过Linux命名空间、Cgroups与rootfs构建进程隔离环境,将应用软件及其运行所依赖的资源与配置打包封装,提供独立可移植的应用运行环境。Docker是当前最火的容器引擎,Kubernetes负责容器编排与集群管理。微服务架构是对面向服务架构(Service Oriented Arichitecture)的升华,将应用解耦成更加轻量化,独立自治、敏捷开发、部署与治理、可通过HTTP方式访问的服务。微服务可以基于虚拟机、容器或Serverless函数来部署使用。开源的微服务框架主要有Dubbo、Spring Cloud。新推出的Service Mesh通过Sidecar智能代理方式让不同应用可以不用修改代码即可接入微服务平台,被称为微服务2.0。DevOps就是敏捷开发运维,通过持续集成与持续部署CICD等自动化工具与流程,打通应用开发、测试、发布、运维的各个环节,以大幅提升系统效率与可靠性。
下面分别详述一下云原生技术相关的几项核心技术。
4.1容器
在容器化之前,互联网主要通过使用hypervisor来实现多个操作系统和应用共享一套基础物理硬件,各种不同操作系统的虚拟机都能通过hypervisor(KVM、XEN等)来衍生、运行、销毁。然而,随着时间推移,用户发现hypervisor这种方式麻烦越来越多,因为对于hypervisor环境来说,每个虚拟机都需要运行一个完整的操作系统以及其中安装好的大量应用程序。这就导致在实际每次部署好自己的应用程序,就得重新安装一套完整的操作系统和依赖环境,
操作系统在虚拟机上的叠加会使得电脑变得十分笨拙。正是基于此,容器技术应运而生,也即如果一种底层技术使得开发人员能够更多关注应用程序本身,而底层的操作系统和运行环境能够实现共享,这将极大提高互联网底层资源的利用率、提高程序开发人员的工作效率,这即容器想解决的问题。
图5云原生技术的三驾马车:容器、微服务和DevOps
FaaS意在无须自行管理服务器系统或自己的服务器应用程序,即可直接运行后端代码。其中所指的服务器应用程序,是该技术与容器和PaaS(平台即服务)等其他现代化架构最大的差异。FaaS产品不要求必须使用特定框架或库进行开发。在语言和环境方面,FaaS函数就是常规的应用程序。例如AWS Lambda的函数可以通过Javascript、Python以及任何JVM语言(Java、Clojure、Scala)等实现。然而Lambda函数也可以执行任何捆绑有所需部署构件的进程,因此可以使用任何语言,只要能编译为Unix进程即可。FaaS函数在架构方面确实存在一定的局限,尤其是在状态和执行时间方面。
在今年Re:invent 2021上,亚马逊云科技一口气推出了五款无服务器产品:Amazon Redshift Serverless、Amazon EMR Serverless(预览版)、Amazon MSK Serverless(公开预览版)、Amazon Kinesis On-demand、Amazon SageMaker Serverless Inference(预览版)。
4.4 国内云原生生态现状
2021年5月份云原生产业大会上,中国工程院院士陈纯院士从技术特征、应用价值和产业融合三个方面分析了云原生产业发展的意义和趋势,充分肯定了云原生发展的重要性。本次大会上,中国信通院联合华为云正式发布《云原生2.0白皮书》,联合腾讯云正式发布《云原生开源白皮书》,联合阿里云正式发布《开放应用模型标准》。国内各大云计算服务商都基于云原生构建了完整的生态链。
华为云通过“重定义基础设施、新赋能泛在应用、再升级应用架构”三大创新升级,构建云原生基础设施。华为云发布云原生2.0全景图,全方位赋能企业云原生落地,加速云原生产业繁荣。
阿里云全面升级计算机体系结构,坚持构建完整的技术体系,其云计算相关负责人表示“将云原生进行到底”。阿里巴巴云原生产品家族包括容器产品家族、微服务产品家族、Serverless 产品家族、Service Mesh 产品家族、消息产品、云原生数据库家族、云原生大数据产品家族等。
腾讯云原生产品矩阵,涵盖了从软件研发、计算机资源、架构框架、数据存储与处理到安全防护等五个大领域,30多个细分产品领域。
5. 云安全技术
云安全融合了网格计算、并行技术、未知病毒判别等最新的信息安全概念和技术,是当今信息安全的全新体现。通过网状的大量客户端对网络中的软件行为异常进行检测,获取互联网上木马、恶意程序等的动态情况,实时推送到服务端进行分析处理,然后再将解决方案分发到客户端,从而及时实现安全处理。云计算安全技术主要包括如下几个方面。
(1)身份管理和认证:为确保用户间数据隔离和安全访问,需要在多用户共享的云计算系统中建立用户的身份管理和访问控制,这也是云计算安全的关键
理,BaaS则仅仅提供应用依赖的第三方服务。典型的PaaS平台需要提供手段让开发者部署和配置应用,例如自动将应用部署到Tomcat容器中,并管理应用的生命周期。BaaS不包含这些内容,BaaS只以API的方式提供应用依赖的后端服务,例如数据库和对象存储。BaaS可以是公共云服务商提供的,也可以是第三方厂商提供的。其次从功能上讲,BaaS可以看作PaaS的一个子集,即提供第三方依赖组件的部分。
(2)数据安全:数据安全是云计算安全的核心,主要包括静态存储数据保护和动态数据隔离保护。数据存储是云计算的一个重要功能,数据在云存储中是静态数据,确保用户数据的保密性、完整性、可恢复性是云计算安全的关键。关于数据保密性问题,主要采用的方式是数据加密和访问控制机制。采用更加有效的完整性验证算法是保证数据完整性的研究重点。而副本技术则是解决数据可恢复性的常用手段。在动态数据隔离保护的研究中,目前提出来的主要有隔离机制、访问控制模型和机制、基于信息流模型的数据安全保护机制等。
(3)可信云计算:可信云计算的核心思想是“可信传递”,将可信云计算技术融入云计算体系是目前云安全领域研究的热门。Intel TXT安全架构是将动态可信度量根技术同虚拟化技术相结合,提供包括可信输入和显示等可信功能。
(4)虚拟化安全:虚拟化技术是开展SaaS云服务的基础,因此,服务器虚拟化、存储虚拟化、网络虚拟化的安全问题对云计算系统安全来说至关重要。要实现服务器虚拟化的安全,就要建立包括虚拟机安全隔离、访问控制、恶意虚拟机防护、虚拟机资源限制等在内的安全保护体系,并不断完善。保障存储虚拟化安全,需要提供设备冗余功能和数据存储的冗余保护。虚拟化网络是实现云计算的重要途径,因此,采用合理按需划分虚拟组、控制数据的双向流量、设置安全访问控制策略等手段构建虚拟化网络安全防护体系十分重要。
2019年7月22日,工信部等四部委联合发布了《云计算服务安全评估办法》,对党政机关要使用经过安全评估的云服务提出了正式要求。2021年出台的《网络数据安全管理条例征求意见》,当中也规定了国家机关等政务运营者采购的云服务要通过评估,把制度的层级上升到了行政法规的层面。
从发展历程上看,中国云计算已经迈入了快速发展期,行业应用相对此前也大幅增加。根据中国信通院发布的《云计算白皮书(2021)》显示,2020年,我国云计算市场发展亮眼,整体规模达到2091亿元,增速达到56.6%。
从市场格局看,全球云计算市场目前由美国三大科技巨头亚马逊、微软和谷歌以及中国的阿里巴巴主导。亚马逊AWS 在2020 年依然占据云计算市场第一的宝座,微软Azure、阿里云、谷歌云和华为云紧随其后,五大云计算提供商共拥有80%的市场份额。
2021年4月22日,咨询机构IDC发布的《全球及中国公有云服务市场(2020年)跟踪》报告显示,2020 年全球公有云服务整体市场规模达3124.2 亿美元,同比增长24.1%。中国公有云服务整体市场规模达193.8 亿美元,同比增长49.7%,全球各区域中增速最高。2020 年全球IaaS 市场达671.9 亿美元,同比增长33.9%。AWS、微软、阿里、谷歌、IBM 位居市场前五,共同占据77.1% 的市场份额。
云计算已经普遍应用政府及公共事业、金融、互联网、制造能源、交通、汽车、医疗、教育、科研公益等各行各业,并助力各个行业的数字转型。
技术之一。目前提出的解决方案包括结合联邦身份管理和个人身份分层加密的身份认证方法等。云计算应用中,用户可能会使用不同的云服务,标识符过多会造成混淆和遗忘。为了解决这一问题,为用户提供良好的体验,云计算的认证还应用了单点登录和联合身份认证等技术。单点登录技术,简单的说就是利用单点登录协议(如OpenID协议、SAML方案),使用户在使用云服务时只需要注册和登录一次,从而减轻用户负担。联合身份认证指的是用户可以使用一个账号登录相互信任的不同云服务平台,是基于单点登录技术建立的。
四、云计算市场现状及应用案例
涉及领域的多样性。由于云计算技术并非仅仅只涉及一项技术,而是多种技术的融合,所以与云计算相关的专利所涉及的领域也具有多样性的特点。云计算技术专利可能涉及计算机技术,也可能涉及网络技术、通讯技术等领域,既与硬件相关,也与商业方法和计算机软件及算法相关。
参与主体的复杂性。由于云计算技术的虚拟化与开源共享性特点,一项云计算专利可能由多个主体来共同设计和完成,这样专利权的主体就可能既涉及到与云相关的平台提供商,也涉及到计算机软件开发商,甚至还与具体应用程序的开发商乃至用户直接相关。
专利之间的高度关联性。由于云计算技术的廉价性、便利性、容量无限性等特点,用户往往选择直接在某一“云”平台来开发各种各样的具体应用,这样势必导致各种开发出来的产品、软件、算法或者商业方法直接具有高度的关联性,形成“你中有我、我中有你”的高度关联性。现实中,为了降低许可交易成本,也较容易形成基于“云”平台的专利联盟或者战略合作关系。
云计算技术提供者和业务提供者二分性。由于云计算技术是为用户提供技术接口,用户可以直接在云计算平台上进行业务构建,其具有所有权和使用权分离的特点。当云计算服务商因提供的服务器被他人用来运营侵权游戏,存储侵权作品时,责任划分是一个难点。国内首例云服务器知识产权侵权案件经二审后结案,一审中乐动卓越公司认为,阿里云公司的行为涉嫌构成共同侵权,2017年6月,北京市石景山区人民法院一审审理认为,阿里云公司作为云服务器提供商,应当承担相关义务防止权利人损失扩大,服务器提供商阿里云被判侵权。2019年6月20日,北京市知识产权法院二审公开宣判阿里云计算有限公司与北京乐动卓越科技有限公司侵害作品信息网络传播权纠纷一案。北京市知识产权法院判决撤销一审决定,驳回乐动卓越公司的所有诉讼请求,阿里云公司就其出租的云服务器中存储侵权软件的行为,不承担法律责任。此案涉及云计算行业发展、数据隐私保护等热点问题,从上述一审二审判决结果的变化也体现了我国司法在知识产权方面对云计算技术所持的积极态度,为我国云计算行业的发展提供了信心。
随着技术的发展,云计算不仅巩固了其作为企业基础设施和软件服务供应者的地位,而且随着企业用户对于新兴技术的接受与应用,云计算有望提升其在新兴技术中的应用。云计算已经成为了几乎所有新的IT创新的平台,包括AI、元宇宙与量子计算等。新兴技术由于与云计算之间的紧密联系而得到了发展。
云计算与AI是一个完美的组合。AI以及机器学习需要具有高速处理器的高级基础架构、最先进的图形处理器以及大容量的内存与存储空间。不过他们并不总需要这些资源,AI和机器学习的工作量通常是“突发”式的,这虽然意味着可能会出现短时的资源紧张,但不会持续很长时间。这些要求与云计算所能提供的能力
元宇宙是云计算可以大量赋能的一个领域。2021亚马云科技re:Invent全球大会上,元宇宙公司Meta(原Facebook公司)宣布深化与亚马逊云科技的合作。元宇宙里面融合了大家所熟知的大量技术,而这些技术的背后就是云计算。无论是在数字世界里面建模,还是与之互动,都离不开机器学习在背后支撑。与此同时,元宇宙的世界必然会产生超级大的数据量,这些数据都离不开底层平台,而云一定是最佳的平台。亚马逊全球副总裁、亚马逊云科技大中华区执行董事张文翊认为,这是云计算可以大量赋能的一个领域。她表示:“我们认为元宇宙一定是云计算可以大量赋能的一个领域。元宇宙本身需要的就是计算、存储、机器学习等,这些都离不开云计算。”
云计算将被量子计算赋能。虽然当前量子计算在稳定性和成熟度等方面还有待提升,在许多日常涉及的领域中,量子计算机并不一定比现有计算机更有优势,然而由于量子计算机可以实现大规模并行处理,在处理机器学习等计算问题时速度远超传统计算机,量子计算机在某些方面比传统计算机具有明显优势。未来,云中对计算功能的需求将会非常大,以至于传统计算机无法满足这些计算需求,而量子计算机的超强计算能力将会驱动云计算的发展。亚马逊云科技相关人员曾表示:云计算是使用量子计算的最佳方式。
全球最大的专业技术组织IEEE(电气电子工程师学会)发布了《IEEE全球调研:科技在2022年及未来的影响》。本次调研结果显示,人工智能和机器学习、云计算及5G技术将成为影响2022年最重要的技术。在疫情防控常态化的当下,数智化技术正在重塑人们的生活和工作方式。本次全球调研结果显示,在2021年得到快速发展及广泛应用的人工智能和机器学习(21%)、云计算(20%)以及5G(17%)三项技术,将在2022年持续对人们的工作与生活产生重要影响。可以预计,未来云计算仍将保持快速发展状态,会更深入的和其他新兴技术融合并广泛应用到各行各业。(完)
五、云计算领域知识产权特点
六、云计算与其他新兴技术的融合及发展趋势
相当契合。公有云服务允许公司获取那些高端的计算资源,但只需为需要的那部分时间进行支付。
田越
数字媒体室室主任
古语云“玉不琢,不成器”。众所周知,晶体管是构成超大规模半导体集成电路芯片的核心部件,集成电路芯片的晶体管就是从半导体硅材料这块璞玉上经过极其复杂和精巧的工艺雕琢而成的,而这琢玉之器就是我们常说的光刻机。2018年4月以来,移动通信和集成电路芯片领域逐渐成为世界各国竞争的关键技术。也许很多人会想为什么华为公司能够自行研发5纳米的芯片架构,那么这项技术在国际上还落后吗?究其原因还是因为国内企业缺乏研制高端光刻机的自主知识产权技术,而高端光刻机是制造超大规模集成电路芯片最关键的设备之一,也被誉为“半导体制造皇冠上的明珠”,也是各个世界强国纷纷争先占领、又无法与竞争对手分享的技术高峰。没有高端的光刻机就无法制造超大规模集成电路芯片,更无法支撑起基于高端集成电路芯片的现代信息化产业这座宏伟大厦。
1.光刻机基本原理
光刻机(lithography),又称掩膜对准曝光机、曝光系统、光刻系统等,它采用类似照片冲印的技术,通过光刻把芯片制作所需要的线路与功能区制造出来,利用光通过现有图形对涂有光刻胶的晶圆曝光,光刻胶见光后会发生性质变化,从而使光罩上的图形复印到晶圆上,进而使晶圆具有电子线路图的作用。通过光刻机,在半导体衬底上以激光直接刻画电路,省去了半导体元件的拼装过程,同时大大缩小了芯片的尺寸。
光刻原理图
一. 光刻机的发展历程
2.为什么需要光刻机?
在光刻技术历史上有着非常著名的摩尔定律,说的是集成电路上可以容纳的晶体管数目大约每18-24个月增加一倍,当然对应的理论性能也能增加一倍。但如何在同样尺寸的芯片上增加晶体管数量呢?当然就是把晶体管做小,提高晶体管密度。想把晶体管越做越小,自然需要更精密的刻刀——光刻机。光刻机占芯片制造总设备成本的30%左右。
摩尔定律示意图
3.光刻机生产商分布及发展情况
目前光刻技术主要掌握在荷兰和日本两个国家,前三大光刻机生产商分别为荷兰阿斯麦公司ASML、日本尼康Nikon和日本佳能Canon。2021年全球集成电路用光刻机出货约500台,其中前三大光刻机生产商出货达478台。从EUV、ArFi、ArF三个高端机型的出货来看,ASML出货占到95.4%的市场,Nikon占有4.6%的市场,EUV方面还是ASML独占鳌头,市占率100%,ArFi方面ASML市占率高达96%, ArF方面ASML占有88%的市场份额。
2021年全球半导体前道光刻机销售图
上图中i line是第二代光刻机,采用365nm光源,用于制备0.8-0.5微米芯片;KrF是第三代光刻机,采用248nm光源,用于制备350-180nm芯片;ArF、ArFi是第四代光刻机,采用193nm光源,ArF用于制备90nm芯片,ArFi用于制备28nm芯片,通过重复曝光可实现7nm;EUV是第五代光刻机,采用13.5nm光源,用于制备7nm芯片。目前,仅有荷兰阿斯麦ASML公司具有EUV光刻机,即具有制造光源波长7nm至5nm光刻机的科技实力,所谓7nm光刻机就是光刻机能刻蚀的最大分辨率。“7nm”中的数字最初指的就是晶体管中的沟道长度,它也是区分半导体加工技术换代的重要标志(当然现在的命名更多的是代表技术迭代,其实是要长于7nm的)。
一套顶级的EUV光刻机,包含10万个零部件,4万个螺栓,重180吨,价值1.2亿美元,需要40个集装箱、20台卡车、3架货机才能完成运输,仅安装调试时间就需要1年左右。一套EUV光刻机的零部件由5000多家细分领域的供应商供应,所涉及的领域专利多如牛毛,虽是荷兰ASML能够生产,但是它的产线却结合了德国卡尔蔡司的光学镜头、美国Cymer的光源、瑞士数控机床等在内的数十多个国家的尖端技术产业,可以说是集合全球的高新科技之大成。
1.光刻机的种类
光刻机种类主要分为三种:
第一种是接近接触式光刻,这也是结构最简单的光刻机。就是把掩膜直接放在硅片上,然后用光照射;因为掩膜和硅片直接接触会造成磨损,所以有时候会把掩膜拿高一点,离开硅片0.1微米,这样就叫接近式光刻。因为掩膜和硅片有了距离,光线会出现散射,所以接近式光刻的效果会差一些,好处就是能够保护掩膜。接触式光刻的技术非常简单,是直接从照相洗印技术发展过来的,大约在1960年之前就已经得到应用了。它最大的问题在于:如果要制造芯片,就必须制作同等精细度的掩膜版。此外掩膜版可能与光刻胶直接接触,可能对芯片造成污染。因此这种光刻机只能达到微米级。
第二种是直写光刻,直写光刻就像是打印,直接用强激光束将所需电路一点点刻出来,说到这里你可能已经发现了它的缺点,太慢了。纳米级的激光束在芯片上刻出电路的效率太低,不适于工业化制造。
二、制造光刻机,为什么这么难
第三种是目前芯片最主要的光刻方式,光学投影式光刻,它也是目前能实现的精度与效率最好的光刻手段。是在掩膜和硅片之间加了一个透镜,光穿过掩膜,通过透镜投射到硅片上,这种方法的好处一是避免了掩膜与硅片的接触,二是可以实现缩印的效果,和直写光刻的打印过程不同,光学投影式光刻就像是复印,掩膜版上的图案经过光学系统投影后被缩小,再曝光到硅片上,就能实现最小纳米级的雕刻工艺。但是光学投影式光刻机问题是结构复杂,价格昂贵。
2.光学投影式光刻——微影制程
ASML光刻机在做的光刻,我们称之为微影制程,原理是将高能镭射光穿过光罩,将光罩上的电路图形透过聚光镜,将影像缩小十六分之一后成像在预涂光阻层的晶圆上。
光刻机由光源系统、物镜系统、双工件台、控制软件四大部分组成,研发必须各个击破,才能制备出分辨率高、生产效率高的高端光刻机。
3.光刻机的光学设计难题——分辨率
如何实现更精确的光刻呢?这就需要在光学设计上实现更大的分辨率。掩膜版上相邻两点在晶圆表面可以清晰成像的对应的最小距离或区别硅片表面上两个或更多的邻近特征图形的能力称为分辨率。最小分辨的宽度CD=K ,其中K是光刻工艺系数,λ是光源的波长,NA是投影透镜的数值孔径,它主要与环境折射率有关。要想提高分辨率,要么减小光刻工艺系数K,要么减小光源波长λ,要么提高数值孔径NA。
光刻工艺系数K取决于芯片制造工艺的多种因素,ASML通过控制光线击中光罩的方式和Flexpupil自由照明器光瞳整形技术,使得K接近于0.3,但由于物理极限是0.25,所以在将K逼近物理极限的情况下,光源波长和数值孔径的改进空间更大一些。
提高数值孔径,人们能采取的方法主要就是改变环境的折射率(折射率越大,数值孔径就越大),于是浸入式光刻机应运而生。中国台湾人林本坚提出了193nm浸入式光刻的概念。把水当作相当理想的浸入液,配合已经十分成熟的
3.1光刻机的发展——减小光源波长
光刻机光源波长变化趋势图
光源的波长越小分辨率越高,但是制造光源的难度也越高。第三代光刻机只能用248nm波长KrF光源进行光刻,能达到的极限尺寸只有180nm左右。随着技术的发展,光刻使用了波长193nm的深紫外光(DUV),只有用ArF准分子才能够被激发的深紫外光。但是,氩(Ar)是典型的惰性气体,与几乎所有物质都不
目前最顶尖的光刻机的光源波长达到13.5nm,被称为极紫外光(EUV)。想激发出极致波长的光源,自然需要极致的办法。光刻机采用的方法是激光等离子体型光源,即利用高功率的激光击打金属锡,产生高温高密度的等离子体,辐射出极紫外光。锡金属被熔化形成直径只有20微米的液滴,并且在真空环境中自由下落。在下落过程中,首先是193nm的深紫外光,将锡液滴打成云状,紧接着功率高达20kW的二氧化碳激光器再次击打它,并激发出EUV。目前,满足EUV光刻机需求的激光等离子体型光源,仅有美国Cymer公司和日本Gigaphoton公司生产,其中美国Cymer公司市场占有率为70%。
EUV源(LPP)示意图
仅仅是产生光源的难度就令人难以想象。首先两次光源需要准确击打到正在自由下落的金属液滴中,而且激发产生的光转瞬即逝,因此需要每秒钟激发约50000次。此外,高达20kW的二氧化碳激光器的制造难度也是相当大,所需电源功率达到了200kW。那么如此高功耗的光所激发的极紫外光的功率多大呢?大约210W,效率只有5.5%。
EUV源(LPP)实物图
光刻机分辨率原理图
193nm光刻设备,那么设备厂商只需做较小的改进,就可以实现更小的分辨率。相比于真空介质下分辨率只能达到65nm,浸没超净水介质的光刻机理论上可以达到22nm甚至更低的分辨率。现在人们正在寻找除水以外具有更大折射率的液体。但这种液体要求非常严格:与光刻胶没有反应,光透过率高,折射率高,还要稳定。目前已研发出的第二代浸入液的折射率为1.64。
发生反应,只有氧化性最强的氟(F)元素才能勉强与它变为这种不稳定的分子,难度可想而知。
有人会问,x射线波长更短,为什么不用x射线做光刻的光源呢。虽然x射线波长更短,但是它的穿透性太强了,用普通透镜无法进行放大缩小,因而无法实现光学投影式光刻。x光做光源现在的相关应用更多用于直写光刻,效率不高。
波长更短的X射线
3.2 提高分辨率——控制像差
提高分辨率不仅要在理想情况,追求衍射极限;还要面对实际,尽量减小像差。像差即为理想的成像与实际成像的差距。控制像差一般需要很多透镜共同作用,例如一个单反镜头有五到七枚透镜共同成像。
光刻机则需要29枚镜头,近60个光学表面,最大直径达到80厘米,500kg的重量,组成了DUV光刻机的投影物镜。并且每一枚镜头的平整度非常高,如果将镜头放大到中国东西距离那么大的直径,加工产生的高低起伏误差比乒乓球直径还要小。
ASML DUV光刻机
EUV光刻机难度更高了。EUV光又称为软x射线,它的穿透性也很强,因此DUV所用的透射式系统无法使它偏折,只能使用全反射的投影系统。此外波长越短的光,越容易被吸收。几乎任何物质对于EUV都是强吸收,甚至空气都能吸收它的能量,因而整个光刻间都要处于真空状态,以尽量减少光能的损耗。
EUV全反射投影系统
EUV所需要用到的镜子是具有极高精度的钼/硅反射镜。首先它不仅需要提高对EUV的反射,还能吸收杂光。因此它上面镀了四十层膜,主要是钼和硅的交替纳米层制作的。其次是平整度,它的表面需要几乎完美的光滑与干净,每个原子都要在正确的位置,如果将反射镜放大到地球这么大,那它上面只能有一根头发丝直径的小凸起。这可能是宇宙中最光滑的人造结构了。光学镜头供应商目前是德国的卡尔蔡司、日本的尼康和佳能。
3.3光刻机的其他挑战
镜片吸收光会产生热量,因而要对系统进行冷却,那如何解决过程中的振动
光刻机的工作环境非常挑剔:超净、无尘、防震、真空。首先光刻需要的房间全部为纯净的黄光,因为短波长的光会造成光刻胶变性,无法实现功能。光刻所需的无尘环境要求每立方米的空气中不能有超过10个颗粒,并且颗粒大小小于0.5微米,每小时要净化30万立方米的空气。 厂房对地基要求也很严格,不能有任何微小的振动,因而某种意义上讲厂房需要类似“悬浮”。光刻需要的电能也达到非常恐怖的量级,一台EUV工作24小时,耗电量达到3万度。
1.光刻机的产业链
“三分天下”格局,中国光刻机产业如何突围?在光刻机产业链上游,中国初步突破了光刻机的三大核心子系统:①在双工件台方面,华卓精科打破了ASML在光刻机工件台上的技术垄断,成为世界上第二家掌握双工件台核心技术的公司。华卓精科在光刻机双工件台技术上的突破,也为中国自主研发65nm至28nm 双工件干台式及浸没式光刻机奠定了基础,成为生产国产光刻机的上海微电子的唯一工件台提供商。②在光源方面,中国科益虹源公司自主研发设计生产的首台高能准分子激光器,以高质量和低成本的优势,填补中国在准分子激光技术领域的空白,打破国外厂家对该技术产品长期市场垄断局面,其已完成了6khz、60w主流ArF光刻机光源制造,也是上海微电子即将交付的28nm光刻机的光源制造商;福晶科技生产的KBBF晶体属于激光设备的上游关键零部件,KBBF晶体是目前可直接倍频产生EUV激光的非线性光学晶体,用于建造超高光分辨率光电子能谱仪、光刻技术等前沿领域。③在光学镜头方面,奥普光学提供的镜头可以做到90nm,但是与卡尔蔡司、Nikon等公司还有非常大的差距。
在光刻机整机生产(中游)方面,上海微电子是国内技术最领先的光刻设备厂商,主要产品是SSX600系列步进扫描投影光刻机,可满足集成电路前道制造90nm、110nm和280nm光刻工艺需求,可用于8寸线或12寸线的大规模工业生产。上海微电子预计在2022年交付第一台28nm制程工艺中国沉浸式光刻机,中国光刻机将从90nm一举突破28nm工艺,标志着低端芯片生产用光刻机的产业链即将实现国产化。上海微电子芯片后道封装领域光刻机在国内市场占有率高达80%,全球市场占有率达到40%。在美国对华为进行“全方面打压”的背景下,上海微电子国产光刻机的重大技术突破不仅能够解决芯片代工被限制的问题,打破国外企业对于集成电路前端光刻机市场的长期垄断,而且能够覆盖更为广阔的市场需求。尽管相比目前占据主流的中高端芯片5nm、7nm以及14nm制造工艺仍存在相当大的距离,但随着国产技术工艺的不断精细成熟,长期来看实现技术的追赶并非不可能。
在光刻机产业链下游,中芯国际是全球领先的集成电路晶圆代工企业之一,中国大陆技术最先进、规模最大、配套服务最完善的专业晶圆代工企业,主要为客户提供0.35微米至14nm多种技术节点、不同工艺平台的集成电路晶圆代工及配套服务。在逻辑工艺领域,中芯国际是中国第一家实现14纳米FinFET量产的晶圆代工企业,代表中国大陆自主研发集成电路制造技术的最先进水平。中芯国际受至于美国出口管制条例,在28nm-14nm制程工艺领域份额较小,而收入主要在28nm以上制程工艺,但随着中心国际技术成熟和产能扩张,未来有望将进一步提高28nm以下制程工艺份额,加速抢占14nm制程领域份额。
2.国产光刻机研发成果
中国科学院上海光学精密机械研究所在激光等离子体光源EUV(LPP)上有重大突破并基于等离子体约束的LPP-EUV光源系统申请专利(CN2020102904256)。中国科学院长春光学精密机械与物理研究所在EUV光刻物镜系统有重大突破。2022年2月7日,上海微电子公司于当天举行了首台2.5D/3D先进封装光刻机的发运仪式,这也是中国首台国产2.5D/3D先进封装光刻机的交付。
虽然上海微电子公司此次正式交付的只是封装光刻机,还不是核心的芯片生产光刻机。但正如中国一句老话所言,万事开头难,中国有大量的人才和较为完
导致精度问题呢?高分辨率的光刻自然需要高分辨率的光刻胶,如何制备呢? 锡微流体如何精确控制大小与流速?整个体系如何确保高精密的机械控制?如何保证整体的可靠性呢?
三、国产光刻机的现状及发展
善产业链体系,只要各方面开始集中发力,迈出第一步之后,后续的发展情况还是值得期待的。即便是被誉为“集成电路产业皇冠上的明珠”的光刻机,未来终究也会获得突破,此次首台2.5D/3D先进封装光刻机的正式交付可以说是开了一个好头。
3.中美光刻机专利情况对比分析
虽然对于光刻机而言,ASML许多压箱底的保密技术是制造高端光刻机的关键点,但是专业布局在光刻技术发展和光刻机制造领域也尤其重要,高端EUV光刻机的专利壁垒还是很高的。ASML的成功是全球顶尖工艺的汇集和芯片代工企业在生产实践中的不断验证和强化,它集合了数学、光学、流体力学、高分子物理与化学、表面物理与化学、精密仪器、机械、自动化、软件、图像识别领域等多项顶尖技术。ASML是通过收购全球领先的准分子激光器厂商美国Cymer,才获得光源技术的保障。
美国一直注重光刻机领域的专利申请,在2000-2008年间,美国在光刻机领域的专利申请量远远大于中国,为了使我国的半导体产业链不受制于人,国家的科学工作者和企业界加快了光刻机的研制步伐,中国光刻机领域的专利申请量逐年增长,2010年专利申请量已经超过美国,希望有一天国产光刻机在高端领域实现弯道超车、有所突破。
EUV光刻机的高精度,也使得光刻机内部一点点纳米级的错误,就会导致芯片良品率不够,让整个生产批次报废,英特尔公司的7nm芯片,曾因芯片工艺研发中发现缺陷导致产品推迟半年后上市,市值一天蒸发400亿美元。因为物理极限的限制,EUV光刻机技术在某种程度上也陷入了停滞。
国内自主研发单位先后突破了EUV光源、双工件台、非球面镜加工等核心技术。同时,3D封装技术也将会成为打破芯片壁垒的重要一环,其放弃平面封装技术,剑走偏锋,有可能闯出另一条路。
虽然与国际先进水平相比,我国如今的技术实力仍有极大差距,但是“芯片问题不是个科学问题,而是个工程学问题”的看法,或许可以让我们更加直观的
四、前景和展望
看到我国在光刻乃至芯片行业的前景,所谓工程学问题,就是指这个问题具有清晰的技术路线和前车之鉴,而我们只是暂时无法到达。我们不仅要看到差距,更要看到追赶的速度,在科技发展日新月异的中国,我们正在将卡脖子清单转化为机会清单。(完)
曾宇昕
半导体一室室主任
陆然
半导体一室审查员
中共中央政治局2022年1月24日下午在第三十六次集体学习的会议中就如何努力实现碳达峰碳中和目标进行了集体学习和研讨,中共中央总书记习近平在主持学习时强调,实现碳达峰碳中和,是贯彻新发展理念、构建新发展格局、推动高质量发展的内在要求,是党中央统筹国内国际两个大局作出的重大战略决策。我们必须深入分析推进碳达峰碳中和工作面临的形势和任务,充分认识实现“双碳”目标的紧迫性和艰巨性,研究需要做好的重点工作,统一思想和认识,扎扎实实把党中央决策部署落到实处。碳达峰碳中和目标(即“双碳”目标)是我国于2020年9月明确提出的,具体含义是:力争二氧化碳排放于2030年前达到峰值,努力争取2060年前实现碳中和。
2020年我国二氧化碳排放总量约110亿吨,其中能源燃烧的二氧化碳排放和电力行业产生的排放量在碳排放中占据绝对主体地位,在上述能源领域实现碳减排将成为实现“双碳”目标的重要一环。
实现能源领域的碳减排主要有四个途径:能源结构转型,产业模式升级,用能效率提升,碳捕获、利用和封存(CCUS)技术的广泛应用,其中能源结构转型对碳减排的贡献率最高(根据波士顿咨询公司的数据,全球范围内,能源结构转型对碳减排的贡献率达到70%)。当前,我国能源结构中化石能源占比约为85%,据估计,要满足“双碳”目标的要求,2060年我国清洁能源替代部分化石能
一、“双碳”目标与新型电力系统
电网是连接能源供应和消费的桥梁,起到电能转换和传输的作用,是能源转型的中心环节。为了适应能源结构的调整要求,电网要从目前以输送常规能源发电为主的模式,向以新能源为主的新型电力系统转型。2021年3月15日召开的中央财经委员会第九次会议研究了促进平台经济健康发展问题和实现碳达峰、碳中和的基本思路和主要举措,指出要构建以新能源为主体的新型电力系统。
随着新能源装机、电量占比不断提升带来的量变,将逐步引发电力系统在物理形态上和技术框架上产生本质性变化,从而使得新型电力系统呈现出区别于传统电力系统的一些显著特征。
源后占比需要达到80%以上。由于风、光、水、核等清洁能源主要通过转化为电能加以利用,因此清洁能源替代化石能源的具体方法是:替代发电和全面提升终端的电能消费比例,例如使用高比例风、光发电,用电动汽车替代传统燃油汽车等。
二、如何构建以新能源为主的新型电力系统
(一)搭建新型电力系统网络
1、电力系统的“高速公路”
我国能源供需分布极不均衡,80%以上的可用能源资源包括清洁能源分布在西部、北部,70%以上的电力消费集中在东部、中部,供需相距800-3000公里。我国能源资源与需求逆向分布,需要发展大容量、远距离、高效率的输电网络,以满足远距离大规模输电、新能源跨省/跨区消纳平衡的需求。
特高压输电技术被喻为电力的“高速公路”,是大容量、远距离、高效率的输电技术,主要分为特高压交流输电(1000千伏以上)和特高压直流输电(±800kV以上电压)。采用特高压技术组建的电网交直流骨干网架,能够保障大型能源基地的集约开发和电力可靠送出,采用特高压输电能够显著提高单位输
特高压输电技术的提高方向为提升通道利用率和跨区跨省电力交换能力,提高电网安全运行水平和抵御严重故障的能力。到2023年,我国特高压直流工程总输送容量可达1.8亿千瓦。
2、电力系统的“辅路”
微电网(也称微网),是指由分布式电源、能源转换、储能、负荷、监控和保护等装置组成的小型发配电系统。对于电网来说,微网可视为电网中的一个可控元件,既能作为可控电源向电网提供电能,又可作为一般电力负荷从电网吸收功率。对于用户来说,微网是一个具有较高灵活性和可靠性的电源,能够满足用户多样性的供电需求。微网提高了电网供电灵活性与可靠性,是大电网的有益补充,属于新技术在配电网中的应用,发展前景良好,但目前的供电成本远高于大电网。
(二)电网升级改造
传统电力系统的控制资源主要是同步发电机等同质化大容量设备,具有巨大的转动惯量,一旦系统出现频率扰动,转动惯量的存在可以在瞬时遏制频率快速波动。但风电、光伏均是“靠天吃饭”,发电的重要特点是波动性和间歇性,耐极端气候条件能力差,一旦电网出现事故,容易主动脱网,加剧事故的蔓延,高比例新能源带来的影响可想而知。2019年英国伦敦停电事故约有100 万人受到停电影响。事故发生前,整个电网内的风电总出力约占全网总负荷的34.71%。事故区域的输电线路遭受一次雷击导致部分分布式发电装机丧失出力,导致系统频
1、灵活性改造
针对高比例清洁能源发电波动性、间歇性和转动惯量小的特性和要求,就需要具备一定规模的具有灵活调节能力的煤电和气电,来补偿风电、光伏的间歇性。例如加快现有运行煤电机组的灵活性,提升调节速率与深度调峰能力;有序发展天然气调峰电源,充分发挥启停耗时短、功率调节快的优势,重点在新能源发电渗透率较高、电网灵活性较低的区域开展建设。同时,针对故障、自然灾害等情况,还需要具备一定的可控电源,尤其是在用户负荷集中地区,需要较大容量的基础负荷提供者确保核心用户的电能供给,可控电源不仅要跟随负荷变化,还要平衡新能源的出力波动。
2、柔性化改造
世界主流输电模式都是“直流送电、交流组网”,这缘于交直流输电本身的技术特性:常规直流主要用于点对点、远距离、大容量的电源外送,并不能组网;交流输电则可以满足常规电源送出和电网互联的需求,且成本较低。但这一基本模式却面临一个“原理性障碍”,即所谓“多直流馈入”问题。他解释,大流量的常规直流汇入电网,就像一条大河流入一个水库,一旦常规直流线路“闭锁”,河水
率下降,霍恩海上风电厂由于电网频率波动和自身低电压穿越能力不足,自动保护动作启动,大量脱网,导致出力突降。又导致系统频率进一步大幅下降,最低达到48.9Hz,超过了系统允许的频率波动范围,自动切除了部分用户荷载,造成了伦敦大停电。要降低高比例新能源带来的上述风险,需要对电网进行灵活性和柔性化改造。
新型电力系统技术上还必须突出柔性化,即推动以柔性直流为代表的柔性输电方式广泛应用。通过对电力系统的柔性化改造,使得调控更加灵活,确保电网安全稳定运行,更适合清洁能源大规模接入。新型电力系统采用柔性输电等技术,将风电、光伏、水电等通过柔性直流输电联通起来,实现风、光、水发电时空互补和电网间接储能作用,实现电能的稳定输出。
目前世界已投运的柔性直流输电工程约40项,在建约20项,主要分布在欧洲,其次是北美洲、亚洲和澳洲,其中最高技术水平为我国在建的±800千伏/800万千瓦乌东德特高压混合多端柔性直流工程。特高电压、特大容量、超低损耗及高经济性是未来柔性直流输电技术发展的根本方向和最终目标。
(三)发展先进储能技术
根据高比例新能源的低惯量的特点,除了对电网进行灵活性和柔性化改造外,提高系统惯量的方法还可以加储能系统、采用虚拟惯性控制电力电子变换器两种方式。高比例新能源要求大容量的储能系统,大规模储能技术发展将根本性改变传统电力系统即发即用的特性,不仅可以在电力系统发生故障或波动时快速响应,为系统提供阻尼、惯量等动态支撑,还能提供调峰、调频和电压支持等服务。由于技术和成本等原因,目前化学储能尚无法满足大规模电网级储能需求。为了解决这个问题,一方面充分发掘需求侧资源潜力,充分调动电动汽车、热力
新能源发电与用电存在季节性不匹配,夏、冬季用电高峰期的新能源出力低于平均水平,而春、秋季新能源大发时的用电水平处于全年低谷。在新能源高占比情景下,季节性消纳矛盾将更加突出。现有的依靠以抽水蓄能为主体的成熟储能技术基本满足日内调节需求,发展实现跨季节超长时间储能是未来新型电力系统储能发展的重要方向。应对风光新能源发电出力长周期(周内、月内、跨季节)出力波动能源电力供需不平衡,以及突发灾害下电力供应的储能需求,主要采用绿色技术生产储存氢和气体/液体燃料(如甲烷、甲醇、氨)等方式,有望在长周期平衡调节、安全支撑等方面发挥关键作用。
未来,氢能有望成为新型电力系统重要支撑性技术,目前处于工程示范阶段。世界各国相继制定了氢能技术路线图,我国也将氢能作为长期发展战略,并开展了工程应用。提高电-电转化效率、储氢密度并降低成本是氢储能的主要发展目标。
(四)提升配套“软实力”
国内外研究表明,新能源电量渗透率超过10%-15% 以后,系统成本将进入快速增长的临界点,未来新能源场站成本下降很难完全对冲消纳新能源所付出的系统成本上升;随着新能源发电量渗透率的逐步提高,系统成本显著增加且疏导困难,必然影响全社会供电成本。
我国电力市场化建设要以有利于能源清洁转型,服务于清洁能源发展和消纳为前提。电力市场建设应充分发挥我国特高压输电技术领先优势,进一步完善可
负荷等灵活性资源参与电力系统功率平衡调节。另一方面,研究先进储能技术。
突然截停,会导致水库缺水。和传统“电流源型”直流相比,柔性直流对电压、频率的控制更加灵活,就像一个完全可控的水泵,能够精准控制水流的方向、速度和流量,使水库水位更加平稳,河流被截停的几率也大幅下降。
(一)柔性直流输电技术
柔性直流输电技术,最早是由加拿大的Boon-Teck Ooi等人于1990年提出,是一种以电压源换流器、自关断器件(IGBT)和脉宽调制(PWM)技术为基础的新一代高压直流输电技术。柔性直流输电可以形象地比喻为电网中的可控“水泵”,不仅能够精准控制水流的方向、速度和流量,还相当于在电网中接入了一个和电源,可以根据电网需求,自身快速、灵活、可调地发出或者吸收一部分能量。相比于传统高压直流输电,该技术具有5大优势:
1)、不存在换相失败的问题。由于采用了可关断型器件,使得换流器的换相不再依靠交流侧电网进行,无需交流侧提供换相电流。
2)、无无功补偿问题。柔性直流输电在交流侧无需大量无功支撑,可以节省常规直流输电交流滤波器场的用地,占地面积减少。
3)、可向孤岛供电、可独立地控制有功功率和无功功率。
4)、谐波水平降低。柔性直流输电的开关频率极高,谐波仅需少量高次滤波器就可滤除,避免了低次谐波对电网的污染。
5)、功率潮流反转迅速。柔性直流输电系统的电流可双向流动,同时直流电压正负极保持不变,适合构成多端系统。
1、系统结构
下图为柔性直流输电系统原理图,两端的换流站均采用VSC结构,由换流站、换流交压器、换相电抗器、直流电容器和交流滤波器等部分组成。
2、专利分析
自1997年第一项柔性直流输电工程投入工业试验运行以来,国际上ABB、西门子两家公司基本垄断了柔性直流工程市场。而我国,国家电网于2006年5月启动了《柔性直流输电系统关键技术研究框架》;2011年7月建设的18MW/±30kV上海南汇风电场柔性直流输电示范工程投产运行。下面我们分析对比一下国家电网和ABB两个公司“柔性直流输电”的专利保护情况。
在Incopat数据库中检索国家电网和ABB公司“柔性直流输电”的专利申请,经简单合并同族后,国家电网共有2195项,ABB有952项。
图3.2(a)示出了国家电网“柔性直流输电”从2008年到2021年的专利申请情况,可知从2012年到2021年专利申请量较高。
图3.2(b)示出了ABB公司“柔性直流输电”从1987年到2021年的专利申请情况,可知从2006年到2019年申请量较高。
通过对比我们可以发现,ABB公司的“柔性直流输电”的相关申请早于国家电网,但是国家电网的申请量逐年上升,最近几年的申请量都比ABB公司高。
下面我们从技术方向对两个公司在柔性直流输电领域的申请进行分析。
再生能源跨省交易机制,解决可再生资源、负荷分布不均衡的问题,推动能源清洁低碳转型发展。研究如何利用市场化手段增加传统火电灵活性改造的积极性、吸引储能投资、实现可控负荷等,优化电源结构,提高电力系统调节能力,更好地适应可再生能源发展和高效利用,确保电力安全。
三、以新能源为主的新型电力系统中的关键技术及专利分析
图3.3︵a︶ 国家电网“柔性直流输电”的技术构成(点击放大)
图3.3(b) ABB“柔性直流输电”的技术构成(点击放大)
图3.2 (a) 国家电网“柔性直流输电”的
申请趋势;(b) ABB“柔性直流输电”的申请趋势(点击放大)
图3.3(a)示出了国家电网“柔性直流输电”在各技术方向的数量分布情况,其中分类号H02J所占数量最多,其次是分类号G01R和H02M。
图3.3(b)示出了ABB公司“柔性直流输电”在各技术方向的数量分布情况,其中H02M所占数量最多,其次是H02J和H02H。
通过对比我们可以发现,国家电网和ABB公司的技术方向略有不同,下面我们通过聚类对主题做进一步分析发现,国家电网和ABB公司在“柔性直流输电”的技术布局都很全面,包括换流器的结构(包括换流阀、MMC、多电平换流器等)、控制系统、传输网络等,而国家电网在输电系统、控制系统、保护系统方面的申请量较ABB公司多,相应地体现在国家电网相关申请中分类号H02J所占数量比ABB公司多。
(二)氢能应用
氢能是一种清洁、零碳的二次能源,具有能量密度大、获取方式多样、制取和使用过程清洁、应用场景多样等特点,氢能作为新兴零碳二次能源将应用于新型电力系统“源、网、荷”各环节,呈现电氢耦合发展态势。应用前景包括:
一是应用于电源侧。利用可再生能源绿色制氢技术,将风能、太阳能等可再生能源电力清洁高效地转换为氢能,推动氢能在电源侧与可再生能源耦合,促进大规模可再生能源消纳,提高可再生能源利用率。
二是应用于电网侧。利用氢能具有跨季节、长时间的储能特性,发挥氢储能作用,可积极参与电网调峰调频辅助服务,提高电力系统安全性、可靠性、灵活性,实现能源跨地域和跨季节的能源优化配置。
三是应用于用户侧。通过氢燃料电池热电联供、区域电网调峰调频及建筑深度脱碳减排的应用,可扩展氢能在终端用能领域的应用范围和综合能源业务发展,推动冷-热-电-气多能融合互补,提升终端能源效率和低碳化水平[1]。
1、氢储能技术
氢储能的基本原理是将水电解得到氢气和氧气,在可再生能源发电系统中,电力间歇产生和传输被限的现象常有发生,利用富余的、非高峰的或低质量的电
2、专利分析
2014 年日本发布了《氢能/燃料电池战略发展路线图》,2018 年,日本发布《第四期能源基本计划》,将氢能定义为核心二次能源(与电力、热能并列),明确提出建设氢能社会;我国也高度重视氢能发展,陆续出台了多项政策支持产业发展,2019年两会期间氢能发展首次写入《政府工作报告》,2020年6月,氢能被纳入《中华人民共和国能源法(征求意见稿)》,2021年3月《中华人民共和国民经济和社会发展第十四个五年规划和2035年远景目标纲要》发布,氢能与储能被列为前瞻谋划的六大未来产业之一。
下面我们在Incorpat数据库中检索我国和日本氢储能的专利申请,经简单合并同族后,我国共有47804项,日本52410项。
图3.6(a)示出了我国在氢储能领域从2003年到2021年的专利申请情况,图3.6(b)示出了日本在氢储能领域从2003年到2021年的专利申请情况。通过数量对比我们可以发现,我国的申请量在近期发展迅猛。
图3.4(a) 国网“柔性直流输电”主题分析(点击放大)
图3.4(a) ABB“柔性直流输电”主题分析(点击放大)
力大规模制氢,将电能转化为氢能储存起来;在电力输出不足时利用氢气转化为电能。下图为氢储能技术及应用结构图。
图3.6(a) 我国氢储能的申请趋势
图3.6(b) 日本氢储能的申请趋势(点击放大)
下面我们从申请人角度进行分析,图3.7(a)为我国氢储能申请量中排名前十的申请人,其中排名第一的是中国石油化工股份有限公司;图3.7(b) 为日本氢储能申请量中排名前十的申请人,其中排名第一的是丰田公司。
我们对申请人的技术构成做进一步分析发现,每个申请人的技术构成不同,侧重的技术领域也不同。中国石油化工股份有限公司的专利申请主要集中在制氢领域,丰田公司的专利申请主要集中在燃料电池领域。
▲2014年 浙江舟山±200千伏五端柔性直流输电工程,该工程为世界上首个五端柔性直流输电工程,是我国目前端数最多的柔性直流输电工程。
▲2015年 福建厦门±320千伏柔性直流输电工程,该工程为世界上首个真双极柔性直流输电工程。
▲2016年 云南鲁西±350千伏柔性直流输电工程,该工程为世界上首次采用大容量柔直与常规直流组合的并联运行模式。
▲2019年 渝鄂±420千伏直流背靠背联网工程,该工程为世界上电压等级最高、输送容量最大的柔性直流背靠背输电工程。
▲2020年 张北±500千伏MMC多端柔性直流输电工程,该工程为世界上首个柔性直流电网工程。该工程将张北新能源基地、丰宁储能电源与北京负荷中心相连,每年可向北京电网输送约141亿千瓦时清洁能源,助力26个冬奥场馆在奥运历史上首次实现100%清洁能源供电。
▲2021年 ±800千伏昆柳龙直流工程(乌东德电站送电广东广西特高压多端柔性直流示范工程),该工程横跨云南、贵州、广西、广东四省区,为世界上首个特高压柔性直流输电工程,也是目前世界上电压等级最高、输送容量最大的多端混合直流输电工程。
(二)国内部分氢储能工程
我国的氢能产业链已基本完善,初步形成从基础研究、应用研究到示范应用的全方位格局,布局了完整的氢能产业链,氢能产业链重点是加强储运和加氢发展 。
▲2016年 河北沽源风电制氢项目,该项目包括200兆瓦风力发电、10兆瓦电解水制氢系统、氢气综合利用系统3个部分,是国内首个风电制氢工业应用项目。
▲2019 年 安徽省六安市1 MW 分布式氢能综合利用站电网调峰示范项目,该项目是国内首个兆瓦级氢能源储能电站,质子交换膜(Proton Exchange Membrane,PEM)电解水制氢规模达 1 MW。
▲2020 年,浙江台州大陈岛“绿氢”综合能源系统示范工程,PEM 电解水制氢规模达 100 kW。
▲2020年 京能集团在内蒙古鄂托克前旗开工建设5000 MW 风、光、氢、储一体化项目,规划2万m3 /h水制氢及制氧。
▲2020年 宁夏宝丰一体化太阳能电解水制氢储能及综合应用示范项目,该项目年产氢气可达1.6 亿标方。
▲2021 年 中国大唐集团在内蒙古兴和县规划开发5000 MW清洁能源项目,其中包含建设150万kW“清洁能源制氢”项目。
▲2021年 全国首个“氢能进万家”示范社区落户佛山,专注热电联供装备产业化。
图3.7(a)我国排名前十的申请人
图3.7(b)日本排名前十的申请人(点击放大)
图3.8(a)我国排名前十的申请人的技术构成
图3.8(b)日本排名前十的申请人的技术构成(点击放大)
四、我国“柔性直流输电”及“氢能”的工程开展情况
(一)国内部分柔性直流输电工程
2003年,我国才开始对柔性直流输电技术进行研究,比欧美国家起步晚很多,但经过多年的自主科技攻关和产品研发,完全掌握了柔性直流输电关键技术,自主研发的柔性直流换流阀和控制保护设备在多个工程中得到成功应用。
▲2011年 上海南汇±30kV示范工程,开启了我国柔性直流输电工程的发展序幕,该工程为亚洲首个柔性直流输电工程。
▲2013年 广东南澳±160千伏多端柔性直流输电工程,该工程连接了南澳岛风电场与广东省主网,是世界上首个多端柔性直流输电工程。
五、结语
构建以新能源为主体的新型电力系统对实现“双碳”目标、推动我国高质量发展意义重大。(1)大力发展风电、太阳能等清洁能源替代化石能源,能够降低能源领域碳排放,改进能源结构,推进我国生态文明建设;(2)根据我国的能源禀赋,在能源供应上实现以新能源为主体,大幅降低对化石资源依赖,对保障国家能源安全有重大意义;(3)是通过提升电能在能源中的消费比例推动全社会能效提升,全产业向绿色发展转型,对我国国民和经济建设实现健康可持续发展意义重大;(4)是通过建设新型电力系统,实现电力能源领域核心装备技术摆脱对外依赖,对能源电力产业全链条安全可控和转型升级意义重大。(完)
黄珊
智能电网一室审查员
薛梅
刘继业
智能电网一室室主任
李航
中共中央国务院于2021年10月24日发布了《关于完整准确全面贯彻新发展理念做好碳达峰碳中和工作的意见》,意见中重点指出要深入研究支撑风电、太阳能发电大规模友好并网的智能电网技术。随后,习近平总书记在中共中央政治局第三十六次集体学习的会议中强调,实现碳达峰碳中和,是贯彻新发展理念、构建新发展格局、推动高质量发展的内在要求,是党中央统筹国内国际两个大局作出的重大战略决策。在此背景下,智能电网的重要性不言而喻。
一、背景
二、智能电网的重点技术
智能电网是在传统电力系统的基础上,通过集成新能源、新材料、新设备和先进传感技术、信息技术、控制技术、储能技术等新技术,形成的新一代电力系统,具有高度信息化、自动化、互动化等特征,可以更好地实现电网安全、可靠、经济、高效运行。其涉及到的主要技术如下:
针对上述技术变革,国家电网以及电力系统、新能源相关企业和科研机构已在专利领域进行了先行布局,从2012年起申请了大量智能电网技术相关专利,并且申请量在近年的政策背景下与日俱增。
三、智能电网相关专利特点
由于智能电网技术的实现主体主要为国家电网,因此国家电网及其下属公司、研究机构为智能电网技术相关专利的申请主体,排在其后的主要申请人为南方电网及其下属公司、研究机构以及华北电力大学,该排名与上述三个申请人在电力领域的发展、技术水平是相一致的。
上述智能电网技术相关专利所涉及分类号如下:
IPC分类号中所占比重最大的主要为:G06Q50/06(专门适用于电力供应经营部门的系统或方法);H02J3/00(交流干线或交流配电网络的电路装置);H02J3/38(由两个或两个以上发电机、变换器或变压器对1个网络并联馈电的装置),上述分类号针对智能电网技术相关专利较为准确。
CPC分类号中,Y02E与Y04S小类所占比重也较大,这两个分类号体现的是新技术发展中的领域交叉技术,其中,Y02E为与发电、输电、配电相关的温室气体减排,Y04S为与电网运行相关的系统整合技术,用于提高发电、输电、配电、电力管理或用电的通信或信息技术,即智能电网,上述两个分类号较准确的描述了双碳技术和智能电网技术。
针对新一代电力系统的构建,国家电网就“围绕推动能源转型,加快电网高质量发展”提出要提高电网数字化水平。数字化是新型电力系统的本质特征之一。实现新型电力系统下“源网荷储”全环节的智能互动、精准控制,需要具备融“采集感知+算力算法+运行控制+智慧运营”于一体的能力,加快推进物理电气系统和数字技术的深度融合。电源结构、电网形态的演变导致电力系统运行机理、平衡模式发生重大变化,需要运用数字化技术提高发、输、变、配、用各环节转换效率和可靠性,其涉及到的重点技术如上图右及下图
图7智能电网技术相关专利申请的各年申请量及主要申请人
图4 源网荷储柔性协调控制 图5源网荷储系统的预测性运维
该案例1涉及新能源出力及负荷变化预测技术,其在传统电力系统考量的负荷不确定性的基础上还需要面对新能源电力系统中的间歇性发电问题,即针对供需双侧均呈现出显著的随机性特征进行新能源出力及负荷变化预测并进行相应的调峰控制。IPC分类涉及H02J3/48、H02J3/38、H02J3/28、G06Q50/ 06和G06Q10/06,即电力系统的并网、储能调度管理。
【案例2】申请人:广东技术师范大学
一种适合柔性直流输电网孤岛平滑切换的有功优化方法,包括:步骤(1),分析有功功率对柔性直流输电网安全性和经济性影响;步骤(2),确定目标函数和约束条件,建立有功优化模型;步骤(3),采用模糊理论对目标函数进行模糊化处理,应用内点法对目标函数和约束条件进行优化计算,获取不同输送功率下直流通道功率‑总输送功率优化曲线;步骤(4),采用折线逼近法对曲线进行拟合,并通过最小二乘法进行计算斜率,获得不同功率区段直流通道功率‑总输送功率优化曲线;步骤(5),设计滞环器,制定有功优化方法具体实现方案,实现了系统有功功率的优化分配。本发明可解决直重交轻或者交重直轻的传输容量分配比例失调可能导致系统的经济性和安全性达不到最优的问题。
该案例2属于源网荷储柔性输配电技术,具体涉及微网的孤岛运行模式与微网与电网的并网运行模式的平滑切换问题,其属于源网荷储一体化技术中普遍寻求解决的技术问题。相关的专利申请主要涉及功率的合理分配、减少对系统的冲击、减少系统损耗等角度。其中,案例2属于功率的合理分配角度的优化方法,IPC分类涉及H02J3/36、H02J3/38、H02J3/24、H02J3/48、G06Q50/06和G06Q10/04,即直流输、配电及并网的优化方法。
涉及智能电网重点新技术的案例介绍:
【案例1】申请人:国家电网有限公司华东分部
一种电力调峰方法、调度中心及电力调峰系统,包括:步骤1,获取次日预测负荷、次日预测新能源出力以及次日可参与调度的高载能负荷信息;步骤2,根据获取到的次日预测负荷、次日预测新能源出力以及次日可参与调度的高载能
负荷信息,生成仅常规能源电厂机组参与的调峰方式下的日前调度计划;步骤3,根据仅常规能源电厂机组参与的调峰方式下的日前调度计划,判断次日是否存在丢弃新能源出力的情况;步骤4,当次日存在丢弃新能源出力的情况时,生成常规能源电厂机组和高载能负荷共同参与的日前调度计划;步骤5,基于电力系统高载能负荷侧的电池储能装置,以及常规能源电厂机组和高载能负荷共同参与的日前调度计划,对常规能源电厂和新能源电厂的出力计划进行日内修正。
图8智能电网技术相关专利申请涉及的IPC分类号(点击放大)
随着虚拟现实技术的不断发展,春晚也开始从纯人工表演向视觉特效飞速前进。早在2015 年的央视春晚中,李宇春的《蜀绣》成为科技含量最高、造价最高、关注度最高的节目之一。舞台上除了李宇春,还有李宇夏、李宇秋、李宇冬等18个分身,使得观众不带任何眼镜,就可以直接看到全息投影的虚拟人。
全息影像技术(Holographic display)是一种在三维空间中投射三维立体影像(影像为物理上的"立体"而非单纯视觉上的"立体")的次世代显示技术。所谓的“全息”即“全部信息”,是指用投影的方法记录并且再现被拍物体发出的全部信息。全息影像技术一般也被称作虚拟成像技术或是全息成像,其成像原理就是凭借光波干涉对物体光波的相位与振幅进行记录,与此同时,凭借衍射原理对物体的光波信息进行展现,由于全息影像再现的光波信息保留了原理物体光波的全部振幅与相位的信息,因为再现出的影像立体感强,与原物体有着与3D电影完全相同的三维特性。但全息影像是真正的三维立体影像,用户不需要佩戴带立体眼镜或其他任何的辅助设备,就可以在不同的角度裸眼观看影像。
四、小结
随着碳达峰碳中和重大战略决策的提出,我国智能电网技术的发展将产生新的飞跃,并将处于世界领先水平,而随之应运而生的电气技术与数字技术深度融合的创新技术也带给我们新的思考,如何与时俱进地对大量涌现的智能电网新技术的相关专利做出有针对性的、专业、高效的审查,亟待我们去分析、探讨。(完)
王宁
智能电网二室审查员
姜娜
智能电网二室审查员
吴冰
智能电网二室副室主任
李航
一、 虚拟现实技术中的“黑科技”
另外,负责《金面》节目的凌云光重明视效工作室采用AI多模态动捕系统中的AIMotion,即多人无标记点智能动作捕捉系统,来捕捉真实女演员。不需要演员穿任何特殊的动捕服装,完全基于自然视频图像,演员的动作表演也不受任何限制,通过AI算法对真人演员的运动轨迹和形体进行采集,计算出演员形体影像的三维坐标,可以让数字模型与演员同步、精准地完成动作表演,这样就实现了无缝融合,打造虚实交互的神奇视觉效果,让三星堆青铜立人和演员“牵手”,令不少观众直呼“浪漫”“震撼”。
由此可见,动作捕捉的技术作为虚拟人制作三大核心技术之一,其打破了虚拟和现实之间的次元壁。其实在2007 年,日本就制作了第一个被广泛认可的虚拟数字人“初音未来”,主 要 利 用 CG 技 术 合 成 , 人 物 声 音 采 用 VOCALOID1系列语音合成,呈现形式还相对粗糙。这些年得益于深度学习算法的突破,虚拟数字人开始步入正轨。2018 年,新华社与搜狗联合发布的 “AI合成主播”,可在用户输入新闻文本后,在屏幕展现虚拟数字人形象并进行新闻播报,且唇形动作能与播报声音实时同步。2019 年,浦发银行和百度共同发布的数字员工“小浦”, 也是利用自然语言处理、语音识别、计算机视觉等人工智能 技术制作的虚拟数字人,可通过移动设备为用户提供“面对面”的银行业务服务。
虚拟数字人,顾名思义,指的是具有数字化外形的虚拟人物,依赖显示屏、全息投影等设备存在,而且虚拟人有类似于人类的外形、身份甚至是情感,能与现实世界交互。
虚拟人的制作流程涵盖了诸多技术,其中最为核心的三大流程分别为建模、驱动、渲染。建模决定了虚拟人的外在形象,渲染决定了最终呈现在观众面前的虚拟人质量,基于动作捕捉技术的驱动则决定了虚拟人的灵活性。
以下重点介绍一下这三个技术:
在2021年的央视春晚,首次对XR虚拟现实技术的应用进行尝试。晚会上,周杰伦通过云录制的方式为我们带来了《莫吉托》精彩的表演,在XR技术的助力下完成了人物、道具跟虚拟场景的互动和结合。
XR (“Extended Reality”),又被叫扩展现实技术,它是一个全新的技术概念集合。其中的x,既代表了拓展(Xtended),又代表了未知变量(x)。它包含了虚拟现实(VR)、增强现实(AR)以及混合现实(MR)等概念,并将它们共同应用于不同的场景或行业,将虚拟世界和现实世界以多种组合方式进行融汇,从而为创作实现更多可能。在视频领域,我们同时使用AR和MR技术,通过对摄像机运动和镜头的追踪,用虚拟环境的画面填充覆盖部分真实的环境,起到补充和扩大场景的效果,即,在现实空间里叠加虚拟空间,让有限的空间实现无限延展,让虚拟画面与现实画面的完美结合。
在2022年的央视春晚,创意舞蹈《金面》也同样利用XR技术让演员在特定的虚拟空间进行表演。
二、虚拟人的关键技术
ICP算法一般过程可分为以下几个步骤:1)点选择,选择样本寻找两组点云之间的最优转换;2)点匹配,找出目标表面和原数据点的交集,或直接找出最邻近的点,这是 ICP 算法中最关键的一步;3)点对加权,给匹配程度不同的点对赋予不同的权值以改善质量;4)点对去除,排除噪声或不重叠的区域产生的离群点;5)误差最小化,两个点云数据集合需要通过合适的最小化误差度量表达。
(c)三维点云重建与纹理映射
相邻帧点云完成配准后,还需要将这些不同视角的点云融合为一个完整的三维模型,使融合后的模型中,不同点云的重叠区域没有重复的数据点。
点云融合大致可以分为面元更新、面元增加和面元移除 3 个主要步骤,面元是局部近似物体表面形状和阴影属性的零维 n 元组,非常适合于动态几何形状建模,每个面元由位置 pi、半径 r、法向量 ni以及可见置信度 vi组成,其中模型曲面 Mt用一组面元 si,i = 1,…,Nt表示。融合时,首先更新扫描输入对应的面元,在所有面元完成更新后,新的面元会增加到还未被模型面元覆盖的扫描深度图中。另外可以根据输入设备的理论精度限制设置合适的面元半径估计,从而实现通过将目标物体靠近摄像头来增加模型细节水平的效果。
纹理映射是通过纹理模式将其映射到对象表面上是为目标表面添加细节的常用方法,进行纹理映射的基本问题为定义映射函数,即确定指定像素与目标对象上指定点的一一对应关系。利用 OpenGL源库中包含的大量关于纹理操作的 API 函数,Kinect 获取的彩色信息作为纹理输入,映射到三维点云模型中,即可得到可视化的真实三维模型显示,如下图所示
2.1建模
在虚拟现实领域中,三维虚拟人建模技术在许多领域也都有了越来越广泛和深入的应用,例如,在影视制作、网络游戏等数字娱乐领域,个性化三维人体建模技术有着广泛的应用。《怪物史莱克》、《机器人总动员》、《功夫熊猫》、《黑客帝国》、《魔戒》等电影均采用了大量的人体建模技术,丰富了角色形象。在研究的虚拟人建模技术的过程当中,为了获得对于虚拟人真实并且立体的视觉体验,首先需要对虚拟人进行模型重建,得到一个较为真实的三维人体的模型,然后在此基础上,驱动三维人体模型,从而真实地模拟出现实生活中人体的运动。
从整体上来看,三维重建技术主要通过视觉传感器来获取外界的真实信息,然后再通过信息处理技术或者投影模型得到物体的三维信息,也就是说三维重建是一种利用二维投影恢复三维信息的计算机技术。一般将三维重建技术分为接触式和非接触式两种,接触式方法其实就是利用某些仪器能够快速直接测量场景的三维信息,非接触式方法是在不接触被测量物体的前提下,利用影像分析模型原理来获取被测物体的数据信息,目前非接触式的应用范围比接触式方法更广泛。非接触式主要包括主动视觉法和被动视觉法,主动视觉又包括激光扫描法、结构光法、阴影法、TOF技术、雷达技术、Kinect 技术等;被动视觉法根据摄像机数目的不同分为单目视觉法、双目视觉法和多目视觉法。
2.1.1 基于主动视觉的三维重建技术
基于 Kinect 的三维场景重建技术是主动视觉法里应用最广泛的方法之一。Kinect是微软公司在 2010 年推出的一款新型 RGB-Depth 深度视频摄像机,能够采集三维深度点云数据,为三维数据的获取和采集提供了全新的方式。它能够同时获取视频、深度点云和骨架。利用 Kinect 完成三维场景重建的方法有很多种,基本均由三个主要步骤构成:获取点云数据并处理、配准及重建与纹理映射。
(a)三维点云数据的获取和处理
Kinect 获得深度图像后将深度数据转化为点云,但三维模型重建精度会因为 Kinect 获取的大量点云数据,尤其是边缘处的不稳定噪声点,而受到严重影响。为了在去除深度噪声点的同时充分保留边缘信息,还需对获得的数据进行滤波等预处理,中值滤波,高斯滤波,拉普拉斯滤波和双边滤波等是比较常用的滤波处理算法。通过对滤波算法的合理改进可以在降低噪声影响的同时充分保留图像信息,尤其是图像边缘的信息。
(b) 三维点云配准
不同视角下获取的数据经过滤波后,需要将点云配准到一个单一的模型中。配准过程大体分为两大类:粗配准和精细配准。配准的关键是找出正确的旋转和平移向量以表示两组点云数据集的空间变换关系,通过变换使其处于同一坐标系下,使两者的交集区域重叠。粗配准过程通过求出近似
配准变换,使两组点云数据尽可能的靠近,以达到缩小差异、为更精细配准提供好的初始位置、增大迭代收敛到最优变换概率的目的;在此基础上,通过逐渐逼近、迭代,可以获得更好的变换参数,实现精细配准。精配准中的ICP 算法是较为成熟、使用最广的精确配准算法,很多算法都是基于ICP算法进行改进的。
单目视觉法所使用的图像可以是单视点的单幅或多幅图像,也可以是多视点的多幅图像。前者主要通过图像的二维特征( 用 X 表示) 推导出深度信息,这些二维特征包括明暗度、纹理、焦点、轮廓等,因此也被统称为 X 恢复形状法(shapefrom X),这一类方法设备结构简单,使用单幅或少数几张图像就可以重建出物体三维模型。后者通过匹配不同图像中的相同特征点,利用这些匹配约束求取空间三维点坐标信息,从而实现三维重建,这种方法可以实现重建过程中的摄像机自标定,能够满足大规模场景三维重建的需求,且在图像资源丰富的情况下重建效果比较好。常见的几种单目视觉方法包括明暗度法、光度立体视觉法、纹理法、轮廓法、调焦法等。
(b)双目视觉法
双目视觉的工作原理来源于人类的双目视觉系统,从不同的视角通过两个相同的相机捕获同一个位置下的左右两侧图像,然后再利用三角测量原理获取物体的深度信息,通过这些深度信息重建出物体的三维模型。基于双目视觉的三维重建获取深度信息流程如下图所示。
双目视觉方法大都是利用对极几何将问题转换到欧氏几何条件下,然后再采用三角测量原理估计其深度信息,该方法大致可以分为 5 个步骤,分别是图像获取、摄像机标定、图像校正、立体匹配和三维重建。
1) 图像获取:双目视觉方法中的图像获取是采用两台相同的相机同时获取同一个场景中的目标物体图。随后对获取的图像进行预处理。
2) 摄像机标定:双目视觉方法中的摄像机标定主要是为了获取摄像机的畸变向量以及相机的内外参数等信息。对于获取的畸变向量,需要消除它的径向和切线方向上的镜头畸变,以获得无畸变图像,同时建立摄像机的成像模型,进而可以确定目标点与像素点之间的对应关系,为后面计算本征矩阵做准备.
3) 图像校正: 双目视觉方法中的图像校正主要通过线性变换使处理后的无畸变图像中的共轭极线位于同一水平线上,从而把二维空间的匹配问题化简为一维空间的求解问题,以提高后续立体匹配的鲁棒性和效率.
4) 立体匹配: 双目视觉方法中的立体匹配是采用立体匹配算法得到校准后的图像与原图像的视差值,然后利用这个视差值得到每两幅图像之间的稀疏匹配,再通过优化算法,获得稠密匹配。立体匹配是三维重建中最关键的一步,匹配问题的好坏决定着三维重建的效果和精度.
5) 三维重建: 双目视觉方法中的三维重建是采用三角测量原理计算获取的立体匹配图像的深度值,从而可以得到稠密的三维空间点云,随后,再对获取的三维空间点云进行网格化和差值计算,进而可以得到物体的三维结构模型。
(c)多目视觉法
多目视觉是双目视觉的一种延伸,它是在双目视觉的基础上,增加一台或者多台摄像机作为辅助进行测量,从而获得不同角度下同一物体的多对图像。多目视觉法大多数的理论与双目视觉法是相同的,唯一不同的是,多目视觉采用了三个或三个以上的摄像头进行环境中目标物体的获取。多目视觉的优点是当
2.1.2 基于被动视觉的三维重建技术
基于被动视觉的三维重建技术是通过视觉传感器(一台或多台相机)获取图像序列,进而进行三维重建的一种技术。这种技术首先通过视觉传感器(一台或多台相机)获取图像序列,然后提取其中有用的信息,最后对这些信息进行逆向工程的建模,从而重建出物体的三维结构模型。该方法的优点是能够应用于各种复杂的环境中,对主动视觉法具有很好的补足。另外,它具有价格较低,操作简单,实时性较高,对光照要求较低以及对场景没有要求的优点,容易实现。由于主动视觉方法受环境及设备等因素的限制,近几年,人们投入大量精力用于被动视觉方法的研究上。根据相机数量的不同,被动视觉的三维重建技术可以分为单目视觉、双目视觉和多目视觉。
(a)单目视觉法
单目视觉是仅使用一台相机进行三维重建的方法,该方法简单方便、灵活可靠、处理时间相对较短,而且价格便宜,使用范围比较广,能够使用在三维测量和检测等领域。基于单目视觉的三维重建流程如下图所示
:
2.2.2惯性动作捕捉
惯性动作捕捉主要是基于惯性测量单元(Inertial Measurement Unit,IMU)来完成对人体动作的捕捉,即把集成了加速度计、陀螺仪和磁力计的IMU 绑在人体的特定骨骼节点上,通过算法对测量数值进行计算,从而完成动作捕捉。这种惯性动作捕捉方案价格相对低廉,但精度较低,会随着连续使用时间的增加产生累积误差,发生位置漂移。
基于惯性传感器的动捕系统需要在身体的重要节点佩戴集成加速度计,陀螺仪和磁力计等惯性传感器设备,然后通过算法实现动作的捕捉。该系统由惯性器件和数据处理单元组成,数据处理单元利用惯性器件采集到的运动学信息,通过惯性导航原理即可完成运动目标的姿态角度测量。
以荷兰XSENS惯性式动捕方案为例,集成GPS信号的微型惯性测量系统。通过内部微处理器的处理,输出姿态和航向信息。内部处理器功耗低,通过实时卡尔曼滤波来提供准确的位置和速度信息。同时也提供无漂移的GPS增强型的三维定位信息,以及较核过的三维加速度、三维转速度、三维地磁场、静态压力信息。对于导航,车辆和其他物体的控制,MTi是一款性能优越的测量单元。定向计算采用了经过验证的Xsens卡尔曼滤波器(XKF3i)的传感器融合算法。使用Xsens评估引擎(XEE)估计方向和位置,超越了传统的卡尔曼滤波的传感器融合算法。更为灵活,并且能够更好地处理测量离群或畸变项。其信号处理管道,加速度计带宽高达375赫兹,陀螺仪高达415赫兹。10千赫的过采样率和一个衰减陡峭的低通数字滤波器,确保高抗振动性能。圆锥和划船补偿运行达到业界领先的2千赫。所有内部传感器配有一个内置的自检。XKF3i为成熟的传感器融合算法,提供MTI-20 VRU和MTI-30 AHRS高可靠性能的方向。发散监测器是XKF3i的一个重要组成部分,确保即使在加速度和磁场扭曲下也会保持正确的方向。XKF3i自带多个过滤器设置配置文件,在特定的条件和环境下使用。
2.2.3基于计算机视觉的动作捕捉
基于计算机视觉的动作捕捉主要是通过采集及计算深度信息来完成对动作的捕捉。该类动捕系统比较有代表性的有捕捉身体动作的Kinect,捕捉手势的Leap Motion,识别表情及手势的RealSense实感以及无标记计算机识别动作捕捉。
多目视觉法不需要人为地对相关辐射源进行设置,能够在不接触的情况下进行自动在线检测。这种方法的优点是可以减少测量中的盲区,获得更大的视野范围,更高的识别精度; 此外,该方法还能解决双目视觉中的误匹配现象,能够适应各种场景。由于在双目的基础上增加了一台或多台相机,在进行三维重建时需要对大量的数据进行处理,导致处理时间的增加,无法满足实时性的要求; 此外,在重建过程中需要进行大量的匹配运算,运算量偏大,而且易受环境光照条件的影响。目前,多目视觉法在车辆自主驾驶、机器人视觉、多自由度机械装置控制等很多领域获得了广泛的应用。
2.2动作捕捉技术
智能合成、动作捕捉迁移成为数字人目前主流的动作生产方式。通过将捕捉采集的动作迁移至数字人是目前3D数字人动作生成的主要方式,核心技术是动作捕捉。动作捕捉技术按照实现方式的不同,可分为光学式、惯性式、电磁式及基于计算机视觉的动作捕捉等。其中《金面》节目所采用的AIMotion属于基于计算机视觉的动作捕捉方式的一种。
2.2.1光学式
最常用的是基于 Marker(马克点)的光学动作捕捉,原理是在运动物体关键部位(如人体的关节处等)粘贴Marker点,多个动作捕捉相机从不同角度实时探测Marker点,数据实时传输至数据处理工作站,根据三角测量原理精确额计算Marker点的空间坐标,再从生物运动学原理出发解算出骨骼的6自由度运动。根据标记点发光技术不同还分为主动式和被动式光学动作捕捉系统。
基于马克点的光学动作捕捉系统可以实现同时捕捉多目标。但在捕捉多目标时,目标间若产生遮挡,将影响捕捉系统精度甚至会丢失捕捉目标。此外,基于马克点的光学动作捕捉系统采集的信号量大,空间解算算法复杂,其实时性与数据处理单元的运算速度和解算算法的复杂度有关。且该系统在捕捉对象运动时,肢体会遮挡标记点,另外对光学装置的标定工作程序复杂,这些因素都导致精度变低,价格也相对昂贵。
测量物的表面倾斜的角度太大导致其中的一个或两个 CCD 摄像机不能接收到漫反射光时,其他的摄像机可继续工作。
景深识别原理:它采用了“主动立体成像原理”,模仿了人眼的“视差原理”,通过打出一束红外光,以左红外传感器和右红外传感器追踪这束光的位置,然后用三角定位原理来计算出 3D 图像中的“深度”信息。
基于计算机视觉的无标记动作捕捉系统主要由4个组成部分:①摄像机系统:离线阶段的无标记系统采用了8个HD相机。②人体图像识别模型构建:无标记动作捕捉建立的人体模型与基于反光标记三维动作捕捉建立的人体骨架模型类似,均是由骨骼以及相邻骨骼组成的关节构成,通常采用骨骼长度、关节相对位移以及关节角度等指标量化模型特征。基于无标记动作捕捉的人体模型构建通常需要识别图像中人体的轮廓和体积特征,再通过进一步的算法提取人体模型中的关节运动轨迹等运动学参数。③图像特征提取:无标记动作捕捉的首要任务是确定图像的范围和捕捉目标的位置。在摄像机数量充足的前提下,可以通过不同角度的图像轮廓拟合,实现捕捉目标的三维形态转换,获得图像轮廓视觉外壳(visual hull)。其中在背景风格过程中采用多模态背景分割算法来有效识别不同的背景变化。④机器学习识别算法的应用:分为生成式算法(generative algorithm)和判别式算法(discriminative algorithm),统称为监督式学习。监督式学习算法在基于计算机视觉的无标记动作识别领域占主导地位,训练数据集的生成首先需要对视频进行手动标记和注释等前处理过程。生成式算法对基于训练数据的学习进行预测,模型参数可以根据图像数据生成假设,随后对该假设进行评估,通过进一步的迭代优化,从而确定最佳的预测匹配。生成式算法包括朴素贝叶斯算法、隐马尔可夫算法、k-近邻算法等。判别式算法直接使用图像数据推断模型参数,避免了反复调整人体模型参数适应图像的过程,因此也被称为无模型算法。与生成式算法相比,判别式算法处理时间较短,对异常值判别的鲁棒性更高。常用的判别式算法包括逻辑回归、支持向量机、决策树、线性判别分析、神经网络等。在以上4个部分中,图像参数的捕捉和获取是离线(off-line)处理部分,图像特征提取、识别模型构建以及算法应用是在线(on-line)处理部分。
Kinect一次可撷取三种东西,分别是彩色影像、3D深度影像、以及声音讯号。首先是Kinect机身上有3 颗镜头,中间的镜头是一般常见的RGB彩色摄影机,左右两边镜头则分别为红外线发射器和红外线CMOS摄影机所构成的3D深度感应器,Kinect主要就是靠3D深度感应器侦测玩家的动作。中间视讯镜头则是用来辨识玩家身分(靠着人脸辨识和身体特征)、以及辨识基本的脸部表情,此外也能应用在扩增实境游戏、以及视讯通话时;同时 Kinect还搭配了追焦技术,底座马达会随着对焦物体移动跟着转动。Kinect也内建了麦克风系统,用的还是阵列式麦克风。它的好处是藉由多组麦克风同时收音,比对后消除掉杂音,等于提供了降噪功能,让玩家的声音能更清楚的传递出去。
Leap 的传感器能捕捉到这三种运动信息:手指(及手持物)的运动、手掌的运动、手掌球(手的弧面模拟的球体,带有球心位置和半径信息)三种。另外,还可以通过两只手的相对运动生成平移、旋转和缩放信息。在只伸出一只手指的情况下,Leap 的捕捉信息相当精准。手指的一点点移动都能被迅速捕捉到。不过,伸出多个手指后,Leap 尽管对手指的捕捉依然非常精准,但经常会“跟丢”一些手指,即手指突然消失随后识别成一个新手指出现在屏幕上。尤其是手两端的拇指和小指。若不伸出手指,那么 Leap 是不会捕捉到运动信息的。若手指被手掌或其他手指挡住,也不会捕捉到的。
Leap Motion传感器根据内置的两个摄像头从不同角度捕捉的画面,重建出手掌在真实世界三维空间的运动信息。检测的范围大体在传感器上方 25 毫米到 600 毫米之间,检测的空间大体是一个倒四棱锥体。首先,Leap Motion 传感器会建立一个直角坐标系,坐标的原点是传感器的中心,坐标的X轴平行于传感器,指向屏幕右方,Y轴指向上方,Z轴指向背离屏幕的方向。 其次,Leap Motion 传感器会定期的发送关于手的运动信息,每份这样的信息称为帧( frame )。每一个这样的帧包含检测到的:所有手掌的列表及信息;所有手指的列表及信息;手持工具的列表及信息;所有可指向对象,即所有手指和工具的列表及信息。Leap 传感器会给所有这些分配一个唯一标识,在手掌、手指、工具保持在視野范围內時,是不会改变的。Leap 可以根据每帧和前帧检測到的数据,生成运动信息。例如,若检测到两双手,并且两双手都朝一个方向移动,就认为是平移;若是像握着球一样转动,则记为旋转。若兩双手靠近或分开,則认为缩放。所生成的数据包含:旋转的轴向向量;旋转的角度;描述旋转的矩阵;缩放因子;平移向量。
对于识别表情及手势的RealSense实感,其采用手势识别原理、人脸识别原理或景深识别原理。
手势识别原理:可以识别手势,是因为摄像头搭载了人的手指关节识别技术。
人脸识别原理:该技术可以识别人脸的70块左右的肌肉,而人脸的喜怒哀乐都是通过这些肌肉来表现,所以该技术也可以识别人的喜怒哀乐以及特定动作的表达。
重光照技术通过采集模拟多种光照条件的图像数据,测算数字人表面光照反射特性,并合成出数字人模型在新的光照下的渲染结果,使计算机中的虚拟数字人在任意虚拟环境下都可以呈现近乎真实的效果,它彻底改变了传统渲染方式通过模拟皮肤复杂的透射反射来计算渲染总会带来误差的局面。该技术在2000年初由南加州大学实验室创建LightStage平台时提出,并开始了相关研究,目前已经经过7代的迭代发展,已被成功应用到《阿凡达》、《复仇者联盟》 等经典影片的角色制作中。国内清华大学、浙江大学也都建设了重光照系统,可以实现高精度人体光照采集与重建。
(2)实时性
实时渲染技术的突破助力写实类数字人实现实时交互,应用范围快速扩大。实时渲染指图形数据的实时计算与输出,其每一帧都是针对当时实际的环境光源、相机位置和材质参数计算出来的图像。与离线渲染相比,实时渲染面临较大挑战,一是渲染时长短,二是计算资源有限。随着硬件能力的提升和算法的突破,渲染速度、渲染效果的真实度、渲染画面的分辨率均大幅提升,在虚拟人物实时渲染方面,已经能做到以假乱真。2018年,塞壬(Siren)由Epic Games、Cubic Motion、3Lateral、Vicon,以及腾讯旗下的Next Studio联合打造。塞壬(如上图所示)的每一个动作,不是传统意义上的三维动画,而是经由运动捕捉技术,通过“虚拟引擎”实时渲染的。
2.3 渲染
建模、驱动、渲染三大关键技术构成底层架构,建模软件能够对虚拟数字人的人体、衣物进行三维建模,渲染引擎能够对灯光、毛发、衣物等进行渲染,主流渲染引擎包括Unity Technologies 公司的Unity 3D、Epic Games公司的Unreal Engine。随着硬件能力的提升和算法的突破,真实性和实时性均大幅提升。
(1)真实性
PBR(Physically Based Rendering)渲染技术的进步以及重光照等新型渲染技术的出现使数字人皮肤纹理变得真实,突破了恐怖谷效应。目前常见的几款渲染引擎,如Unreal Engine 4, Unity 3D 5,均由各自的PBR实现。
PBR是基于真实物理世界的成像规律模拟的一类渲染技术的集合,它的关键在于微表面模型和能量守恒计算,通过更真实的反映模型表面反射光线和折射光线的强弱,使得渲染效果突破了塑料感。PBR的组成,包括:漫反射与反射、能量守恒、微表面等。
漫反射与反射,是光线在物体表面作用的最基本的两个表现。传统游戏的渲染系统中也把它们叫做漫反射与高光。当光线达到物体表面的时候其中的一部分将会沿着表面的垂直法线反弹向与来源光线相反的方向。在越光滑的表面就表现的越像镜面反射。然而并不是所有的光线都会被反射,部分光线将进入被照射物体的内部。这部分光线一部分被物体吸收转换为热能,另一部分则会在物体内部发生散射,最终离开物体被人眼和摄像机捕获到。这一现象被叫做“漫反射”与“子表面散射”。
能量守恒,由上面的描述我们可以看出,漫反射与反射是相互独立的两部分。入射光线的一部分在物体表面发生了反射,没有反射的一部分进入物体表面被吸收或者被散射。因此可以得出一个重要的结论:漫反射光线+反射光线=入射光线。这就是光线的能量守恒。这一现象就表现在,同样的光照条件下,反射越强烈的材质表面漫反射就越弱(表现为更暗)。
微表面,以上的理论都是基于宏观的,然而在微观世界中,物体的表面不可能是绝对平滑的,总有一些或多或少的沟壑。这就导致了反射光线并不是总是平行的。
二、 知识图谱发展史
知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。
知识图谱不是一种新的知识表示方法,而是知识表示在工业界的大规模知识应用,它将互联网上可以识别的客观对象进行关联,以形成客观世界实体和实体关系的知识库,其本质上是一种语义网络,其中的节点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。知识图谱的架构,包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术(体系)架构。知识图谱的逻辑结构可分为模式层与数据层,模式层在数据层之上,是知识图谱的核心,模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。如果以“实体-关系-实体”或者“实体-属性-性值”三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成“知识图谱”。
知识图谱经历了从Semantic Net到Semantic Web再到目前知识图谱的过程。
三、结语
在2021年第二度举行的GTC上,国际图形技术巨头英伟达再次利用以假乱真的技术,骗过了众人的眼睛。通过Omniverse平台所创造的动态虚拟环境“数字厨房”,让人眼前一亮,黄仁勋与厨房一起“解体”,化成数字模块,随后“重组”后的黄仁勋出现在另一个背景中,继续进行演讲。根据英伟达的博客,在1小时48分钟的发布会上,“数字人”只出现了14秒。而且根据了解,短短十几秒的视频,共有34个3D美工师和15个软件工程师协同参与,总计近千工时,前后共制作了21个版本。很明显,这一效果的呈现耗费了巨大的人力物力,且耗时很长,但从技术层面来看,确实是图像领域的一次巨大突破。
虚拟人的应用给传统领域带来变革。尽管目前数字人的发展环境、整体情况还处于尚未成熟的起步阶段,但随着虚拟数字人技术的精进、市场价值的释放,其将更全面、更深入地融入影视、金融、文旅等各个 领域,充分发挥应用价值,迸发巨大的潜力。(完)
林婉娟
计算机系统结构室审查员
王思文
计算机系统结构室审查员
马春黎
计算机系统结构室审查员
胡一冰
计算机系统结构室审查员
一、 知识图谱的定义
知识图谱始于20世纪50年代,至今大致分为三个发展阶段:
- 第一阶段 (1955年—1977年)是知识图谱的起源阶段,在这一阶段中引文网络分析 开始成为一种研究当代科学发展脉络的常用方法;
- 第二阶段(1977年-2012 年)是知识图谱的发展阶段,语义网得到快速发展,“知识本体”的研究 开始成为计算机科学的一个重要领域,知识图谱吸收了语义网、本体在知识组织和表达方面的理念,使得知识更易于在计算机之间和计算机与人之间交换、流通和加工;
- 第三阶段(2012年—至今)是知识图谱繁荣阶段,2012年谷歌提出Google Knowledge Graph,知识图谱正式得名,谷歌通过知识图谱技术改善了搜索引擎性能。在人工智能的蓬勃发展下,知识图谱涉及到的知识抽取、表示、融合、推理、问答等关键问题得到一定程度的解决和突破,知识图谱成为知识服务领域的一个新热点,受到国内外学者和工业界广泛关注。
近年来,随着语义Web的兴起,本体技术受到了广泛关注。很多大型跨国公司都开始研究本体技术。谷歌于2012年提出了知识图谱的项目,旨在利用本体技术来提高搜索的精度和更智能化的知识浏览。国内的互联网公司,如百度、搜狗,也已经开展这方面的项目。微软提出了Probase项目,旨在通过爬取网页中的信息来构建大规模的本体。IBM利用语义Web技术来处理异构医疗数据的整合以及更准确的查询回答。本体技术在IBM的著名问答系统Watson中发挥了重要的作用。Oracle实现了一个强大的语义数据推理和索引系统。本体技术还受到欧美政府的支持。英国政府发起了http://Data.gov.uk项目,把很多政府网站的信息都以本体的形式分布。而美国政府也有类似的项目。学术界对本体的研究有很多成果,特别是在计算机科学领域,有很多实用的技术被开发。欧盟在最近5年投入大量科研经费(累积超过数亿欧元)用于本体相关的研究。
三、 重要算法及模型
知识图谱作为一种直观的表示方式,将知识描述为三元组的形式。这种描述方式符合人对知识的直观感受,具备一定的知识表示能力和推理能力,但是难以和神经模型结合。这就引出了知识表示学习(Knowledge Representation Learning),通过从知识图谱学习得到entity和relation的embedding,将知识融入到现有的神经模型框架之下。
知识表示学习具备以下优势:
1)可以显著提高计算效率。简单地基于图算法计算实体间的语义和推理关系,其计算复杂度高、可扩展性差;而表示学习得到的分布式表示,则能够高效地实现语义相似度计算等操作。
2)有效缓解数据稀疏。一方面将每个对象投影到低维的稠密向量空间;另一方面在投影过程中也可以借用高频对象的语义信息帮助低频对象的语义表示,捕获长尾分布。
3)实现异质信息融合。将不同来源的对象投影到同一语义空间中,就能够建立统一的表示空间。
知识表示学习的主要方法
基于距离的模型
知识库中存在大量的结构化和组织化的数据,如果能够充分利用起来将会对AI领域非常有帮助。基于此提出一种模型将任何知识库中的实体和关系嵌入到一个更灵活的连续向量空间。嵌入可以认为是一个神经网络,该神经网络的特殊结构允许将原始数据结构集成到所学习的表示中。更准确地说,考虑到知识库是由一组实体和它们之间的关系定义的,该模型为每个实体(即一个低维向量)学习一个嵌入(embedding),为每个关系(即矩阵)学习一个运算符(operator)。另外,在低维embedding空间使用核密度估计可以估量空间的概率密度,这样可以量化实体之间的关系存在可能性。
结构表示(Structured Embeddings,SE)中每个实体用d维的向量表示,所有实体被投影到同一个d维向量空间中。同时,SE还为每个关系定义了两个矩阵 用于三元组中头实体和尾实体的投影操作。最后SE为每个三元组( h , r , t ) h为头实体,t为尾实体,r为关系,定义了损失函数:
对于上述损失函数,可以理解为通过两个关系矩阵将头尾两个实体投影到同一关系空间中,然后在该空间中计算两投影向量的距离。而这个距离则反映了头尾实体之间在特定关系下的语义相似度,他们的距离越小则表明越有可能存在这种关系。
SE模型要学习的参数是实体向量矩阵E和两个关系矩阵 ,下面是模型的训练过程:
可以看出SE模型对头尾两个实体使用不同的矩阵进行投影,协同性较差,往往无法精确刻画两实体之间的语义联系
基于翻译的模型
TransE是Trans系列模型的开山之作,也是知识图谱向量表示的baseline模型,后面会介绍它的很多变体。其实TransE的思想很简单,为了将实体与关系嵌入到低维的向量空间,对于知识库中的每个三元组(
h , r , t ),认为头实体的embedding加上关系的embedding之后应该是与尾实体的embedding非常接近的。于是,可以将关系看做是两个实体之间的某种平移向量,如下图:
按照上面的思路,即有了TransE模型的损失函数:
这个损失函数是带有negative sampling和margin-based loss的。
negative sampling:
表示负样本三元组,构造的方法是将S中每个三元组的头实体、关系和尾实体其中之一随机替换成其他的实体或关系,每个三元组只能同时替换一个元素。
margin-based loss:为了增强知识表示的区分能力,采用了最大间隔的方法,可以类比SVR的损失函数。最小化这个损失函数可以使得正样本的得分越来越高而负样本的得分越来越低,并且只有两个得分差距大于某一阈值的时候loss才为0。
最终模型整体的训练过程如下:
虽然TransE简单有效,但仍然存在一个非常严重的问题:不能很好处理复杂关系。举个例子,有两个三元组(美国,总统,奥巴马)和(美国, 总统, 布什),使用TransE模型表示的话会得到奥巴马和布什的表示向量非常接近,甚至完全相同。
TransH
TransE有了很大的改进,但是当面对自反关系、一对多、多对一以及多对多这类复杂的关系时,就很难处理好(会使得一些不同的实体具有相同或者相近的向量表示)。于是作者提出TransH模型,在保证模型complexity和efficiency的同时,解决上述复杂关系的表示。TransH模型的主要思想是对每一个关系定义两个向量:超平面wr和关系向量dr对于任意一个三元组( h , r , t ) h和t在超平面上的投影分别为h_和t_,如果是golden triplet,则存在
如下图所示:
CTransR
不仅仅实体有多个aspect,对于关系,也可能存在多义性,比如关系(location location contains)其实包含country-city、country-university、continent-country等多种含义。为此,提出CTransR,即Cluster-based TransR,对同一关系下的不同实体对进行聚类并学习到关系在不同聚类簇的表示。
具体做法是
1)利用TransE训练( h , r , t )三元组
2) 利用vector offset ( h − t )进行聚类
3)对每一类的子关系都学习到一个变换矩阵Mr 和表示向量rc。
此外,基于翻译的知识表示还包括TransF、TransA、TransG等改进模型。
融合多源信息的模型
融合文本和知识图谱的知识学习表示方法:
如果仅仅利用知识图谱的三元结构信息进行表示学习,数据稀疏问题严重,尚有大量与知识有关的其他信息没有得到有效利用。可以从两个方向解决这个问题:1.利用知识库中的其他信息,如实体和关系的描述信息等。2.利用知识库外的海量信息,如互联网文本等包含大量与知识库实体和关系有关的信息。
融入文本描述的优势:
1.可以发掘实体间的语义相关性,精确的语义表述能够提升三元组的可区分性。
2.可以解决zero-shot问题。
实体的描述文本:
将所有三元组的“属性-属性值”或“关系-实体提及”都拼成一个字符串,当作该实体的文本描述。由于 type 字段,义项描述和摘要字段的信息更重要,描述文本中都按照 type、义项描述、摘要和其他三元组的顺序进行拼接。
模型整体训练过程以及损失函数同TransE一样。
不同于TransE模型中的随机替换头实体和尾实体之一作为负样本的方法,在TransH中指出:However, as a real knowledge graph is often far from completed, this way of randomly sampling may introduce many false negative labels into training.
于是,在替换头实体或者尾实体的时候考虑了一个采样概率的概率替换头实体以及概率替换尾实体,其中t p h为每个头实体对应尾实体的平均数量,h p t为每个尾实体对应头实体的平均数量。也就是说,对于一对多的关系,更大的概率替换头实体;对于多对一的关系,更大概率替换尾实体。
TransR
前面介绍的TransE和TransH都是假设三元组的实体和关系在同一语义空间中的,尽管在TransH中采用了关系超平面的策略,但由于实体和关系是完全不同的,每一个实体可能会有多个aspect,即是是同一个实体在不同的关系下关注的可能是完全不相关的aspect,因此之前的模型还是不足以准确地表示knowledge graph。
TransR其思想就是将实体和关系的表示空间区分开来,实体有entity space,关系有relation space,在计算时通过一个投射矩阵Mr将实体映射到关系空间进行计算。
融合文本和知识图谱的知识表示学习方法可以做到:
1.得到实体向量。2.得到词向量3.词向量和实体向量之间可以计算相似度4.实体向量和实体向量之间可以计算相似度
随着架构和应用的不断完善与深入,知识图谱助力了很多热门的人工智能应用场景,例如语音助手、聊天机器人、智能问答等,覆盖了泛互联网、金融、政务、医疗等众多领域。
四、应用方向
近年来知识图谱在电子商务、金融、公安、医疗等行业逐步开始落地,在这些行业的渗透、深入中,知识图谱愈来显现其基础性作用。
1、金融
知识图谱广泛应用于金融行业,在于其基础设施好、信息化较早且成熟,数据标准化程度高;业务由数据驱动,应用范围较广;市场规模大,金融机构在数据业务的付费意愿高,付费能力强。
基于知识图谱深度感知、广泛互联孤立数据、高度智能共享分析等优势,客户可扩展现有数字资源的广度和深度,支撑智能应用,建立知识图谱、补全因果链条,解决和打破信息茧房,为智慧金融建设提供了一种可行的方案。
以银行为例,我们可以看到知识图谱在金融全场景中的重要应用价值。
2、医疗
基于强大的语义处理与开放互联能力,知识图谱对医学领域而言,能够建立较系统完善的知识库并提供高效检索;面对知识管理、语义检索、商业分析、决策支持等方面需求,医学知识图谱能推进海量数据的智能处理,催生上层智能医学的应用。
当前医疗保健费用、需求的增长与优质医疗资源不足间的问题在不断突出,随着近几年来人工智能的飞速发展,以及精准医疗、智慧医疗的提出,医学知识图谱应用关注度在日益上升,辅助诊疗大有可为。
3 、公共安全与政务
知识图谱在公共安全及政务领域应用在于处理源源不断的海量数据。引入知识图谱技术将很好的打破了行业的数据孤岛难题,同时在将数据进行连接之后,挖掘出数据背后更多有价值的信息,科技挖掘数据背后的故事。
以公安知识图谱为例,公安知识图谱通过数据采集、处理、数据库重构、知识转化和实战应用,运用分布式存储、关联算法、语义推理等技术,再基于实体的属性联系、时空联系、语义联系、特征联系等建立相互的关系,即可构建一张具有公安特性的多维多层的实体与实体、实体与事件的关系网络,实现公安技术与业务的深度融合。在公共安全及政务领域,知识图谱已经成为了基础数据服务,为上层智能应用提供基础设施支撑。
4、能源与工业
工业知识图谱是基于工业产品研发、生产、运行、保障、营销和企业管理等运行规律建立的关系网络,用于更好地组织、管理和理解工业体系的内部联系,是知识图谱的重点发展方向之一。
就工业领域中构建的知识图谱来看,可以分为两类,一类是已有设备信息、生产信息的数字化知识图谱,诸如将设备维护手册、故障应用案例、一线专家经验数字化,并构建相应的知识图谱;另一类则是将设备信息、设备及数字化系统工作过程信息,甚至整个生产流程部分或全部数字化,并将其中不同垂直领域的数据关联起来,构建相应的知识图谱。
5 、消费商业
随着消费升级,人们对产品的需求消费愈来个性化,服务商需要精准满足用户的个性化消费体验。在电商行业,知识图谱广泛地应用于搜索、前端导购、平台治理、智能问答、品牌商运营等核心、创新业务。知识图谱通过建立联系赋能搜索推荐实现个性化推荐满足用户需求。
帮助电商透视全局数据,协助平台治理运营发现问题商品,帮助行业基于确定的信息选品,做人货场匹配提高消费者购物体验等等,电商搭建知识图谱可为新零售、国际化提供可靠的智能引擎。
知识图谱的价值促使其热度在未来将会持续:
第一、在画像、推荐、搜索中通过长期的前期数据和技术的积累,知识图谱逐步完成了业务落地,未来会逐渐传播扩散到传统企业以精准搜索为例的场景。
第二、在智慧金融领域,知识图谱对于风控有天然优势,能快速吸引资本与企业踏入,积累行业垂直的数据与技术应用能力。
第三、在智慧医疗、智慧政务、智慧能源等新兴爆发领域,知识图谱通过知识关联、视觉化展示,能够帮助客户梳理整理业务知识以及提供辅助预判等服务。
知识图谱是企业下一代管理数据的一种新的组织方式,能够更高效的连接上游的大数据和下游的AI建模任务。
据不完全统计,我国知识图谱产品或解决方案主流企业约有38家,这些企业大致可以分为两类,一类是大厂,一类是初创企业。在这其中,布局在金融领域的企业约占65%,公共服务与政务领域约占26%,能源与工业领域约占26%,是企业入局最高的三大领域。
知识图谱企业在金融行业的技术积累及应用都较为成熟,企业发展态势良好。
在公共服务与政务领域中,随着越来多的政策支持,知识图谱应用需求不断增加。以公安为例,据不完全统计,在公安知识图谱领域的8家初创企业中,在产品或解决方案都有一定的积累和成熟度,并专注于公安知识图谱应用。
公安是企业参与量较大的领域。从企业官网公布的数据来看,海致网聚应用范围突出,支持所有公安场景。同时该企业落地实践应用业务面较广,目前已与公安部、上海、南昌、武汉、成都、广州、深圳北京等80多个地市公安机关展开了大数据应用的深度合作。
作为人工智能的基础,互联网厂商在知识图谱中技术积累更为成熟,在行业应用中也具有相当的代表性。
从产品优势上来看,腾讯云、阿里云、华为云较为突出,皆显示出了一站式服务、高效算法、长期积累的特性。
在腾讯云独有的物联网场景中,物联网领域的终端设备,例如医疗仪器、运输业车辆GPS等,可以轻易且持续的产生TB级的数据。知识图谱在物联网数据接入、管理、分析等方面,为客户提供从引擎级产品到行业知识落地的全套解决方案,原生的图计算框架能帮助客户从这些数据中挖掘出其隐含的巨大价值。
五、 国内主流知识图谱企业
阿里云和华为云分别在电力知识图谱应用,油气知识图谱应用中展示出了一定的关注度。
阿里云将电力领域设备说明、操作规程等复杂技术文档,用知识图谱来表示支持操作人员快速进行操作查询、故障诊断、维修指导、业务学习,同时也方便业务文档的管理、迭代、沉淀、传递,是电力领域专业知识管理应用的基石。
华为云基于油气勘探开发过程中会产生多种形式的海量数据,有效聚合这些多源异构数据,助力油气行业实现数字化和智能化转型。基于勘探知识图谱可以提供丰富的油气应用,例如语义搜索、油藏类比、油气知识推荐,支撑油气勘探开发增储上产、降本增效。
不管是新锐公司还是巨头公司,知识图谱领域作为智能应用的支撑性存在,都必然将随着企业上云与数智化的发展而迎来属于自己的契机。
主要争议点
观点1:
知识图谱是用可视化技术描述知识及它们之间相互关系的方法,其本身属于一种技术领域,对其进行优化或构建的方法是采用客观规律,给定条件得到既定关系结果,采用了符合自然规律的技术手段。
因此,这类案件都符合专利法第二条第二款的规定,属于专利法保护的客体。
观点2:
知识图谱属于图论中的概念,图是一种抽象人类行为的方法,图计算是以图为基础的对现实世界的一种图结构的抽象表达,以及在这种数据结构上的计算模式,可以应用的领域包括社交网络分析、计算生物学如分子活动路径,集成电路设计等,若没有具体的应用领域,且对知识图谱中各节点及关系的含义等也没有限定,因此其本质是对算法本身的改进,因此即便采用了自动化的实现手段,但是其所要解决的问题、采用的手段、实现的效果仍然在于数学方面,而非技术方面。
指导案例(来源局电学部共享案例库-对京外中心指导案件)
【案件1】:2019101542448
申请人:东北大学
发明名称:一种基于模糊理论的知识图谱优化方法
代理机构:沈阳东大知识产权代理有限公司申请日:2019年03月01日
【技术领域】
本发明属于知识管理和信息检索领域,具体涉及一种基于模糊理论的知识图谱优化方法
【要解决的技术问题】
目前的知识图谱算法大多数都是基于三元组(头实体,关系,尾实体)形式的,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。目前这种三元组的表达方式越来越流行,例如万维网联盟(W3C)发布的资源描述框架(RDF)技术标准。特别是在谷歌提出知识图谱的概念后,这种表达形式更是被广泛接受。
然而现有的知识图谱技术大多基于深度学习算法构建,并且将其中的每个向量中每一维的数据都孤立地看待,这就使得想要构建效果更好的知识图谱的过程往往需要更多的训练时间和更大规模的训练集。
【权利要求】
六、 涉及知识图谱的客体判定
【案件2】:2020101359360
申请人:北京航空航天大学
发明名称:一种引入实体类型自动化表示的知识图谱嵌入与推理方法
代理机构:北京慕达星云知识产权代理事务所(特殊普通合伙)
申请日:2020年03月02日
【技术领域】
本发明涉及自然语言处理和知识图谱技术领域,更具体的说是涉及一种对于任何知识图谱都通用的引入实体类型自动化表示的知识图谱嵌入方法
【要解决的技术问题】
知识图谱以图结构存储和组织由实体和关系构成的知识,并能够根据需 求提供查询和推理等功能,成为人工智能领域实现认知系统的重要技术之一。目前,知识图谱已在智慧公安、金融反欺诈和智能医疗等领域发挥重要作用。
如何得到对于任何 知识图谱都通用的知识图谱向量表示并实现精确的推理任务是知识图谱嵌入的重点和难点,而仅利用三元组本身的信息来进行知识图谱嵌入难以准确表示知识图谱中实体和关系,需要学习更多的语义信息来辅助表示知识图谱并 进行推理。同时,大多数知识图谱中存在对称关系和一对多,多对一和多对多的复杂关系,因此需要设计相应的知识图谱嵌入策略来解决这些问题。
【权利要求】
1. 一种引入实体类型自动化表示的知识图谱嵌入与推理方法,其特征在于,具体步骤如下:
步骤一:针对任何知识图谱中的每个实体,利用三元组构建关于实体类型表示的能量函数;基于实体类型表示的能量函数,按照实体类型的语义相关性对三元组中头实体和尾实体的实体类型表示分别进行约束,得到衡量每两个三元组实体类型间的语义相关度的能量函数;
步骤二:对三元组中的实体表示进行关系超平面投影操作并构建关于实体表示的能量函数;
步骤三:结合关于实体类型表示的能量函数、实体类型间的语义相关度的能量函数、以及关于实体表示的能量函数,联合建立评价函数,并通过最小化评价函数,自动学习实体类型表示、与实体类型表示相关的关系表示、实体表示和与实体表示相关的关系表示;
步骤四:基于步骤三得到的实体类型表示、与实体类型表示相关的关系表示、实体表示和与实体表示相关的关系表示,并联合步骤一中的关于实体类型表示的能量函数和步骤二中的关于实体表示的能量函数构建两阶段推理策略,得到知识图谱推理结果,用于补全知识图谱中缺少头实体或尾实体的三元组。
【案件3】:2020107080661
申请人:中国人民解放军国防科技大学
发明名称:基于关系注意力的知识图谱推理方法、装置和计算机设备
代理机构:长沙国科天河知识产权代理有限公司
申请日:2020年07月22日
【技术领域】
本申请涉及知识图谱技术领域,特别是涉及一种基于关系注意力的知识图谱推理方法
【要解决的技术问题】
知识图谱在许多自然语言处理应用中有非常重要的作用,例如问答系统、语义搜索等。但由于知识获取的不确定性,基于实体识别和关系抽取技术构建的知识图谱,会导致知识图谱的不完整,从而影响这些应用的性能。如果知识图谱中存在错误,会导致该应用返回错误的结果。知识图谱推理技术指的是根据现有的知识图谱中的已知事实,推断出新的事实,使用知识图谱推理技术可以丰富知识图谱。
现有技术基于图注意力的模型在获取网络结构上取得了成功,但直接用于知识图谱是不合适的,因为它忽略了知识图谱里很重要的一部分信息——边,即在KG里实体之间的关系信息。
【权利要求】
1. 一种基于关系注意力的知识图谱推理方法,所述方法包括:
获取知识图谱中节点的初始嵌入表示,将所述初始嵌入表示转换到高维空间,得到高维嵌入表示;所述节点为知识图谱中的实体;所述知识图谱是对知识进行实体识别和关系抽取构建的;所述知识是问答系统、语义搜索中相关联的知识;所述实体是利用命名实体识别工具从自然语言文本中获取的文本数据,所述初始嵌入表示是所述文本数据通过所述词嵌入模型得到的向量;
获取所述知识图谱中目标节点的邻居节点集合,根据所述目标节点与所述邻居节点集合中邻居节点的关系类型,构建邻居子图;
根据所述目标节点的高维嵌入表示和所述邻居子图中邻居节点的高维嵌入表示,得到所述目标节点嵌入邻居子图中信息的邻居嵌入表示;
将所述目标节点的高维嵌入表示与所述邻居嵌入表示进行聚合,得到目标节点的聚合嵌入表示;
根据每个所述邻居子图的第一注意力分值,对所述聚合嵌入表示进行融合,得到所述目标节点的融合嵌入表示;
根据所述融合嵌入表示,计算所述目标节点对应三元组的得分,根据得分进行三元组推理。
(3)案例分析(局电学部给出的结论)
(i)关于案例1
案例1请求保护一种基于模糊理论的知识图谱优化方法。该方案利用两组不同的向量分别构建三元组本身和模糊空间下的三元组模糊投影,基于损失函数获得优化后的三元组集合。上述手段仅涉及对三元组结构的定义,所能解决的问题仅仅是如何表达三元组本身,并非技术问题,此外,方案中算法特征的执行也无法体现出利用自然规律解决技术问题的过程,优化三元组本身的表达所能获得的效果也并非技术效果。因此,案例1请求保护的解决方案不构成技术方案。
虽然该案说明书中声称该申请“使用模糊向量的运算方法对各维训练数据进行运算,将模糊逻辑中赋予数据的语义信息与深度学习理论相结合”,但当前权利要求记载的手段中并未体现出对语义信息的利用和处理。
(ii)关于案例2和案例3
案例2请求保护知识图谱嵌入与推理方法,案例3请求保护知识图谱推理方法,两个案例的权利要求中记载了“按照实体类型的语义相关性对三元组中头实体和尾实体的实体类型表示分别进行约束,得到衡量每两个三元组实体类型间的语义相关度的能量函数”(案例2)、“所述知识是问答系统、语义搜索中相关联的知识;所述实体是利用命名实体识别工具从自然语言文本中获取的文本数据,所述初始嵌入表示是所述文本数据通过所述词嵌入模型得到的向量”(案例3)。虽然案例2和案例3的解决方案也涉及三元组的构建和优化,但是,方案中明确记载了处理对象是自然语言中的文本数据或者语义信息等技术数据,采用了遵循自然规律的技术手段,解决了语义搜索及推理过程中的技术问题,能够获得丰富语义信息、提高推理准确性的技术效果,因此,案例2和3构成技术方案。
关于知识图谱的理解和审查
知识图谱被称为知识领域映射地图,其通常基于三元组进行构建,实体是知识图谱中最基本元素,不同的实体间存在不同的关系。知识图谱由谷歌提出,其最广泛的应用是服务于搜索,即,增加搜索深度和广度,找到最想要的信息。知识图谱涉及对知识资源的挖掘、分析、构建、绘制和显示,融合了应用数学、图形学、信息可视化技术、信息科学等多门学科,三元组构建只是知识图谱相关专利申请中的一部分,对于涉及知识图谱的专利申请在进行客体判断时,应结合具体案情、发明要解决的问题和记载的手段进行具体分析。
三元组的定义和表达类似于数据结构的定义和表达。如果涉及三元组构建的解决方案,未体现出能够解决何种技术问题,未记载能够反映出知识图谱在构建、应用过程中反映出的遵循自然规律的技术手段,未能获得技术效果,那么不能构成技术方案。例如,仅记载三元组定义或表达的解决方案,不构成技术方案,不能成为专利保护的客体。如果方案中对三元组的构建或优化例如是为了使知识图谱的语义搜索、推理过程效率更高,或者方案中的处理对象是语义信息、文本数据等技术数据,那么这样的解决方案构成技术方案,属于专利保护的客体。(完)
张文
大数据室室主任
主编:张蔚
编辑:电学部学术研究组
王晓飞 刘芳 王欣玥
文字:电学部各审查室