注册

知新·资讯2024年04月第16期

其他分类其他2024-04-29
155

知新·资讯

2024年04月第16期

◆ 本期导航

济南中科泛在智能计算研究院战略规划会顺利召开
我院重点孵化企业中科慧心“基于AI的心理健康测评系统”入选首批济南市2024年AI应用场景需求
数亿人需要的心理咨询行业,何时迎来爆发?
特殊教育:关于生命的绽放

内部资料,免费阅读

知新

济南中科泛在智能计算研究院战略规划会顺利召开

2024年4月8日下午,济南中科泛在智能计算研究院在二楼培训室隆重召开了战略规划会议。研究院全体人员参会,共同探讨未来发展策略和方向。

院 所动态

News updates

知新

会议在陈益强院长的开题发言中拉开序幕。他强调了战略规划对于研究院未来发展的重要性,并希望通过此次会议能够明确目标,统一思想,共同推动研究院向更高目标迈进。

随后,姜怀臣、蒋鑫龙、杨晓东三位副院长分别就各自分管的领域进行了详细的计划汇报。姜副院长聚焦于2024年的产业化指标,明确了研究院在产业化方面的发展目标和实施路径。蒋副院长则重点介绍了人才引进与横向纵向的项目争取策略,旨在通过优化人才结构和争取更多项目资源来推动研究院的持续发展。而杨副院长则围绕协同创新,以联邦智能作为共性支撑技术进行多模态大模型打造,为研究院的技术创新提供了新的思路和方向。

知新

最后,陈益强院长进行了总结发言。他首先对各部门的计划给予了充分的肯定,并指出各部门的计划应当遵循“稳中求进、以进促稳、先立后破”的原则,逐步实现研究院的发展目标。陈院长强调,技术上要协同创新,以联邦智能作为共性支撑技术,在智慧农业、智慧教育及医疗大健康等应用行业进行智慧平台的打造。此外,陈院长还重点谈到了建制化协同的重要性,他提出要以协同为纽带,共同抢占科技制高点,推动研究院从量变走向质变,为研究院的未来发展奠定坚实基础。
此次战略规划会议的召开,不仅为济南中科泛在智能计算研究院的未来发展指明了方向,也为各部门的工作提供了具体的指导和动力。相信在全体人员的共同努力下,研究院将迎来更加美好的未来。

在各部门负责人的计划汇报环节,各部门结合自身的实际情况和业务特点,就如何落实研究院的整体战略提出了具体的计划和措施。这些计划不仅涵盖了技术研发、项目争取、市场拓展、人才培养等多个方面,还充分展示了各部门对于未来发展的信心和决心。

知新

我院重点孵化企业中科慧心“基于AI的心理健康测评系统”入选首批济南市2024年AI应用场景需求

近日,济南市公布了2024年人工智能应用场景需求(第一批)名单,我院重点孵化的企业——山东中科慧心智能科技有限公司的“基于人工智能的心理健康测评及筛查系统”成功入选。值得一提的是,山东中科慧心智能科技有限公司也是本次名单中唯一一家来自济南新旧动能转换起步区的企业,该系统的成功入选,也为济南新旧动能转换起步区在人工智能领域的发展增添了新动力。
作为我院的重点孵化企业,山东中科慧心智能科技有限公司一直致力于利用人工智能技术改善心理健康服务。此次入选的“基于人工智能的心理健康测评及筛查系统”结合了先进的人工智能技术,为心理健康测评与筛查带来了革命性的改变。通过智能化的数据分析和心理评估,该系统能够快速、准确地识别个体的心理健康状态,为心理疾病的预防和干预提供了有力的工具。这一创新技术不仅有助于提升心理健康服务的效率和质量,还将对推动济南市乃至全国的心理健康事业发展产生积极影响。
此次“基于人工智能的心理健康测评及筛查系统”的成功入选,不仅是对山东中科慧心智能科技有限公司技术实力的认可,更是对我院长期以来在智能技术研发与孵化工作上的肯定。
我院将秉持创新驱动发展的理念,继续深化技术研发,支持山东中科慧心智能科技有限公司等孵化企业的发展,积极拓展应用场景,为济南市乃至全国的人工智能技术发展和产业升级做出更大贡献。

知新

行 业 视 野

Industry perspective

数亿人需要的心理咨询行业,何时迎来爆发?

◎ 文章来源于36氪 ,作者Susan 王与桐

心理健康赛道,一直都是一个具备矛盾性的赛道:
需求侧消费者使用习惯未培育起来、付费门槛太高、供给侧高度不足;但与此同时,几乎不需要大规模的可靠数据也能确定这个市场具备系统性趋势机会。
试图证明心理健康赛道存在巨大市场的论据总是不乏的:
“中科院心理研究所《2019—2020中国国民心理健康发展报告》指出数亿人需要心理保健……”、“《2020大众心理健康洞察报告》显示超过8成的受访者有过抑郁和焦虑情绪”、“收入更高的人群对自我精神和情绪更加关注”、“收入更低的人群,更容易出现情绪和精神问题”、“美国心理学会指出美国每五人中有一人存在精神卫生问题”……

知新

数据之外,大众对于心理健康赛道的认知更多来源于个人体验:越来越多案例在真实生活中发生或者在媒体报道上被看到——甚至有人因为始终不得其法而选择离世。
心理健康赛道中,针对非病理性的情绪健康服务,主要是心理咨询服务及情绪健康的自助式产品。从商业价值维度看其渗透率,从社会价值维度看其普惠程度,二者互为一体。
但目前来看,在国内,情绪健康的普惠之道, 还有很长的路要走。

心理咨询服务及情绪健康的自助式产品,无法单独治疗已经确诊为病理性的精神卫生问题,比如抑郁症、焦虑症等。
这些服务更多是配合正规医疗处方,对用户进一步提供情绪上的帮助;或者单独解决抑郁情绪、家庭及人际关系困扰、失眠等非病理性问题。
心理咨询需求端的桎梏,主要由来访者对自我病耻感的抵触、服务过程高度非标和成果不可测量使来访者产生不信任感、价格中枢高,共同造成。
但最主要的原因是,贵。
不是没需求,是价格门槛对于想要体验一下的来访者尝试成本过高。”壹心理联合创始人曹洪雯向我们表示。
国内新锐或者中腰部咨询师单次咨询价格(50分钟)普遍在300-600元左右,资深至头部咨询师单次咨询价格区间在700-1500元。一般而言,来访者在咨询期间至少需要维持每周一次的咨询频率,整体开销负担很大。
“美国的心理咨询服务价格中枢也较高,但中美心理健康行业在支付端存在较大的差异。”58产业基金新服务小组告诉我们。
美国商业医疗保险及企业员工福利均对心理服务给与一定程度的覆盖;而在国内,EAP(Employee Assistance Programe)等业态已在国内开展将近二十年,但国内企业对相关员工心理关怀服务的支付意愿仍然普遍较低。
头部互联网心理咨询平台均表示,平台均试图与商业保险进行合作,但截止目前为止暂未开发出较好的商业模式。

知新

2016年及2018年北京及深圳就出现了将心理咨询纳入医保的试点政策,未见医保支付的进一步普及。今年,广州也将医院体系内的心理治疗服务纳入医保的政策。
但考虑到心理咨询服务的基本供给都在这些政策试点的体系外,同时考虑到还有如此多医疗需求争夺极为有限的医保资源,医保覆盖在中长期仍是悲观的。

截止2021年,全国通过学会考试的心理咨询师持证者约有130万人,但持证与具备执业水平完全是两码事
到底全国真正受薪从业、具备执业水平的心理咨询师有多少,行业主要玩家给出的数据也不尽相同,数据区间在5-10万之间
互联网心理咨询平台壹点灵表示,平台虽然入驻有数万名专业心理咨询师,但为满足平台的执业水准要求,真正活跃且能够为用户保障心理服务质量的咨询师只占部分比例。
需求端的低渗透率,导致医院体系以外的心理咨询师以及非头部的咨询师较难接到足够的个案,“吃土”就是从业人员供给侧少的最主要原因
已经不怎么赚钱,还得另外交钱。
咨询师在职业成长过程中,需要持续支付培训费用以及督导成本,以提升自身的执业质量——在主观性极大的咨访过程中,来访者的“脱落率”通常是其中一个较为客观的执业质量指标,它指的是来访者接触咨询师后判断咨询师“主观不合适”因而终止咨询。
“良好的督导老师,每小时价格也是跟资深心理咨询师对外价格类似,价格相对高昂。咨询师在成才过程中是需要较高频地接受督导的。”壹心理曹洪雯表示。成才周期3-5年以上,壹心理创始人黄伟强曾经在其他媒体采访中提到。
由于行业不具备权威的职业基础培训体系和基础设施,目前行业的培训及督导基础设施主要是由头部心理咨询平台玩家和心理咨询培训机构各自投入建设的,相对割裂。
在行业不存在公证体系的情况下,从业人员在不同主体之间的累计咨询小时数、培训及督导情况,缺乏具备公信力的流通凭证。

知新

“咨询师在我们几家头部互联网平台的公开累计咨询小时数是可以参考的,在平台挂牌评估过程中予以考虑。但咨询师在其他机构的从业经验就基本无法辨认了。我们会对咨询师进行水平评估然后准入,但是也需要咨询师在平台重新累计咨询时间。”壹点灵联合创始人王丁向我们表示。

互联网心理咨询平台正在通过新的单位经济模型,将心理咨询价格中枢降下来,打破传统心理咨询的恶性循环
虽然互联网心理咨询平台的形式早已出现,但过往更多互联网平台仅是充当了信息撮合的角色,其交付模式并没有改变,同时,产品化、数字化、标准化思维欠缺,背后并没有系统性地实现一个新的经济模型
心理咨询业务的中枢价格受到行业过往服务价位的心理锚定所影响,以及咨询师的月度收入水平影响——
接单量不够、单次价格便降不下来,糊不了口、咨询师也只能改行。但是单纯粗暴地提升接单量,将很大程度影响咨询师的执业质量和执业习惯。
因此,足够的订单量、质量控制、咨询师的行为洞察、供给侧基础设施的投入,是单位经济模型改良的关键。

知新

根据头部玩家对咨询师行为观察,一名咨询师每月需要完成咨询服务、报告编写、个案研究、参与培训辅导等工作内容,在保证执业质量的前提下,每月可承受的饱和咨询服务小时数上限大概在60-90小时之间。
传统的心理咨询作业模式之下,心理咨询的供需匹配受到地域上的供给限制、时间的制约和线下场所的成本等等影响,中腰部咨询师基本多数无法达到工作饱和状态。
通过向来访者开放远程咨询服务的选项,咨询师和来访者可以突破诸多传统业务形态的制约,撮合更多供需,尽量靠近咨询师的饱和工作量。
心理咨询平台目前也基本实现了机器人助手进行前期的来访者线上接待,减少因为反馈不及时带来的流量损失。
现在,已有个别互联网心理咨询平台目前已通过改良的经济模型实现低价格中枢,其心理咨询业务的平均客单价低于300元/单次,600元/单次以上的资深心理咨询师比例占整体咨询师的少数。
这个价格中枢足以激发更多潜在心理咨询需求真实转化为付费个案、提高渗透率。
在该种作业形态下,平台咨询师平均月薪区间约在一万五以上,收入已较可观。
量多了,数字化和标准化便是质量控制的抓手。心理咨询是一件高度非标准的服务,不但来访者本身千人千面,咨询师的流派、性情、执业习惯也是千差万别。

知新

但是,针对这种模式也存在颇多具有争议性的传闻,比如某互联网平台的经济模型实际未实现低价格中枢、低价仅是引流价格,新的业务模型也导致咨询师执业质量参差不齐。
36氪向投资人求证,投资人表示取得的尽调资料是客观反映出该平台已实现较低的平均客单价,并反映平台的用户体验是良好的:“我们关注这样的创新是否真实的、可持续的,对社会是有价值的。”
更大的流量下,心理咨询平台的质量控制,确实是需要继续探索的课题。
“我们认为离线场景的标准化督导是很比较难实施的,所以我们(所投项目)将咨询场景搬到线上App内,在咨访过程保密和不涉及用户隐私的前提下,通过线上交互的数据分析和用户反馈,去督导咨询师的服务质量。”峰瑞资本副总裁陈哲向我们表示。
其投资的新锐互联网咨询平台Glowe阁楼选择了全垒打CBT(Cognitive Behavioural Therapy 认知行为疗法)的人工咨询服务,相比精神分析法等流派,CBT等具有结构化范式和较短的治疗周期等特点,为标准化提供了一种可能性。
辅助工具也能进一步帮助标准化提升。“我们在心理咨询业务中进一步配置数字化干预方案,能够有效辅助心理咨询师开展咨询服务,服务效率和标准化也得以大幅度提升。”壹点灵联合创始人王丁表示。
质量控制以外,更值得关注的是,在行业有限的咨询师供给中,不是所有咨询师都能适应这种互联网作业形态。
在心理咨询行业入局最早的壹心理,也开始试图探索新的经济模型。凭借着较为完善的供给侧建设和较大量的咨询师覆盖,壹心理也已经完成对咨询师行为的洞察。
“在我们的供应链中,资历相对深的心理咨询师,从观念到行为习惯已经形成路径依赖,是无法适应较多的接单量和标准化的,强行改变会极大损耗其执业质量。但是稍年轻的咨询师可以实现。我们目前正从培训源头去向咨询师赋予标准化作业观念、更现代化和数字化的作业行为习惯。”壹心理联合创始人曹洪雯介绍道:“我们基本没有怎么大力推广这个作业形态,就得到了很多咨询师的积极反馈。
”在该作业形态下,壹心理的新锐咨询师的价格区间也能保持在单次300元以下,新锐咨询师平均月薪区间约在6,000-8,000元之间。
不过,咨询师的低客单价行为始终是个阶段性的行为。
随着咨询师的专业成长,逐步提高单次咨询价格,公平地反映自身的专业水平提升程度,并换去更多的自由时间用以生活或者学习发展,是合情又自然的选择。

那么,如何提升标准化程度?
首先,对用户画像及咨询师进行精细的数字化画像标签。
便是第一个解构该种非标准的标准化思路。精准分诊,可以减少脱落率,而脱落率的减低,直接降低了接单量的损耗,同时也能体现用户主观满意度。
其次,对咨访过程中的关键节点和关键活动;
实施SOP(Standard Operating Process标准化作业流程)进行约束。平台通过咨询师的线上咨询报告内容进行过程督导,结合用户评价,评估咨询师执业质量。在这个过程中,对不同表现的咨询师的流量倾斜进行调整,保证good case持续发生。

知新

这说明这个低单价经济模型的维持和大规模推广,不但需要保持大量的订单、实现更标准化的作业,还需要保持一个不断增长的新入行咨询师数量
这个行业的供给确实是在增长的,而头部玩家需要在咨询师的招募-培训-咨询服务与赋能-督导全供应链上,持续进行自己的投入。
正向循环,具备可能性。

知新

人工服务的解决思路并没有完全解决问题,因此行业便开始看向AI。
心理领域AI对话机器人及数字化干预疗法主要以CBT(Cognitive Behavioural Therapy 认知行为疗法)为范式,这主要是由于CBT拥有高度结构化的特征,天然存在数字化的可能性。
CBT的咨访对话本身可以看作一个封闭式的任务导向型对话,需要跟踪的对话状态及对话策略可以是有限的。
在有限场景内,AI更容易做出妥当的、有逻辑延续性的回复。目前除了应用于毒品等严重成瘾性问题的解决,CBT的AI应用主要针对抑郁、焦虑、失眠等几类最广谱适应症。

美国较为知名的心理领域数字疗法企业Pear Therapeutics及心理AI对话机器人Woebot,以及国内目前的心理领域AI机器人玩家密友智能、聆心智能、西湖心辰、连信科技等等,在主要业务板块上均是采取此路径。前述互联网咨询平台壹点灵也开始涉足。
市场是真的有需求。
由于客单价低、性价比高,各玩家的商用方案均收到G端、B端的良好反馈——比如某玩家的标准化服务是数百元/人/年、无限次对话,在客单价上几乎是对人工心理咨询服务的降维式打击。
国内玩家已经逐步切入2G、2B行业场景,比如军队/武警/消防官兵等特殊职业、精神卫生医生群体的辅助需求、社区居民和社工群体、大型企事业单位等
在足够的数据训练下,目前的AI自然语言处理水平基本可无障碍地实现一个合格CBT疗程,改变用户的认知及行为模式。
但由于心理咨询的咨访过程存在隐私性的伦理要求,各玩家在建立和训练模型时可取得的数据量总是有限、且可能存在样本偏差的,导致模型能力有所局限。
在未实现足够广泛和海量的数据训练之前,“如果能够通过固定问题做好恰当的诊断分型,AI的治疗手段很好,但是超过他问题范畴的情况,他可能没办法像一位医疗专家那样可以做出综合判断与恰当应对。”密友智能创始人汤开智向36氪介绍。
“我们认为,心理AI的治疗解决方案的效果,跟人工智能的自然语言处理技术水平,不是完全等同的。”汤开智认为,“并不需要人工智能完全像一个心理咨询师那样子按照人的样子流畅说话,用户才能得到妥善地照顾,相对结构化但是也兼顾人性化用户体验的数字健康方案也能取得良好疗效。”
虽然心理咨询服务在C端构成比较复杂的交付体验,但行业贫瘠的供给侧和心理咨询服务的高价格中枢,会否使得中国的AI心理机器人细分成为最快实现高渗透率的行业方案,值得再去观察。

“不是所有的情绪需求都需要即时交互式的心理健康服务,都市压力、人际关系、亲密关系、个人成长等等问题带来的浅层情绪需求,是更加广泛的需求。”58产业基金新服务小组补充道。

知新

行业玩家可以通过其他人力供给以及自助式产品,来满足相对浅层的情绪需求。
对用户来说,这些浅层需求的及时排解,是预防情绪问题升级的有效手段,价格也比较低廉。对行业玩家来说,这也是标准化及规模化的机会。
比如互联网心理咨询平台推出低价付费的24小时倾诉热线,只需要按照规定范式培训倾听师,使其具备初步的情绪支持及情绪疏导能力,缓解用户应激情绪即可,不需要具备复杂的心理咨询技能,供给培育效率更高。
以学院派风格心理知识内容及共情性话题积具了大量流量的Knowyourself,发展异步式情绪咨询服务,用户通过书信体的方式倾诉烦恼,聊愈师按照规定范式解构内容、识别需求,并按照范式提供情绪支持、疏导和解决指导。异步式的倾诉服务,进一步缓解供给压力。
但以Knowyourself为代表的心理健康企业和HeartlyLab为国内大热代表的正念冥想企业将着眼点更多放在了引导健康生活方式上。
经营方式上,上述企业按照消费品打法,认真经营内容和品牌故事,对外输出成体系化的品牌人格。

知新

在HOPE上还可以记录下为了自己改善努力的日记和TO DO LIST、随机滑动指南针匿名看到其他用户的积极TO DO LIST、或者匿名找到21天共同陪伴努力的小伙伴。积极温暖的互助体验,让用户对社区产生感情连接,也产生可观的用户留存。

这是一个少见的、同时具备商业价值和人文关怀的赛道;这也是一个困难的、同时要兼顾商业和伦理的赛道。
全民普惠的情景,最终仍然依赖企业端、商业保险及社会保险端等支付端的发展。
但是这个领域也可以预见更多商业模式上的创新和技术的发展,让需要的人,随时可以拉开求助的门。

这样的经营选择使得发展标准化的自助式产品成为可能——提供标准化的付费课程、测评、周边产品、配套电子穿戴产品,无需面对业务的规模化瓶颈和非标特性。
积极心理的社交产品,是另外的自助和互助形式,比如Hope。
Hope是让用户在App上为自己埋下一个时间胶囊、寄送一封给未来自己的信。

知新

特殊教育:关于生命的绽放

◎ 来源|华中科技大学新闻学院

知新

2023年6月23日,盲人考生吕京阳在父母的帮助下打开成绩查询页面。当看到成绩为587分时,吕京阳的父母抱住了他,喜极而泣。作为2023年使用专门命制的统考盲文卷的12位盲人考生之一,吕京阳最终取得了超出吉林省理科一本线124分的好成绩,即将开启他的大学生活。
吕京阳在四平盲童学校接受高中教育,这是我国特殊教育的一种形式。特殊教育,是运用特殊的方法、设备和措施对特殊的对象进行的教育。特殊教育是我国国民教育体系的重要组成部分,特殊教育的发展更是关系到教育公平的实现和残障儿童受教育权利的保障。

截至2023年,我国小初高总学生数共有1.89亿,特殊教育学生在校生数达91.2万。按这个比例计算,平均每1000名学生中,会有4名残障学生。熙熙攘攘之中,占比如此小的残障学生能够接受到怎样的教育?生长在公众视线外的花朵又是如何迎来属于他们的生命绽放?

01 让“特殊花朵”同沐教育阳光

从建国伊始,我国就高度重视残障儿童受教育权利的保障。早在1951年,政务院就发布《关于学制改革的决定》,明确要求“各级人民政府应设置聋哑、盲目等特种学校,对生理上有缺陷的儿童、青年和成人施以教育。”到1952年,盲人黄乃发明现行盲文;次年,中国盲人福利会成立;1956年,中国聋人福利会成立;同年,特殊教育教师开始发放特教津贴。

为提高残障儿童的社会适应能力,促进教育公平, 1989年到2000年,我国提出要发展“义务、特殊职业教育以及促进‘随班就读’”;21世纪后,“普及义务特殊教育和促进‘普特’融合教育”亦被提上日程。以“随班就读”为核心,充分体现“融合+支持”的“支持性融合教育”专业特色,是中国融合教育本土话语的初步概括和表达。我们欣喜的发现,2021年随班就读学生占比首次超过全部特教在校生数的50%。

目前,我国已基本形成“以普通学校随班就读和附设特教班为主体,以特殊教育学校为骨干,以送教上门和远程教育为补充”的特殊教育发展格局;未来,融合教育将继续“扎根”于中国文化、教育体制,从实践中进行本土化的探索。

知新

特殊教育体系的不断健全就宛如一座灯塔,照亮了许许多多残障学生的未来。十年来,我国特殊教育招生人数和在校生数稳步增长,并在2023年保持稳定。特殊教育事业由侧重数量变为侧重质量,逐步开始迈入高质量发展阶段。

知新

02 特别的爱,给特别的你

回望过去70年,我国特殊教育体系留下一串串坚实的脚印;着眼当下,已经进入发展成熟期的特殊教育正朝着“无障碍生态”和“全纳”的教育体系发力;而放眼未来,特殊教育体系的发展必然踏上新的台阶。

当特殊教育政策体系不断完善的同时,特殊教育的“硬实力”也在不断增强。
一方面,针对于部分地区特殊教育学校短缺的情况,我国增设了大量特教学校。2012年,我国特殊教育学校仅有1853所,而到2023年,特殊教育学校数量已达到2345所。11年来,学校数量共增长26.6%,且目前仍呈现出稳步上升的趋势。

另一方面,特教教师既提“量”又提“质”已成为当下的必然趋势。特殊教育教职工中专门从事教学工作的人员被称为“专任教师”。2017年,全国特殊教育只有5.6万专任教师,随着学生入学人数的不断提升、特殊教育的不断发展,特教教师数量也在相应地不断上升,到2023年,我国共有了7.7万特殊教育专任教师。

知新

随着特殊教育专业化愈发得到重视,在对专任教师的培训之中,培训内容不仅停留在特殊教育理论知识的教授,更拓展到了个别化教学策略、康复治疗技能等方面。五年来(2017年到2021年)接受过专业培训的专任教师数量在持续上升,到了2021年,参加过专业培训的专任教师竟达到了专任教师总数的91%。
也许“特殊教育”这个专业听起来有些冷门,但在2021年,仍然有51431位本科生毕业于特殊教育专业。2017年,本科及以上学历的特教教师占专任特教教师总人数的65%;而在2021年,此比例上升至74%。
总体来看,我国特殊教育教师的专业素养和教学能力在不断提升,一批高质量的师资团队正在用专业的方法、专业的知识为学生们撑起一片晴空。

知新

03 难题之下,仍盼拨云见日

尽管我国95%以上的义务教育阶段适龄残障儿童均已被纳入了特殊教育体系,但是我国特殊教育仍面临学段上“非义务教育阶段就读人数过少”的问题。我国特殊教育非义务教育阶段起步较晚,到2023年,我国特殊教育学校在校生数中,小学平均每一年级约10万人就读;初中平均每一年级在读人数也是10万左右(将初三初四视为一个年级);而到了高中,在校生数总计仅一万多人,高中以上学历的或许更少。不难发现,从初三(含初四)到高中残障儿童在校生数出现了断崖式下跌。当普通学生能够有91.4%的机会接受高中的教育,令人遗憾的是,残障学生升学率仅在10%左右。

知新

我们仍未可知的是,没能升入高中的他们将流向何处?又将面临着怎样的生活?如此境遇之下,折射出的是特殊教育非义务教育阶段发展巨大的上升空间。
除此之外,残障学生享受的教师资源也存在着显著问题。
“生师比”用于反映教师数量充足程度,经常用作教育质量的替代指标。生师比偏大,表明每位教师平均所教的学生越多,老师教学压力会随之增大;生师比偏小,则表明平均每位教师所教的学生越少,老师有更多的精力去关注每一个学生,有助于取得更好的教育效果。以2020年为例,北京特殊教育生师比最低,为2.88,其次便是上海为3.55;而在经济相对落后的西部地区,生师比明显偏高,如青海地区的生师比达到了9.33,而宁夏也高达8.16。不可否认的是,特殊教育教师资源存在地域分布不均的困境,特殊教育实现资源普惠还有很长一段路要走。

知新

按照已出台的政策文件,全国的特殊教育学校生师比标准基本应在3:1左右。可是,全国特殊教育平均生师比真的贯彻了3:1的要求吗?从全国特教平均生师比来看,近十年间,生师比整体呈波动上升的态势,2019年达到近十年最高峰值4.86,与3:1的要求反而越行越远。整体而言,特教学校的师资队伍配备速度并未跟上特殊教育学校在校生增长幅度。

知新

除了教师资源分布不均以外,我国特殊教育学校总体上呈现东多西少的格局。据《2022年中国统计年鉴》显示,2021年全国各省市中,大部分省市的特殊教育学校数量在50到100所之间,东部的很多省市能达到150所左右,而位于西部的西藏仅有7所,青海也只有14所。
现如今,如何给予残障学生更公平普惠的教育资源、打造更坚实的教育基础的难题已然摆在我们的面前。推动特殊教育体系建设走向更高标准,虽路漫漫,我们却仍盼拨云见日。

知新

04 星星的孩子,值得被温柔以待

在报道的过程中,我们偶然注意到了他们——孤独症儿童。他们有视力却不愿和他人对视,有听力却总是充耳不闻,他们就像夜空中的繁星,在自己的世界里独自闪烁。因而,孤独症儿童也被称为“星星的孩子”。
相较于其他残障儿童,孤独症儿童从外表上很难看出与常人的差别,但是,孤独症属于精神残疾的一种。在美国,孤独症已成为儿童精神残疾第一大病症;截2023年,我国也已超1300万孤独症患者,其中有300-500万是0-14岁儿童。精神残疾在我国被接受的历史很短,很多家长往往会将孤独症看作残障,而多认为是“孩子性格的问题”。近年来,在学界和媒体的关注下,孤独症才渐渐被大众所熟知。
2023年是他成为山东省政协委员的第11年,也是他为特殊群体发声的第11年。他便是成千上万孤独症孩子共同的“父亲”--由仲。这些年来,由仲带领团队举办了上百次的公益活动,并通过多种方式为特殊困难群体建言献策。他用行动向公众传递着“做孤独症康复训练,需要爱,更需要专业”的理念。
据《新京报》报道,60%孤独症是由于遗传因素产生的,而40%可能与母亲生产时年龄过大、孕期和围产期病毒感染或成长环境中接触药物、杀虫剂等有关。在如今的医疗水平之下,孤独症治疗往往难度大、周期长、成本高。孤独症儿童需要在早期接受每周至少40小时的干预,并且需要持续干预23年,才能有比较好的康复效果,而大多数患者很难有机会得到充分专业的治疗,由仲所做的事情就是为了填补这些空白:他成立广州、上海、苏州等多地的康复中心,坚持不懈地履行着“我想让更多的孤独症孩子享受到先进的康复技术”的诺言。
在专业的教师与先进的康复技术的帮助下,众多孤独症儿童得以康复,可以与常人无异地生活。正如由仲所说:“不是因为有了希望才去努力,而是因为努力才能看见希望。”加强公共意识宣传、加强孤独症研究力度、推动孤独症儿童的融合教育……在社会的温柔以待下,我们相信更多“来自星星”的孩子能在生命的天空中划出美丽的轨迹。

知新

知新

然而跨媒体数据具有语义抽象、复杂多变、多源异构等特点,使得跨媒体内容理解面临“异构鸿沟”和“语义鸿沟”两大难题。“异构鸿沟”是指跨媒体数据的表征不一致,难以直接度量数据的相似度,导致跨媒体数据难以综合利用;“语义鸿沟”是指跨媒体数据的表征形式与人类认知之间存在巨大差异,导致计算机难以理解跨媒体数据的语义信息。因此如何克服“异构鸿沟”和“语义鸿沟”,使计算机正确理解跨媒体内容,实现跨媒体检索、推理和生成,是综合利用跨媒体数据并发挥其价值的关键,已经成为了研究人员关注和研究的热点。

随着多媒体和计算机网络技术的不断发展,信息传播的载体逐渐由文本为主的形式发展为包含图像、视频、文本、音频等跨媒体形式。国务院印发的《新一代人工智能发展规划》指出,需要研发视频图像信息分析识别等相关技术并建立智能化监测平台,以满足社会综合治理、新型犯罪侦查、反恐等迫切需求。Google、OpenAI 等著名企业也高度重视跨媒体内容理解,投入大量资源研发了 CLIP、DALL-E 等跨媒体大模型,引起了学术界与工业界的密切关注。由此可见,跨媒体内容理解不仅是国家的战略需求,也符合企业的市场需求,具有重要的研究和应用价值。

技术研习

Technical training

跨媒体内容理解技术

1跨媒体表征学习

◎ 来源|中国人工智能学会

跨媒体内容理解技术旨在对图像、视频、文本等跨媒体数据进行综合分析与关联建模,实现跨媒体检索、推理和生成,在网络空间安全和媒体融合等领域有着广阔的应用前景。本文主要介绍近年来跨媒体内容理解技术的研究现状和进展,主要包括四个方面:① 跨媒体表征学习,其关键在于突破由于跨媒体数据表征不一致导致的“异构鸿沟”问题,为检索、推理和生成等跨媒体任务提供表征基础;②跨媒体检索,其关键在于让计算机理解跨媒体数据的语义信息,实现基于语义的内容检索;③ 跨媒体推理,其关键在于使计算机在理解跨媒体数据语义信息的基础上,推理跨媒体数据中隐含的结论与事实;④ 跨媒体生成,其关键在于让计算机突破已有规则进行联想与创造,实现跨媒体内容的互相生成。

在现实生活中,图像、视频、文本等跨媒体数据通常是同时出现的,例如在网页中,既有文字描述,也有与文字相关的图像、视频等,它们彼此之间存在着隐含的关联关系。因此不同于对单一媒体数据的表征学习,跨媒体表征学习往往通过学习跨媒体数据间的关联关系来提升其表征能力。
基 于 上 述 思 想,Peng 等(IEEE TMM 2018)提出了一种基于多粒度层级网络的跨模态关联学习方法 (Cross-modal Correlation Learning),如图 1 所示,采用层级网络结构建模模态内和模态间的关联关系,并分为单模态特征表示学习和跨模态统一表征学习两个阶段。在单模态特征表示学习过程中,通过融合不同模态数据细粒度和粗粒度的多粒度特征表示联合优化模态内和模态间的关联学习;在跨模态统一表征学习过程中,提出多任务耦合关联学习,动态平衡模态内语义类别约束和模态间成对关联约束的学习过程,从而提高了跨模态检索的准确率。Chi 等(IEEE TCSVT 2020)提出了对偶对抗分布网络(Dual Adversarial Distribution Network),通过跨媒体对偶生成对抗结构,实现跨媒体数据特征与统一表征的互相转换,挖掘跨媒体数据的语义信息和潜在结构信息,加强模型对不同类别数据的泛化能力;其次提出分布匹配策略和对抗媒体间度量约束,建模已知类别和未知类别间的语义关联,加强对未知类别数据的语义表征能力,提高了统一表征的媒体间关联和语义排序能力。Peng 等(IEEE TMM 2019)认为,图像和文本之间的信息转换应该被视作一个完整的环路,可以通过闭环中视觉和语言信息的相互作用加强图像和文本之间的潜在关联。因此,提出了跨媒体循环关联学习方法(Cross-modal Circular Learning),如图 2 所示,通过循环地进行图像到文本,以及文本到图像的相互生成学习统一表征。通过这种循环训练方式,使得不同跨媒体任务相互促进,在提升模型生成能力的同时进一步提升了跨媒体表征学习的效果,在跨媒体检索、图像描述生成,以及文本到图像生成等多个跨媒体任务上均取得了性能提升。针对表征学习的媒体可扩展性,Wang 等(IEEE TCSVT 2021)提出了一种媒体类型无关的表征学习方

知新

法,支持每种媒体数据独立学习判别性表征。
该方法将标签信息视为一种特殊的媒体信息,引入标签解析模块得到标签语义表征以关联不同的媒体数据;同时,构建特定媒体的表征学习模块获取其语义共享表征。当新增媒体类型时,以已经学习到的标签语义表征来引导新增媒体数据的表征学习。此外,该方法还设计了一个统一的分类器被用于不同媒体数据的表征学习模块,以促进不同媒体数据共享表征的语义对齐,提高了表征学习的有效性和灵活性。考虑到文本描述往往指出了图像中的辨识性信息,He 等(CVPR 2017)将文本信息引入到细粒度图像分类中,提出了视觉语言联合学习(Combining Vision and Language),通过显著协同优化的视觉分支和卷积序列编码的文本分支,挖掘图像文本的语义关联和嵌入表示学习,突破单源信息表示的局限性,获取更好的细粒度表征。

知新

2跨媒体检索

跨媒体检索是指将任意媒体数据作为查询,自动检索出与之具有相同语义的各种媒体类型的数据,实现图像、视频、文本等不同媒体数据之间的交叉检索。其面临着相似性度量、数据标注缺失、数据跨域、检索速度慢等问题。
针对跨媒体相似性度量问题,Peng 等(IJCAI2018)提出了一种基于特定媒体语义空间建模的跨媒体相似性学习方法 (Modality-specific Cross-modal Similarity Measurement)。该方法首先为每种媒体数据分别构造特定媒体的语义空间,并通过循环注意力网络建模媒体内部的细粒度信息,以及空间上下文信息;然后通过基于注意力机制的联合关联学习将其他媒体数据投射到该媒体的语义空间,计算在该媒体语义空间中数据间的相似度得分;最后通过动态融合的方法对上述相似度得分进行融合,充分学习不同媒体间不平衡的关联信息并挖掘不同媒体语义空间的互补性,提高了跨媒体检索的准确率。
针对数据标注缺失的问题,Zhang 等(IEEE TCYB 2020)提出了基于生成式对抗网络的半监督跨媒体检索方法 (Semi-supervised Cross-modal Hashing by Generative Adversarial Network),利用生成模型解决无标注数据难以利用的问题。其主要思想是通过对抗式训练,生成模型能够从无标注数据中筛选并构建伪标签样本,进而利用生成的伪标签样本促进判别模型的性能,提高了跨媒体检索的准确率。进一步,Peng 等(IEEE TCYB 2022)提出了基于无监督视觉 - 文本关联学习的跨媒体检索方法(Unsupervised Visual-textual Correlation Learning),通过目标检测、实体抽取等方法获取图像和文本中的语义概念以代替传统的标注信息;同时通过全局和局部两级注意力机制进一步挖掘图像 - 文本中细粒度语义信息,建立图像中的实体与文本片段的关联关系,提高无监督条件下跨媒体检索的准确率。
针对跨媒体数据跨域问题,Peng 等(IJCV 2021)提出了基于多层次视觉 - 文本知识蒸馏的终身 学 习 方 法(Visual-textual Life-long Knowledge Distillation),在解决跨媒体检索跨模态问题的同时,还能够克服跨域的挑战。针对跨媒体检索的跨模态问题,提出了多层次的视觉 - 文本循环神经网络,能够挖掘图像和文本中全局和局部的细粒度上下文信息,为跨媒体检索提供多层级的语义信息。针对跨媒体检索跨域的问题,提出了基于终生学习的模型训练策略,设计了可扩展的模型结构,不同于现有方法需要对跨域数据训练多个模型,该方法仅需要训练域相关的少量参数,大大提高了模型的复用率,实现了单个模型支持多个域数据的跨媒体检索。
针对跨媒体检索速度慢的问题,研究人员提出通过学习跨媒体数据的哈希码,实现快速跨媒体检索。Ye 等(ACM TOMM 2019)提出了一种基于多尺度关联挖掘的序列化跨媒体哈

知新

希(Multi-Scale Correlation for Sequential Cross-modal Hashing) 方法,能够同时学习 5 种媒体数据的哈希码,实现了快速准确的跨媒体检索。如图 3 所示,该方法首先提出了多尺度特征指导的序列化哈希函数学习,能够利用跨媒体数据的不同尺度特征共同指导哈希函数的学习,充分利用了不同尺度特征间的互补性,避免了单一特征异常导致的哈希码错误;其次,通过多尺度特征间关联挖掘策略建模不同尺度特征之间的关联关系,为哈希函数学习补充了大量跨媒体数据间的关联信息,有效提高了哈希码的检索准确率。Cao 等(ICMR 2016)提出了一种基于深度自编码器结构的跨媒体哈希方法(Cross Autoencoder Hashing),通过最大化具有相似标签的跨媒体数据的特征关联与语义关联,学习跨媒体哈希码用于检索。

知新

3跨媒体推理

跨媒体推理是一类涉及高层语义分析的任务,要求计算机能够综合分析不同媒体类型的信息和线索,实现基于图像、文本等跨媒体内容的逻辑推理。在研究与应用中衍生出许多不同的任务,包括视觉常识推理、跨媒体蕴涵推理等。
在视觉常识推理上,Wen 等 (IEEE TCSVT 2021)提出了基于常识知识的推理模型(Commonsense Knowledge based Reasoning Model),将源域任务中的知识迁移到目标域的视觉常识推理任务中,建立了源域编码器与目标域编码器之间的单元级别、层级别和注意力级别的多级知识迁移机制,提高了目标域任务中编码器的表征映射能力。该方法借助源域知识有效融合目标域中的细粒度和全局推理线索,提升了视觉常识推理的准确率。此外,Su 等(ICLR 2020)提出了预训练视觉语言 VL-BERT 模型,通过文本语义与视觉线索对齐提升了在视觉常识推理的准确率。
在跨媒体蕴含推理上,Huang 等(IEEE TCYB 2021)提出了基于图文混合序列匹配的跨媒体蕴 含 推 理 方 法(Visual-textual Hybrid Sequence Matching),首先通过基于记忆注意力的上下文编码方法,根据内容对蕴涵推理的重要程度为跨媒体数据进行上下文编码;然后通过跨任务和跨媒体的知识迁移方法,将跨媒体检索任务中的关联知识迁移至跨媒体推理任务网络,使得网络能够克服“异构鸿沟”,综合利用多种媒体信息进行蕴涵推理,提升了跨媒体蕴涵推理的准确率。进一步,Huang等(ACM TOMM 2020)还提出异构交互学习方法(Heterogeneous Interactive Learning),通过使用跨媒体交互注意力实现图像 - 文本、文本 - 文本的细粒度语义对齐,将图像和文本建模在同一张量空间中,提升了跨媒体蕴涵推理的准确率。

近 年 来, 受 自 然 语 言 处 理 领 域 BERT、GPT等预训练模型的启发,一些工作开始研究使用Transformer 等网络结构,利用基于大规模图像文本训练得到的预训练模型,在跨媒体检索上取得了显著的进展。主要包括单塔模型和双塔模型两类,单塔模型是指将不同媒体数据和特征输入到单个模型中以学习数据和特征间的关联;双塔模型是指将不同媒体数据和特征分别输入到不同模型,然后通过度量模型输出的相似性得分实现跨媒体检索。例如,Radford 等(ICML 2021)提出了对比式语言图像预训练模型(Contrastive Language-Image Pre-training,CLIP),利用约 4 亿图像与文本对的跨媒体数据进行对比学习,在零样本跨媒体检索任务上取得了准确率的大幅提升。

4跨媒体生成

跨媒体生成是指将特定内容从一种媒体形式转化为另一种媒体形式,需要计算机不仅能够理解跨媒体数据,还能够通过联想与创造生成跨媒体数据,是计算机从“感知智能”迈向“认知智能”的一项极具挑战的任务。常见的任务包括视频描述生成、文本生成图像、文本生成视频等。
在视频描述生成上,Zhang 等(MMM 2019)提出了层次性视觉 - 语言对齐方法(Attention GuidedHierarchical Alignment)。该方法学习视觉内容和文本描述之间不同层次的隐含对齐信息,包括视觉对象 - 单词、视觉关系 - 短语、视觉区域 - 语句三种对齐信息;然后构建基于二元记忆循环网络的编码器 - 解码器模型,通过二元记忆循

知新

环网络同时编码全局语义信息和多层次对齐信息,并通过注意力机制利用多层次的视觉 - 语言对齐信息指导深度解码器生成准确的文本描述语句。针对长视频的文本描述生成问题,Wang 等(CVPR 2018)提出了一种非局部神经网络(Non-local Neural Network),通过建模当前位置信号与全局信息的关系,获取视频长时序关系,以弥补卷积神经网络局部连接计算的不足,支持视频长时间尺度信息建模。
在文本生成图像上,Yuan 等(IEEE TCSVT 2020)提出了基于类桥结构生成式对抗网络(Bridge-GAN) 的文本生成图像方法,如图 4 所示,通过学习一个具备可解释性特征的过渡空间作为桥梁来提升生成图像与文本的内容一致性;同时通过一组三元互信息目标函数,对过渡空间的求解进行优化,从而增强视觉真实性与内容一致性。此外,Yuan 等(IEEE TMM 2020)还提出基于跨任务知识蒸馏 (Cross-task Knowledge Distillation) 的文本生成图像方法,将知识从多个图像语义理解任务迁移到文本生成图像任务,采用多阶段的蒸馏过程:以图像分类模型为源域的蒸馏指导生成模型学习物体的基础形状和颜色;以图像描述生成模型为源域的蒸馏指导生成模型学习物体的细节属性信息。通过多阶段的蒸馏学习能够帮助文本生成图像模型有效拟合真实数据的分布,更准确地理解输入文本中蕴含的语义信息,最终生成具备良好语义一致性与生成质量的图像。此外,Zhu 等(CVPR 2019)将记忆力机制引入到生成过程中,提出动态记忆对抗生成网络(Dynamic Memory Generative Adversarial Networks),能够对生成图像进行动态调整,有效提高了生成图像的质量。
在文本生成视频上,Deng(IJCAI 2019)提出了一种内省递归卷积生成式对抗网络 (Introspective Recurrent Convolutional GAN)。针对视频帧的连续性,提出递归卷积生成器将 2D 反卷积层与 LSTM记忆单元相结合,提高了视频清晰度和连续性。针对视频与文本的语义一致性,提出利用互信息计算视频和文本之间的语义相似度,并通过设计相应的语义约束函数提高生成视频与文本语义的一致性。此 外,Wu 等(arXiv 2021)提出了一个基于 3D Transformer 的编码器 - 解码器框架,通过 3D 注意力机制同时考虑空间和时间上的局部特征,提高了生成视频的质量。

知新

本文介绍了跨媒体内容理解在表征学习、检索、推理、生成等方面的相关研究现状与进展,然而上述研究方向仍然具有许多值得进一步研究的问题,主要有四个方面。
(1)在跨媒体表征学习上,如何实现跨媒体数据融合自监督、弱监督等表征学习方法,建立通用的跨媒体的表征学习方法?
(2)在跨媒体检索上,如何解决现有大规模预训练模型的资源消耗大的问题,在小模型上得到近似大规模预训练模型的性能?
(3)在跨媒体推理上,如何结合大规模的常识知识和领域知识图谱提高推理模型的通用性和专业性,并在特定领域中达到人类推理水平?
(4)在跨媒体生成上,如何应对 DALL-E 2 等大模型所带来的冲击,并提高在精细化、专业化等需求情况下的视觉生成内容的质量?
选自《中国人工智能学会通讯》

结束语

济南中科泛在智能计算研究院
地址:山东省济南市起步区崔寨街道会展中路中科新经济科创园B2地块3号楼
邮政编码:251401

Copyright © 2024 陕西妙网网络科技有限责任公司 All Rights Reserved

增值电信业务经营许可证:陕B2-20210327 | 陕ICP备13005001号 陕公网安备 61102302611033号