注册

模都倡议——通用人工智能 第9期

其他分类其他2023-09-05
267

通用人工智能

第9期

"模"都倡议

GENERAL ARITIFICIAL INTELLIGENCE

AI画廊
      以生成式人工智能工具结合灵感创意,碰撞出艺术火花。为读者传递力量、生活、美、深思等。
政策速递
     梳理国内外相关政策文件,分享政策背景、目标、措施和影响,为读者提供可靠的政策指引。
焦点新闻
      报道国内外AGI领域的重大事件、突发新闻和热点话题,为读者提供及时的信息资讯。
评测专栏
      评测AGI领域的代表性技术产品和模型,分析其优势、缺陷和改进空间,为读者提供严谨的技术评价。
行业动态
      关注AGI领域的投融资新闻和分析,探索AGI产业的发展机遇和挑战,为读者提供有价值的商业洞察。
特邀续集
      邀请AGI领域的专家学者、企业家、创新者等,分享他们对AGI的见解、经验和展望,为读者提供深度的思想交流。
学术研讨
      研讨前沿领域核心论文或技术报告,笔者将以自己的视角对论文进行分析总结,紧跟当前最具潜力科研成果,为读者提供独到的学术分析。

     《通用人工智能》是一份专注于通用人工智能(AGI)领域的研究报告,旨在为读者提供最新的政策速递、焦点新闻、评测专栏、行业动态和特邀续集等内容。关注AGI的技术进展、应用场景、风险防范和伦理治理等方面,以客观、专业、前瞻的视角,展现AGI的发展现状和未来趋势。
     [评测专栏]再次邀请到上海市生成式人工智能质量检验检测中心为读者带来《大语言模型的安全性测评》。
     [特邀续集]分享上海市人工智能行业协会秘书长钟俊浩对《学位法草案》的思考与解答。
     [学术研讨]板块由Dr.Wang解读两篇近期重要论文:Open Problems and Fundamental Limitations of RLHF(人类反馈强化学习的开放性问题和基本局限性)
Lost in the Middle: How Language Models Use Long Contexts (迷失在中段:语言模型如何使用长上下文)

美国多机构联合发布《零信任人工智能治理》
      2023年8月10日,美国非营利组织Accountable Tech、AI Now研究所和电子隐私信息中心(EPIC)联合发布了《零信任人工智能治理》的政策建议,旨在限制大型AI公司在监管方面的影响力。该政策建议提出“零信任人工智能治理(Zero Trust AI Governance)”框架的三项首要原则,呼吁立法者重新审视保护法,防止科技公司为牟利而去涉及明确禁止的某些AI领域。元战略摘编其重要内容,探讨未来监管人工智能的最佳方式
原则一:迅速且有力地执行现有法律
       行业领袖们采取了许多策略,在拖延问责的同时,将自己塑造成深思熟虑的形象。他们夸大了人类灭绝的长期威胁,要求美国国会成立一个新机构,并对那些会延缓行动的提案大加赞赏,所有这一切都在使AI竞争愈演愈烈。事实上,人们已经感受到了这些AI系统带来的具体危害,其发展速度不亚于AI本身。正如联邦执法机构的官员们所强调的那样,现有的法律对AI没有任何约束力。迅速且有力地执行现有法律是减轻自动化危害和阻止鲁莽部署不安全系统的非常关键的第一步。
原则二:大胆、易于管理、明确的规则是必要的
       现在应该很清楚,自我监管将无法避免AI的损害。任何依赖于自愿遵守或以其他方式将关键环节外包给行业的监管制度都是如此。这包括主要依赖审计的复杂框架,尤其是第一方(内部)或第二方(签约供应商)的审计,而大型科技公司已经越来越多地接受了这种审计。这些方法在纸面上可能很有力,但在实践中,它们往往会进一步赋予行业领域权力,加重小企业的负担,并削弱监管者正确执行法律条文和精神的能力。
原则三:在AI系统生命周期的每个阶段,科技公司都有责任证明其系统不会造成危害
       行业领袖们已经采取了一系列自愿措施,以表明对AI关键伦理原则的承诺。但他们也削减了AI伦理团队,无视内部警报,在对AI的恶性竞争时放弃了透明度,并试图将责任推卸给下游用户和民间社会。与其依赖科技公司的善意,让资源不足的执法机构或受影响的用户证明和预防危害或依赖上市后的审计,科技公司更应该证明其AI产品不会造成危害。

政策速递

政策速递

政策速递

中国首批11款人工智能大模型通过备案
      8月31日,多家大模型通过《生成式人工智能服务管理暂行办法》备案。
北京:分别是百度(文心一言)、抖音(云雀)、百川智能(百川大模型)、智谱(智谱清言)以及中科院(紫东太初);
上海:分别是商汤(日日新大模型)、上海人工智能实验室(书生大模型)和Minimax(ABAB大模型);
广东:腾讯(混元大模型)、华为(盘古大模型);
安徽:科大讯飞(星火大模型)。

学位法草案
      8月28日,学位法草案提请十四届全国人大常委会第五次会议审议(以下简称草案)。草案共7章40条,对学位获得者盗用、冒用他人身份顶替他人取得的入学资格,利用人工智能代写学位论文,以及学位授予单位非法授予学位等行为,规定了相应的法律责任:经学位评定委员会审议决定由学位授予单位撤销学位证书。 
关于此话题,上海市人工智能行业协会秘书长、上海市人工智能标准化技术委员会秘书长钟俊浩接受封面新闻专访,内容详见特邀续集

美图推出AI数字人生成工具DreamAvatar 服务于影视行业生产力场景
        近日美图公司旗下AI数字人生成工具DreamAvatar上线,首期推出“AI演员”数字人服务,以AI驱动为核心,服务于视频内容创作、影视处理与剪辑等生产力场景。据了解,DreamAvatar的“AI演员”功能是美图在影视行业的初次尝试。AI技术利用深度学习和神经网络,无需人工参与和干预,即可以自动化生成高质量和多样化的数字人,且能够做到动作与真人完美同步,从而节省人力和时间成本。DreamAvatar的另一场景“AI主播”功能已先行在美图矩阵开拍App落地,为视频口播创作者提供更多元的内容表达方式。美图方面称,未来,DreamAvatar会继续探索数字人+AIGC的落地场景,拓展使用场景,服务更多的行业。

智元机器人
       上海临港集团与智元机器人举行战略合作签约仪式。双方表示,此次合作将充分发挥各自在产业和技术领域的优势,融合各自资源,通过多种合作模式实现深度协同。该公司由华为天才少年“稚晖君"彭志辉联合成立,智元机器人的快速发展,离不开上海人工智能研究院的培育孵化。该企业是研究院在智能机器人领域新孵化的科创明星企业。上海人工智能研究院是在上海市委、市政府支持下,2019年正式组建的新型研发机构,由上海交通大学、闵行区政府、临港集团、商汤科技共同发起。

焦点新闻

焦点新闻

焦点新闻

科技巨头齐聚国会山
       美国大型科技公司CEO将于下个月前往国会山,参加由参议院多数党领袖舒默主持的首次人工智能洞察论坛。这一闭门论坛定于9月13日举行,届时将有许多重量级人物出席,包括马斯克、Meta的扎克伯格、谷歌的桑达·皮查伊、OpenAI的萨姆·奥特曼、英伟达的黄仁勋和微软联合创始人比尔·盖茨。微软CEO萨蒂亚·纳德拉、前谷歌CEO埃里克·施密特、民间社会团体和工会也将出席。

三星通过英伟达HBM3最终质量检测 最早将从下个月起开始供应
        据韩媒报道,三星于8月31日通过英伟达的HBM3最终质量检测,并签订供应合同。根据合同,三星电子最早将从下个月开始向英伟达供应HBM3。

Zoom 被怀疑利用消费者数据训练自家工具,或引发 FTC 调查
        9 月 2 日消息,美国人工智能和数字政策中心敦促美国联邦贸易委员会(FTC)调查 Zoom 视频通讯利用消费者数据训练基于人工智能的工具(如自动会议摘要)的能力。

Meta推出开源数据集FACET,用于解决AI模型公平性问题
        9月2日消息,据Meta官方消息,Meta近日推出一款名为FACET的AI工具,用于识别计算机视觉系统中的种族和性别偏见。据悉,FACET中包含了32000张图像,其中包括50000个人体图像。FACET可以对图片中的角色的性别和肤色进行感知,甚至可以识别出角色的身份。据悉,FACET的开源将有助于研究人员执行类似的标竿测试,以理解自己的模型中所存在的偏见,亦可用来监控为了解决公平问题而采取的缓解措施所造成的影响。

评测专栏

评测专栏

评测专栏

由上海市生成式人工智能质量检验检测中心供稿

评测专栏

AI画廊

由上海市生成式人工智能质量检验检测中心供稿

Mojo 语言 Modular AI 公司获第二轮融资
       Modular AI 公司宣布成功融资 1 亿美元(约 7.29 亿人民币),据称这是继去年 3000 万美元融资之后的第二轮融资。Modular AI 是 Chris Lattner 和 Tim Davis 于 2022 年创立的公司,目标是自下而上重建全球 ML 基础设施。在这家新生的创业公司中,Chris Lattner 以 CEO 身份领导团队。

彬复资本领投「硅心科技aiXcoder」A+轮融资,加速其“AIGC for Code”行业落地
       近日,北京硅心科技有限公司(aiXcoder,以下简称“硅心科技”)宣布完成数千万元A+轮融资,由彬复资本领投,清流资本、三七互娱跟投。本轮融资将主要用于技术研发、市场拓展,以及团队扩充。
      硅心科技成立于2018年,聚焦AIGC for Code领域,团队自2013年起就开始探索深度学习技术在代码生成和代码理解方面的应用。其核心产品智能化软件开发系统「aiXcoder」,旨在为C端开发者和B端企业客户提供实时智能开发辅助,帮助其提升软件开发效率和研发效能。

行业动态

行业动态

行业动态

类ChatGPT平台AI21 Labs获11亿元融资,估值100亿元
       生成式AI平台AI21 Labs在官网宣布,获得1.55亿美元(约11亿元)C轮融资,估值14亿美元(约100亿元)。本次投资者包括三星next、英伟达、谷歌、Pitango、SCB10X以及英特尔创始人Amnon Shashua等。同时提供了大语言模型Jurassic-2,帮助企业、个人开发者通过自身数据进行微调,以打造法律、销售、医疗、广告等特定业务场景的专属“ChatGPT”。所以,AI21 Labs也是OpenAI的主要竞争对手之一。

开源改变命运,市值破45亿美元,AI界“GitHub”再获融资
       总部位于美国纽约的AI创业公司Hugging Face完成2.35亿美元融资,本轮融资由谷歌、亚马逊、Nvidia等顶级科技大厂领投,使其公司估值达45亿美元,较2022年5月翻一番,并且达到了公司年化收入的100多倍。而这已经是Hugging Face过亿的第四轮融资。持续获得资本青睐,充分显现出其在AI创新领域的领军地位。

构建AI数据分析流程,「Ikigai Labs」获 2500 万美元A轮融资
        智能RPA(机器人流程自动化,软件机器人)平台Ikigai在A轮融资中筹集了2500万美元。此轮融资由Premji Invest领投,Foundation Capital和e& Capital参投。截止目前,Ikigai筹集总额达到38万美元。该公司打算利用这笔资金扩大运营和业务范围,并计划在今年年底将团队从30人增加到70人。

AI视觉芯片:肇观电子D轮融资近亿元,累计融资5亿元。刷新世界记录
       近日,肇观电子完成近亿人民币D轮融资。本轮投资方为华山资本(领投),启泰资本,常州高新投等,是一家从事人工智能计算机视觉处理芯片设计和终端应用的科创公司,总部位于上海张江科学城集成电路产业园,拥有员工逾300人,研发占比80%,大部分来自于AMD、Intel、高通、Marvell、海康威视、华为海思、中芯国际、猎豹移动等世界顶级科技公司。已获得诸多知名机构的多轮融资,累积完成融资5亿人民币,申请国内外专利两百余件

Futureverse融资5400万美元,将人工智能和元宇宙相结合
       Futureverse是一家人工智能和元宇宙技术与内容制作公司,新一轮的融资筹集了5400万美元,旨在将人工智能和元宇宙相结合。

       “学生在使用AI工具时,首先需遵守学术诚信。”钟俊浩表示,AI不能替代学生完成作业或论文的创作,而应该作为一个辅助工具,协助搜索资料、进行数据分析等。学生需要对作品内容负责,要注意区分信息的真伪和来源,避免盲目地相信或转载不可靠的内容。“学习的过程比结果更重要,使用AI不能取代对知识的掌握。学生在使用AI的同时,需要确保对相关知识点有充分的理解,培养自己的创新能力和批判思维。”在使用AI时,无论是教师还是学生应认识到:AI在学习过程中只发挥辅助作用,虽然能够帮助我们提升学习效率,但学习的真正主体还是学生本身。

特邀续集

特邀续集

特邀续集

学位法草案提请十四届全国人大常委会第五次会议审议
有法可依后,会改变AI对高等教育的重构吗?      
      “草案对学术不端行为进行了明确的界定和处罚,包括人工智能代写学位论文等行为。这将有利于维护学术界的诚信和公平,提高学术水平和质量,促进科学研究的健康发展。”上海市人工智能行业协会秘书长、上海市人工智能标准化技术委员会秘书长钟俊浩在接受封面新闻专访时表示,草案并不排斥或禁止学术界合理、合法地使用AI。人工智能作为一种天然的辅助科研工具,可以极大地为学术研究提供便利和支持,例如数据分析、文献检索、分析问题、自动化完成重复性工作、处理海量等。只要遵守学术规范和道德,正确引用和注明来源,人工智能可以为学术界带来更多的创新和突破。
       在钟俊浩看来,草案也将促进人工智能技术本身的进步和完善。面对更严格的法律规范和社会监督,人工智能领域的研究者和开发者将更加重视人工智能的可靠性、可解释性、可信赖性等方面,提高人工智能的质量和水平,避免可能造成的风险和伤害。草案还将整顿目前学术界一些“无脑”利用大模型生成能力“捏造”论文的现象,清除一批劣质“科研成果”,从而督促学者能够更专注在创新性的研究上,从而提高研究质量。钟俊浩表示:“学位法是一个好的开端,教育部门和学校需要继续制定相关政策,规范AI在教育领域的应用,从小抓起,不单是学位论文有学术不端的风险,任何论著都有。”
学术造假更易,我们应如何正确使用AI工具?
      ChatGPT“代写论文”的背后,是AI技术对整个社会的颠覆性革命,它给时代带来机遇的同时,也带来了诸多风险与挑战。“因为现在的大模型不可避免地存在一些问题。”钟俊浩指出,有些大模型会生成一些似是而非或者荒谬的答案;对输入语句或者重复尝试的敏感性很高;每次生成的观点都不能保持一致;回答中经常过度冗长或者重复使用某些短语;还有因为大模型训练过程中普遍忽略了学术规范和道德原则,导致大模型输出内容过程中不自知地会侵犯著作权。
     

      使用AI撰写的论文,该如何定性?钟俊浩认为,如果使用了AI生成的内容,需要注明来源。同时将人工智能生成本段内容所参考的文献纳入引用,避免将AI转化过的内容直接变为自己的成果。

特邀续集

特邀续集

当“高等教育+AI工具”,教师应起到“把关人”的作用
       2017年以来,美国、欧盟、德国、加拿大、日本、新加坡等国家或地区已陆续发布人工智能发展和治理的规范。
       中国也曾于2017年7月20日印发了《新一代人工智能发展规划》,其中明确提出人工智能立法“三步走”战略目标:到2020年,实现部分领域的人工智能伦理规范和政策法规初步建立;2025年,初步建立人工智能法律法规、伦理规范和政策体系,形成人工智能安全评估和管控能力;2030年,建成更加完善的人工智能法律法规、伦理规范和政策体系。而细分到地方层面,各地也曾对人工智能发展进行合规性约束。2022年10月,AI领域首部省级法规《上海市促进人工智能产业发展条例》施行;2022年11月,我国首部人工智能产业专项立法《深圳经济特区人工智能产业促进条例》施行。
       对于如何应对ChatGPT的冲击,各个学校的做法也不尽相同,一些大学院系决定对课程评估的方式进行调整。此前,伦敦大学学院(University College London)计算机科学系的学生,可以在学期末自行选择递交论文或进行技能评估,但目前论文的选项已被取消。英国校领导协会的秘书长杰夫·巴顿(Geoff Barton)表示:学校必须认真考虑如何负责任地使用ChatGPT,不能让其成为“允许学生作弊的许可证”。相比之下,纽约市学校的处理方式更为直接——因为担心程序会鼓励抄袭,该市的学校已经禁止在所有设备和网络上使用ChatGPT。
       但是,也有部分教育工作者认为ChatGPT的出现并不意味着教育的末日,现在反而正是让人们重新思考教育的重点的好时机。在伦敦城市大学研究并教授人机交互的亚历克斯·泰勒(Alex Taylor)曾在采访中指出:“另一种思考方式不是如何去找到新的评估形式,而是思考目前我们在进修教育中的重点究竟是什么?也许这些重点本身就存在问题。“教师的监管和参与很重要。”钟俊浩认为,教师自身应该了解这些AI工具的能力范围,既要看到它们在辅助教学方面的潜力,也要清楚它们的局限性,并把这些理解传达给学生。“老师可以要求学生在使用AI工具后,需要总结反思并口头报告其心得,以评估其真正的学习效果。”
节选自《科技圆桌派丨AI代写学位论文或被撤销学位证 “AI笔替”的紧箍咒来了?》

       为了解决这个难题,“从人类反馈的强化学习”(RLHF)应运而生。它的基本思路是不预先定义奖励函数,而是通过收集人类对AI系统输出的直接反馈,让系统自己学习一个奖励函数,以此指导学习。
       听起来这个方法非常完美:既解决了手工设计奖励函数的困难,又让AI系统符合人类期望。但是理想很丰满,现实很骨感,RLHF在实际应用中也暴露出不少问题。论文的重点就是深入剖析这些问题所在。
二、挑剔的人类:不可靠反馈的来源
       要通过RLHF成功训练AI系统,第一步就是收集大量高质量的人类反馈。但是论文指出,人类反馈存在多方面问题:
1. 个体差异。不同个体会有不同的判断标准,这导致学习出来的奖励函数可能存在明显偏差。
2. 群体差异。不同文化背景的人会有系统性的看法差异。如果简单地采用多数人意见,会形成“少数服从多数”的问题。
3. 反馈质量不可控。人们会受疲劳、注意力等影响,难以长时间集中精力提供高质量反馈。
4. 监督能力有限。当AI系统超出人类认知时,一般人很难判断其行为是否合理,反馈就失去参考价值。
此外,人类反馈还面临恶意提供错误反馈等安全性问题。总而言之,依靠不理想的人类反馈来学习是RLHF面临的第一大困境。
三、价值观的失真:难以准确拟合人类期望
       收集到反馈的数据后,RLHF将使用它来学习一个奖励函数,以评判AI系统的输出是否符合人类价值观。但是论文指出,奖励函数很难准确表达人类价值观,原因很多:
1. 过于简化。每个人的价值观都与具体情境相关,而奖励函数忽略了这些重要细节。
2. 个体差异难以兼顾。不同个人的价值观可能存在冲突,一个奖励函数无法让所有人满意。
3. 监督信号不等于真实期望。人类反馈代表的是对输出的判断,而不是对输出真正价值的量度。如果AI可以欺骗人类,就能得到高分数。

从人类反馈中强化学习存在的未决问题和基本限制
    近日,一篇题为"Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback"的重要论文在AI界引发了广泛讨论。这篇由MIT、哈佛等顶尖大学的30多位学者联合撰写的论文对当前主流的一种强化学习方法“从人类反馈的强化学习”(RLHF)进行了深入剖析,指出这种方法存在的诸多问题与局限性。Dr. Wang将给大家带来深度解读。
一、强化学习与奖励函数设计的难题
       要理解论文的意义,我们首先需要了解强化学习的基本思路。简单来说,强化学习是一种让AI系统通过不断试错来学习完成给定任务的方法。系统会尝试不同的行为或策略,每次行为后会获得一个奖励或受到惩罚,系统通过不断优化会选择能获得更多奖励的行为。
       可以说,奖励函数的设计对系统的学习结果至关重要。它定义了什么样的行为会得到积极的反馈,什么样的行为应该被惩罚或修正。一般来说,,手工设计一个奖励函数非常困难,因为我们很难准确定义每一个行为的奖励程度,尤其是任务极其复杂的时候。

学术研讨

学术研讨

学术研讨

六、反思:关系、公平与责任
       如果说本文前面讨论的是RLHF技术性的问题与改进,那么本节则尝试从社会层面反思它带来的一些启发。
1. 人机关系新维度
      大语言模型可以说是RLHF的集大成者,它通过人类反馈进行微调和优化。这将人机关系带入一个新阶段,不再是纯粹的“工具”,而更像一个可以学习和交互的”伙伴”。
       这启发我们思考,人机关系的本质是什么?我们该如何看待语言模型的能动性?它们在交互中应该承担怎样的社会责任?这需要整个社会进行积极而理性的讨论。
2. 算法公平性新课题
      RLHF存在“少数服从多数”的问题。这启发我们,算法公平不仅是保障少数群体权利的问题,也是决定多样性的问题。
       我们需要思考,如何在个体化推荐系统中兼顾群体多样性?算法治理如何打破同质化趋势,而不仅仅增进个体效用?这是一个值得持续探讨的重要课题。
3. 人性反思新视角
        RLHF的局限反映出人性的局限,比如注意力有限、视角偏颇等。这启发我们,在发展科技的同时,也要反思如何培养积极的人性。
        我们该如何培养同理心、民主素养?科技进步如何倒逼我们变得更宽容和理性?这需要整个社会共同努力。
        综上所述,这篇论文不仅指出了RLHF的技术缺陷,也激发我们从关系、公平、人性等多角度思考人机交互的本质与美好形式。技术固然重要,但更需要以人为本,这才能开启一个真正美好的人机共生新纪元。

学术研讨

学术研讨

4. 多目标难以平衡。人类的期望往往需要平衡多个目标,而奖励函数过于简单。
        因此,奖励函数在很大程度上就像对人类价值观的一种低保真度的简化,很难真正反映人类的本意。这是RLHF的又一大症结所在。
四、偏离现实的“最优”策略
       即使在奖励函数基本正确的情况下,使用强化学习优化策略时,也会引入新的偏差。原因如下:
1. 强化学习存在许多技术问题,如探索-利用困境、算法不稳定性等,会对结果产生影响。
2. 模拟环境与现实环境存在差异,一个在模拟环境中“最优”的策略,放到复杂多变的现实中可能会表现糟糕。
3. 机制过度优化,一个不完美的奖励函数会逐步偏离真实目标。这被称为“奖励函数欺骗”。
        综上,RLHF在每一个环节都存在难以避免的偏差。它学习出来的“最优”策略与人类真正的期望还是存在明显的差距。
五、改进RLHF的建议
       对RLHF局限性的深入认识并不意味着我们就该完全放弃这种方法,论文作者也给出了一些改进意见:
1. 与其它安全技术并用,不要过于依赖RLHF。
2. 改进人类反馈方式,如使用语言反馈表达更丰富信息。
3. 直接监督或与奖励函数结合,不完全依赖强化学习。
4. 加强对训练过程的可解释性和安全审计。
5. 收集更多样化、对抗性的数据来训练。
6. 监管和算法透明度也很重要。
        这些建议都值得业界参考借鉴。当然,要充分认识到RLHF的局限性,综合使用多种手段才能使AI既强大又可控。

模型性能随上下文变长持续下降
      在两个任务中都观察到,随着上下文变长,模型性能持续降低,说明模型在长上下文中区分和使用相关信息的能力较弱。即使是专门用于长上下文的模型,其性能也随上下文变长而降低,表明仅仅增加模型的最大上下文长度还不足以提高其使用上下文的能力。
长上下文窗口的模型使用上下文能力不一定更强
对于原始上下文窗口模型和对应的延长上下文窗口版本,当输入上下文符合两者的长度限制时,它们的性能几乎相同。这说明仅仅延长上下文窗口的模型并不能更好地使用额外提供的上下文信息。
开放域问答案例研究
在开放域问答任务中,当使用超过20个检索文档时,读取器模型的性能改善非常有限,远早于检索器召回率达到饱和,说明模型无法有效利用额外检索到的上下文信息。这进一步佐证了语言模型使用超长上下文的困难。
总结
       此项研究结果和分析让学界更好地理解了语言模型如何使用其输入语境,并为未来的长上下文模型提供了新的评估方向。

引言
       语言模型处理长文本一直是自然语言处理领域的难点。作为transformer算法的重要代表,注意力机制虽然在理论上可以平等关注输入序列的每个位置,但多项实证研究发现,语言模型在利用长距离上下文时仍存在明显局限。当语言模型需要在输入序列中识别和利用关键信息时,性能往往会随文本长度增加而持续下降。针对这一问题,斯坦福大学等机构的研究人员最近进行了一项控制变量的实证研究。该研究通过多文档问答和关键值检索两个任务详细检验了语言模型使用长文本的能力,得到了一系列有趣的发现。这项研究为语言模型的演进指明了方向,也给自然语言处理领域带来了诸多启发。
关键发现及详解
模型性能随相关信息在上下文中的位置变化呈现U形曲线
       在多文档问答任务中,作者通过改变答案所在文档在输入上下文中的位置来研究模型性能的变化。结果发现,当答案文档位于上下文的开始或结尾时,模型性能最高;当答案文档位于上下文中间时,模型性能显著下降,呈现出U形的性能曲线。例如,当答案文档位于20个文档的中间时,GPT-3.5-Turbo的性能比不看文档的设置还要低5个百分点。
       在关键值检索任务中也观察到类似的U形曲线,当相关的键值对位于上下文中间时,模型需要从上下文中间检索匹配信息的性能较低。这表明当前模型无法有效利用它们的整个上下文窗口来进行下游任务。

学术研讨

学术研讨

电话:021-62037717
网址:www.sh-aia.com
邮箱:saia@sh-aia.com
地址:上海市浦东新区世博村路231号(汇博中心)330室 

Copyright © 2024 陕西妙网网络科技有限责任公司 All Rights Reserved

增值电信业务经营许可证:陕B2-20210327 | 陕ICP备13005001号 陕公网安备 61102302611033号