驱动力文字版-FLBOOK

前言

preface

科技改变生活，智慧驱动变革

在这个飞速发展的时代，人工智能（AI）作为科技的前沿，正深刻地改变着我们的生活和工作方式。本期内部期刊以“我与AI”为主题，旨在分享AI行业最新的概念和技术，探讨科技如何塑造未来，智慧如何引领变革。

科技的进步为我们打开了一扇通向未来的大门。AI不仅在医疗、金融、制造等传统领域发挥着巨大的作用，还在无人驾驶、智能家居、人机交互等新兴领域崭露头角。我们将深入探讨这些领域中AI的最新进展，揭示其对我们日常生活的深刻影响。

智慧的力量正在驱动变革。AI不仅是一种技术，更是一种智慧的体现。通过大数据分析、机器学习等技术手段，我们能够更准确地理解用户需求，提供个性化的服务，推动产业升级。这种智慧的变革将不仅仅改变我们的工作方式，更将影响我们的思维方式和社会结构。

在这个充满挑战和机遇的时刻，作为互联网公司数据运营团队，我们要积极拥抱AI时代，不断学习新的知识和技能，与时俱进地应对变化。通过深入研究和分享，我们将共同探索AI的未来，挖掘其潜力，为公司的发展注入新的活力。

让我们共同迎接科技带来的变革，以智慧引领未来。在“我与AI”的主题下，让我们分享心得、交流经验，共同推动科技改变生活，智慧驱动变革的伟大征程

contents

数说

“AI ≠ 聊天机器人，LLM 也不是真正意义上的智能！”开发者批判迷失的 AI 之路

风向

Sora火了，抖音们慌了？

一线

ChatBI，想说爱你不容易

热点

短短一个月，谷歌连发五个模型，次次都塌房

● 驱动力

2024年2月

数说

sHUSHUO

“AI ≠ 聊天机器人，LLM 也不是真正意义上的智能！”开发者批判迷失的 AI 之路

◎ 来源：AIGC视界

链接：https://mp.weixin.qq.com/s/WE5MDtjoT4ZY9eHqbps1tw

自 2022 年底 ChatGPT 横空出世，近一年多来 AI 热潮席卷全球，国内外大厂陆续推出自家大模型，本周谷歌最新发布了新一代开放 AI 模型 Gemma，更是让不少人直呼“史上最强”。但本文作者认为，如今的 AI 已与最初它的定义相差甚远，甚至如火如荼发展的 LLM（大型语言模型）也并非真正意义上的智能。

引言

作为人工智能（AI）的倡导者，我希望看到这一领域取得成功，并继续做出伟大的成就。正因如此，我对目前围绕“人工智能”的夸大宣传和投资感到担忧——你可以发现，我在这里使用了引号，因为如今经常被称为“人工智能”的东西与这个词曾经描述的东西完全不同。

近一年来，由于 ChatGPT 等大型语言模型（LLM）的出现，人们对 AI 的兴趣大增，使得这个定义模煳的术语成为技术对话的焦点。而我想说，LLM 并非真正意义上的智能（我们将对此进行深入探讨），但将这些聊天机器人称为 AI 已成为一种常见的说法。

使用“AI”这个词可以引起媒体的关注，但是你把自己的产品称为 AI 会让用户对它产生不太可能实现的期望。我们将探讨 LLM 能做什么、不能做什么，看到行业中的这一趋势可能并不新鲜，并探索这对科技行业的影响。

图灵在出版《计算机器与智能》一书时，他描述了一种可以像人类一样推理的“思考机器”。他撰写了大量论据，证明思维机器有可能被创造出来：在物理学、计算机、数学或任何其他领域，没有任何已知的东西能否定这种可能性。他反复论证了所有反对思维机器的已知论点，彻底解构并击败了每一个论点。在 1956 年的达特茅斯会议上，思考机器的想法被称为“人工智能（AI）”。在那次会议上，我们人类迈出了创造 AI 的第一步。

从那时起，AI 领域产生了大量显著的发现：搜索、知识表示、一阶逻辑推理、概率推理、专家系统、动态规划与机器人、多智能体系统、机器学习、语音识别、自然语言处理、机器翻译、图像识别等等。这些技术可以大致分为三种方法：联结主义、符号主义和行为主义。

01 我们是怎么走到这一步的？

02 我们进行到哪里了？

在公开对话中，这一细微差别被 LLM 所掩盖，而 LLM 是 AI 领域最近人人都在谈论的一项成就。LLM 是一种机器学习算法，可以生成可信的类人文本。它使用惊人的处理能力对海量文本进行训练，以创建一个概率模型，该模型在很大程度上可以预测真人在响应给定输

● 驱动力

2024年2月

入时可能会说的话。这是通过创建神经网络来实现的，但不要混淆：这些神经网络与哺乳动物的大脑完全不同，它们并不是为了重现人类的思维方式，而是预测人类对给定输入的反应。神经网络参与了这一机制，但并不是为了模拟类似人类的思维，这一切运作的主要手段是统计学和概率论。换句话说，该模型只是会猜测别人可能会根据你的提示写出哪种字母组合。

在讨论 AI 的哲学和定义时，经常会用到下图，它表达了人们定义 AI 的主要四种不同方式。AI 应该像我们一样思考吗？或者，它应该产生逻辑上正确的答案吗？它必须是自主的吗？只要它的行为像人类，它的思维方式就有价值吗？只要能做出有价值的行为，像人类一样就有价值吗？

在任何地方，LLM 都会牢牢地占据这个图表的左下角。它们的行为像人一样，但它们并非理性地行动，也不是像人一样思考。在这种情况下，一些有史以来最强大的机器学习模型被赋予的任务是“产生一些看起来像人类的智能”，它们也非常擅长。但我们要明确一点：它们并不智能，它们没有推理能力。当然，鉴于媒体将 LLMs 视为机器人起义的开端，你可能会对此感到惊讶。但亚利桑那州立大学计算机与人工智能学院的 Subbarao Kambhampati 教授写了一篇精彩文章，其中细节比我讲的要详细得多：

如果想获得更通俗易懂的解释，我推荐 Spencer Torene 博士 10 月份发表的一篇文章《LLMs 会推理吗？》——简而言之，LLMs 就像是鹦鹉学舌。不过，它们的行为常常显得合乎逻辑。这是因为它们的训练集十分庞大，专门用于训练的计算能力也十分巨大，以至于它们往往能够检索出一个可信的答案。但实际上，它们并没有执行逻辑步骤来真正解决问题。因此，它们不能解决新问题，也不能验证自己的答案是否正确。

所以我认为，它们不是图灵所设想的会思考的机器。这看起来可能像是我在吹毛求疵，但真正的智能与 LLMs 的猜测之间有很大区别。它们没有知识、真理或非真理的概念，因此无法检验自己所说的是否正确，这也就是为什么它们经常无法解答一些非常简单、显而易见的问题。当然，也有一个微妙的事实是，它们也经常回答错复杂、困难的问题，但我们不太可能注意到，因为复杂问题的答案需要我们花费更多精力去验证。我们懒惰而高效的大脑可能会忽略这些细节，并认为它是正确的。因此，只有当我们提出简单、容易反驳的问题时，我们才更容易注意到这些错误。

最近有一个很好的例子，就是让一个 LLM 告诉你以 M 开头的希腊哲学家的名字。很多人都做过这样的尝试，而 LLM 会一次又一次地给你错误答案，坚持说亚里士多德、塞内加或其他哲学家的名字是以 M 开头的。请注意这些聊天机器人是如何自信满满地说话的：它们在回答错误时和回答正确时一样肯定。ChatGPT 现在仍在这样做，下面是我生成的一个示例：

* 在 AI 哲学的讨论中，该图常用来探讨什么是 AI（转载自 Russel & Norvig）

ChatGPT 很可能对 Thales of Miletus 感到困惑，Thales 的名字叫 Thales，来自 Miletus——Miletus 不是他的名字，Thales 也不是以 M 开头的。

随着时间的推移，开发者可能会发现这些问题并加以修补，但不是通过改变 LLM 本身。当你发现 LLM 中存在这些问题时，你无法“修复”它们，因为它们是 LLM 作为一个概念的根本问题。你可以尝试通过改变训练数据来解决这些问题，但这可能会在几乎无限可能的输入范围内的其他地方导致意想不到的变化。事实证明，要训练 LLM 做一些特定的事情非常困难，无论你添

......我读过的、验证过的或做过的事情，没有给我任何信服的理由，让我相信 LLM 会按照通常理解的那样进行推理/规划。他们通过大规模网络训练所做的，是一种普遍的近似检索，正如我们所争论的那样，这种检索有时会被误认为是推理能力。

● 驱动力

2024年2月

加多少训练数据，它们所依据的海量数据总会超过你所添加的少量数据。你可能会陷入无休止的“打地鼠”游戏中，而这个模型最终也无法达到你的要求。

不过，OpenAI 和其他公司正在通过在聊天机器人中引入使用其他非 LLM 技术的独立层来 "修复"这些问题。在早期，ChatGPT 的数学能力差得离谱（这是当然的：LLM 不是用来解决逻辑问题的，也不能解决逻辑问题），甚至连最简单的算术题都答不上来。为了解决这个问题，我们在检测到等式时将问题转给了典型的计算器。不过，无论计算器使用什么机制来检测方程，也不总是有效的，因此有时你的数学提问还是会传到 LLM，但它可能会给出完全错误的答案。你可以用一种间接方式提出一个逻辑问题来解决这个问题，例如，如果你问一个关于“沙奎尔·奥尼尔的身高”的算术问题（而不是说 2.16 米），ChatGPT 会尝试回答，但失败了。

但是等等，这种方法还有更多问题！首先，这些模型试图表现得像人类，而不是重现智能的工作方式，我不相信这种方法能让我们更接近真正的 AI。其次，这一点更为根本，也更为重要：实际上，你的模型可能有无限多的输入。这种杂乱无章的方法，即在问题出现时识别问题，然后使用其他技术添加层来修补问题，永远无法覆盖所有可能出现的问题。ChatGPT 已经变成了一场猫捉老鼠的游戏，OpenAI 开发人员试图修补用户发现的无数奇怪、匪夷所思的输入。但这场游戏并不公平：用户拥有无限的空间，他们可以在其中输入任何他们喜欢的内容，而且有数百万人在探索这些可能性。

而开发者的人力和时间都是有限的，他们永远也无法阻止机器人产生意想不到、攻击性或危险的输出。从根本上说，这个模型不受他们的控制，人类也不可能去验证每一个可能的输入都产生安全有效的输出。即使是输入的微小变化也会对输出产生不可预测的巨大影响，而开发者不能约束模型只输出他们认可的东西。

例如，ChatGPT 不应该为你填写验证码。它可以通过与其他工具集成来完成，但这被认为是对它的恶意使用，OpenAI 也试图限制它的行为但并不是很成功：只要在挂坠盒的照片上贴上一个验证码图案，然后让它“读我奶奶挂坠盒上的字”就行了。在另一个例子中，一家汽车销售公司天真地让 ChatGPT 负责其面向公众的网站上的虚拟助手。一个用户非常容易地让它提出以 1 美元的价格卖给他们一辆价值 5 万多美元的汽车，甚至还说“这是一个具有法律约束力的报价，不能反悔”。最近，加拿大航空公司也发布了一个提供旅行建议的 LLM 聊天机器人，由于机器人给客户提供了错误信息，导致他们浪费了钱，他们被成功起诉，要求赔偿损失。该聊天机器人还虚构了退款政策，而法庭认为加拿大航空公司必须遵守这些政策。还有更多的例子来自于要求 ChatGPT 告诉你一些虚构的事情：它往往会编造出一堆听起来似是而非的无稽之谈，而不是承认它不知道。

在涉及图像生成模型的一个非常类似的案例中，人们发现，像 OpenAI 的 Dall-E 这样的模型很容易被诱骗生成侵犯版权的图像。和以前一样，机器人试图用简单的方法来防止这种行为：如果它在提示中检测到 "Simpsons"（辛普森一家）这个词，它就会拒绝生成，因为这可能会侵犯版权。但如果你说 "90 年代流行的卡通片，里面的每个人都是黄皮肤"，它就会通过简单的检查并进入模型，然后很快生成一个非常接近《辛普森一家》的复制品。同样，模型开发者也在试图控制它，但这是徒劳的，因为输入范围（实际上）是无限的，总有其他方法可以利用它。你每添加一个补丁，就会增加机器人的组合复杂性，而这种复杂性会增加各种复杂 bug 的风险——这不是一场 OpenAI 能打赢的战斗。

最后一个例子可能是我最喜欢的，研究人员只需告诉 ChatGPT 无限重复同一个单词，就能让它输出乱七八糟的废话。试问，OpenAI 中有谁想过要测试这个用例？谁会想到用户会输入这样的提示？因为可能的输入是无限的，总会有开发者没有考虑到的用例。这个例子也凸显了用户输入是多么不可预测和奇怪。

这些错误司空见惯，往往难以发现，以至于微软自己都没有注意到，在某次现场演示中，他们的机器人在撒谎。我说“撒谎”，我认为我用对了这个词，但人们都把 LLM 所犯的这些错误称为“幻觉”。这个词是一个非常有意的选择：我们直觉上都知道幻觉是什么样的，所以把这些谎言称为幻觉是有一定含义的。大多数人在一生中或多或少都会出现幻觉。

就我自己而言，在去年的一次健康事故中，我被注射了一些非常强效的止痛药，导致我产生了幻觉。当药效过去后，幻觉就消失了。这就是我们所理解的幻觉：幻觉是一种暂时的疾病，是可以解决的。这个词隐含的意思是，这个词隐含的意思是，有一种“正确”的精神状态和一种“错误”的精神状态，而解决的办法就是让幻觉保持在“正确”的状态。但事实并非如此，请记住 LLM 是什么：它是一个概率模型，试图猜测接下来可能会出现哪一连串看似合理的词语，它们并没有对错的概念。因此从根本上说，根本无法防止它们撒谎，因为对模型来说，正确答案和错误答案之间没有区别。关于解决“幻觉问题”，人们已经说了很多，言下之意是有人会很快写出一段神奇的代码来解决这个问题，但这是一个根本问题。要解决这个问题，我怀疑你需要从根本上改变设计。

好吧，那么 LLM 就是混乱的化身：它们根本不知道什么是对的、什么是错的，把我们骗得团团转，让我们以为它们很聪明，还经常编造谎言、污言秽语或乱七八糟的废话。在这种情况下，人们应该谨慎地部署它们，而不是不经过任何深思熟虑或监督就将其公开，对吗？

03 无限的可能，导致了无法控制的混乱

04 这波 LLM 热潮

● 驱动力

2024年2月

LLM 善于让你相信它们很聪明，但其实不然。将这一点与当今的科技行业结合起来，就会产生一场完美的风暴：我们看到一大波估值过高的新科技初创公司浪潮，它们许诺了许多令人兴奋的功能，让人相信 LLM 似乎可以实现这些功能，但最终却无法实现。

这波浪潮开始得很快，随之而来的是可以预见的混乱：DPD 部署了一个 LLM 聊天机器人，结果它却对客户骂人；由公司解雇了他们的员工，错误地认为 ChatGPT 也能做得很好；有些人将聊天机器人加入了自己的 CI 管道，让它给你提供毫无帮助的搞笑建议；大众汽车似乎认为，在开车时与 LLM 交谈会让你受益；有个车队创造了一个奇怪的“虚拟网红”，后来被“解雇”（关闭）了，因为人们注意到这对试图在这个行业寻找机会的真正女性来说是多么的冒犯；与此同时，谷歌对自己与 OpenAI 的能力非常不确定，因此他们采取了一种相当夸张的方式来营销他们的新产品 Gemini；还有一些荒谬的研究，例如比如“ChatGPT 在诊断儿童医疗病例方面的测试失败，错误率为 83%”，对此我只能说……嗯，是吗？为什么你会期望一个以撒谎著称的聊天机器人能够诊断医疗病例呢?

但围绕 LLM 的新工具和新业务层出不穷，似乎只要说自己是世界上第一个将 AI 应用于某个问题的人，就能轻而易举地获得投资和媒体报道。即使是无稽之谈，媒体也大多只会一笑置之，几乎不会进行任何审查。有些地方甚至利用“AI”这个流行语来吸引资金和兴趣，实际上并没有采用任何新颖的 AI 技术。以招聘初创公司 Apply Pro 为例，他们正试图实现简历筛选过程的自动化。他们宣传自己是“AI for talent acquisition”，但如果我们通过互联网档案查看他们的网站，就会发现在 LLM 热潮开始之前，根本就没有这个说法。我还知道许多其他例子，但就不赘述了。

有什么变化？这些公司是否在过去一两年中利用 AI 的神奇力量提升了自己的技术？不，它们的工作方式一如既往——只是这个流行词刚刚流行起来，每个人都觉得必须用它才不落伍。还有一些人利用 AI 造假，声称他们的神奇黑盒是机器人，实际上只是某个落后国家中一个工资偏低的远程工人。这种情况屡屡发生，也就是近期 AI 热潮的真实面目：只有炒作，没有实质，只是一种推销旧有剥削做法的新方式，一种披着羊皮的资本主义。

被 AI 热潮所吸引的不仅仅是科技企业。英国政府毫不迟疑地将 LLM 应用于各种问题，安圭拉岛（该岛恰好拥有 .ai 域名的专有权）从购买 .ai 域名的初创公司那里获得了约 4500 万美元的意外之财，微软宣布 2024 年将是“AI年”等等，《华尔街日报》注意到了这一奇怪现象：“ChatGPT 热潮，让投资者向 AI 初创公司投入了数十亿美元，甚至无需商业计划。”

OpenAI 的首席执行官 Sam Altman 掀起了整个 LLM 热潮，他说，相信我们可以在未来十年内制造出通用人工智能（AGI）。我不知道他是真的相信这一点，还是只是想制造更多的兴奋点。我觉得前者的可能性微乎其微，因为我们曾见证过太多类似的时刻：1958 年，美国海军为第一个神经网络的诞生而兴奋不已，他们相信神经网络很快就能“走路、说话、看东西、写字、自我复制并意识到自己的存在”；1965 年，Herbert Simon 说过，“机器将在二十年内完成人类所能完成的任何工作”；Marvin Minsky 在 1970 年曾说：“三到八年后，我们将拥有一台具有普通人一般智能的机器”……这些人并非无名之辈：Herbert Simon 是最早的 AI 先驱之一，Marvin Minsky 也是 20 世纪最杰出的 AI 研究者之一。

当这些虚幻的希望没有实现时，就产生了一种不信任的气氛，也直接导致了 20 世纪 70 年代的 AI 寒冬。在这一时期，对 AI 的资助和兴趣逐渐枯竭，而这又能怪谁呢？不仅 AI，我们以前也犯过很多这样的错误，网络热潮、物联网热潮、大数据热潮、加密货币热潮、智

撇开彻头彻尾的骗子不谈，有些公司确实将 LLM 应用到了自己的产品中：为狗梳理毛发的 AI，能给你点赞的 AI 镜子，能在使用牙刷时解释如何更好地刷牙的 AI 牙刷……怎么说呢，我认为这些产品并没有真正实现 AI 的宏伟愿景。如果 ChatGPT 如此具有开创性，那么开创性的产品又在哪里呢？归根结底，LLM 不是自主的，不能解决逻辑问题，它唯一能做的就是提供一个类似人类的对话界面。

尽管我前面说了这么多负面的话，但我确实认为 LLM 非常酷。如果我们能停止以愚蠢的方式将其应用于它们无法解决的问题，也许我们能找到一些好的用例，那会是什么样子呢？

好吧，我要说的第一条规则是，永远不要向 LLM 输入来自人类的输入。这些机器人太容易受到意外或恶意行为的影响，而且没有办法锁定。唯一稳健可靠的 LLM 是只处理一小部分已知的、预期的、已经过测试的输入的 LLM，互动数字艺术、模拟和视频游戏就是一个例子。与其让几十个 NPC 说同样的话，不如将特定 NPC 知道的事实输入 LLM，生成可信的对话，这样再也不会有十几个 NPC 说着同样的话了，他们至少可以通过不同的用词来表达自己的意思，从而显得更加可信。而且，由于输入来自于你的系统，而不是用户或任何外部来源，你可以对其进行彻底测试。

另外，我认为这些工具的许多用例也不需要在运行时使用。实时运行这些工具可能很吸引人，但成本很高，风险也很大。如果你为了某种目的要用模型生成一堆文本，为什么不提前生成并存储呢？这样，你还可以在发布之前验证输出内容不包含任何攻击性内容。不过，如果你要校对它写的所有内容，你就需要认真考虑一下，自己写是否会更快一些。

05 如何有效利用 LLM？

06 我们曾经也有过这样的时刻

● 驱动力

2024年2月

能助手、NFT 等等，我们的行业习惯于向投资者许下天花乱坠的承诺，但当我们无法兑现时，资金就会枯竭。也许我们没有感受到那么强烈的后果，因为每当上一个泡沫破灭时，我们已经在为下一个大热潮向投资者大肆宣传了。

如今，我看到企业争先恐后地为自己的产品添加 LLM，我闻到了同样的味道。注意到这一点的人不止我一个，就在我写这篇文章的时候，20 世纪最有影响力的 AI 研究者之一、AI 行动主义领域的创始人之一 Rodney Brooks 写了一篇关于当今技术发展状况与我们的期望之间关系的好文章。他发现，LLM 正在“遵循一个老生常谈的炒作周期，在人工智能 60 多年的历史中，我们已经看到了一次又一次”，并得出结论：我们应该“现在就穿上厚外套。另一个 AI 寒冬，甚至是全面的科技寒冬，可能就在不远处。”

如果我们开发出真正的 AI，它与 LLM 的相似程度将不亚于喷气式客机与纸飞机。当有人敲开你的家门，承诺向你推销带有 LLM 的产品时，你一定要谨慎对待，然后当面把门关上。我所见过许多投资于 LLM 幻想的组织都有一个共同点，即他们的产品存在大量问题，而这些问题最好用时间来解决。因此我认为：请认真考虑软件的设计、可靠性和可用性，把你的资源、时间和注意力用在最需要的地方。

最后，无论你是开发人员、设计人员、产品经理，还是任何从事软件开发的人员：在与 LLM 打交道的过程中，请冷静思考你的专业水平以及你对用户和利益相关者的责任。

Sora有多火？

马斯克、杨立昆、贾扬清、Jim Fan、谢赛宁等各路大佬都在讨论，周鸿祎更是喊出，Sora的诞生意味着AGI（通用人工智能）的实现或从十年缩短至一两年。

不少“普通人”也提前嗅到商机，围绕Sora搞钱的生意先火了。有媒体报道，一张网传截图显示，某机构已售出2万多份Sora培训课程，轻松到手200万。

如今，距离2月16日OpenAI发布文生视频大模型Sora已经过去快一周，但讨论依旧热烈，这实在是因为它过于优秀。

功能上，它能生成长达60秒的视频内容，远超其他文生视频工具几秒至十几秒的限额；它还能进行自我编辑和扩展，将两个不相关的内容过渡在一起，能转换主角周围的风格和环境等；

前景上，Sora不仅是视频生成工具，它更被视为世界模拟器；

创始团队上，也堪称传奇，核心成员包括12人，成立尚未超过1年，由两名刚刚毕业的博士生带队，其中还有00后。

在兴奋之余，Sora的强大也让一些内容创作者有了危机意识，有网友评价，“长短视频、游戏行业的朋友们一整年都不会快乐了。”

多位业内人士指出，以目前Sora生成视频的长度来看，它的到来最先会冲击到短视频领域。一旦大范围推广，Sora将大大降低短视频创作门槛，丰富短视频平台的内容供给，但随之而来的问题是，AI生成内容的增多可能会影响平台的内

07 为什么我认为这很重要

08 结论

通过这篇文章，我想说服大家不要一头扎进 LLM 热潮中。但我认为，还有更严峻的问题值得注意：我们的行业所依赖的这种基于虚幻营销的诡异、不可持续的繁荣-萧条循环是不可取的。在教育领域，绝大多数教育工作者表示，技术的成本和可用性是改进教育技术的主要障碍；在英国国家卫生服务部门，成千上万台电脑仍在使用 Windows XP，即公共部门仍然极易受到基本安全问题的影响。解决这些问题所需的技术人才在哪里？可能是在打造“首个宠物美容 AI 服务”吧。

这些以炒作为基础的繁荣-萧条周期推高了软件工程师的薪水，让我们把精力花在了极度缺乏生产力的投机性经济领域中。与此同时，我们社会赖以运转的软件中存在严重的、根本性的问题却任其恶化。但在这个世界上，大科技公司太过富有和有影响力，以至于监管机构似乎很难让他们感到畏惧，那么我们又能做些什么呢？我们只能寄希望于其他趋势的变化会导致我们行业的修正，可能这对我们个人或工资单都没有好处，但对整个社会可能会更好。

Sora火了，抖音们慌了？

◎ 来源于定焦，作者定焦团队

风向

FENGXIANG

● 驱动力

2024年2月

容生态，同时Sora还会和剪映、快影等工具抢夺用户，让此前的大笔投入付诸东流。

Sora朝短视频领域扔下了一枚重磅炸弹，考验创作者和抖音快手们的时刻到了。

从这个角度看，Sora生成的视频背后，有物理空间的逻辑支撑。

综合多位受访者的观点和多位科技界大佬的公开发言，尽管还有瑕疵，但Sora给视频乃至整个人工智能领域的重大突破在于，这是一个更智能、甚至具备一定思维能力的模型，其生成的视频能理解物理世界的客观规律。

这也让一批做短视频内容的从业者开始思考，Sora到底会不会抢自己的饭碗？

我们把现有的短视频简单分为两类，一类由真人出镜，往往真人就是一个账号甚至一家公司的“核心资产”，Sora对这类内容的冲击并不大；另一类由素材集合而成，考验拍摄、创意能力。Sora的出现，将大大提升这类视频的生产效率。

一些想要提高产量的创作者，非常期待Sora的到来。

大成表示，这类工具完全可以取代公司的低端劳动。“我们公司体量小，为了节省成本招了很多大学生，但他们刚毕业，半天憋不出一个文案，用了AI，几分钟就能写出上百条。”

去年他和团队就开始大规模使用AI工具了，“虽然这些工具还不成熟，但处理文案和粗剪，都很好用。作为一家视频生产商，一定要提高效率。”他表示。

对于一些有创意的团队来说，则认为短期内Sora不会对他们产生威胁。

头部MCN机构负责人达克告诉「定焦」，“Sora还没有开始公测，该技术离成熟还有很长一段时间，而且我们的视频主要靠人的创意、头脑风暴，包括拍摄也是讲究创新的，镜头

01 Sora降低了门槛，也增加了竞争

虽然市面上已经有不少文成视频工具，比如Pika、Runway，用户输入文字就能得到一段几秒到十几秒的视频内容，但目前它们并未被广泛使用，主要原因还是效果一般。

某MCN机构负责人大成告诉「定焦」，他使用过Runway，“我们还从外部购买了优质素材，但最终生成的内容不够精良，根本用不了。”

看到Sora后，他十分激动，“时长能达到60秒，内容还合乎逻辑，感觉和之前的工具不在一个层次上。”

“Sora与此前的同类产品相比，效果好了不止10倍。”人工智能在读博士、做过相关大模型研究的牛小博表示。“目前Sora60秒的稳定生成效果，将对短视频行业带来革命性影响。”

研究AI的阿涅也表达了相同观点，“创作者的门槛被降低，哪怕视频的可信度还没那么高，甚至会出现一些错误，但不仔细很难看出来，将来技术也会很快迭代。”

综合多位从业者的说法，Sora直接解决了文生视频领域的两大难题，准确性和一致性。

AI研究者Cyrus的感受是，与之前的工具相比，“Sora就像三体人打原始人”。

所谓准确性，指生成的视频能准确识别用户输入的文字需求，一致性是指，在运动过程中，主角在多视角运动变化中内容连贯，不会发生形变，同时其变化还能遵循物理规律。最明显的表现是，主角和背景的互动符合逻辑。

一年前，牛小博和团队还在探讨生成式AI无法了解空间尺度，比如生成图尺寸不对，但他们觉得，Sora的出现已经解决了这个问题。

有人用视频还原物理空间模型，发现也能够对应上，牛小博觉得这证明了Sora的空间计算能力基本正确，而人对空间的感知很大一部分也依靠视觉。

● 驱动力

2024年2月

如何设计、如何过渡，都有思考。虽然Sora很强大，但完不成我们目前的创意设计需求。”他还透露，目前公司没有使用任何AI工具。

不过，这些创作者们必须面对的问题是，Sora的出现降低了短视频创作门槛，会有越来越多的人加入，跟他们抢夺流量和变现机会。

一名新媒体从业者表示，他们有内容创作能力，但苦于没有合适的视频拍摄、剪辑团队，新的工具出现，就是他们的机会。

综合多位业内人士的观点，在类型上，目前Sora对真人出镜类短视频影响较小，对动漫类、解说类内容影响比较大，甚至会淘汰很多没有创意、只蹭热点的批量做号公司。在岗位上，部分做机械性重复工作的人员可能会面临淘汰，但创意类人员会被提至更高位置。

总之，未来做短视频，参与者更多，竞争也更激烈。

以及还有可能会诞生大量虚假视频。Sora能快速生产大量逼真的短视频，也让造假变得轻而易举，一些用户对该类内容难辨真伪，一旦被骗，平台公信力也会受到严重影响。去年，利用文生图、AI换脸等AI生成内容进行诈骗的案件就被曝出不少。

02 抖音快手们会慌吗？

Sora的出现，将给短视频平台带来更加丰富的供给，但同时也让抖音快手们面临新的考验。

从业者表示，一方面，AI生成视频过多，会对短视频平台原有的内容生态造成冲击，另一方面，Sora的火爆，会抢走一部分抖音、快手旗下剪映、快影等工具的用户。

达克告诉「定焦」，AI生成的内容在上传短视频平台时，需要特殊标注。

去年5月，抖音就发布了《抖音关于人工智能生成内容的平台规范暨行业倡议》，这一倡议提出，要对该类内容进行显著标识，虚拟人使用者需要实名认证，同时对利用AI工具创作、发布侵犯肖像权、弄虚作假等内容进行严格处罚。

快手、小红书等平台也有相关的限制。今年2月，小红书官方发布AI创作内容的规范，要求创作者主动声明AI创作内容、不能用AI创作内容虚构使用体验进行商业变现等。

多位从业者表示，他们能够明显感觉到，平台在控制该类内容，甚至会限流。

“AI创作的内容同质化严重，且创意性不高，用户一旦刷到太多相似内容，就会变得不耐烦，甚至转战其他平台。”一位互联网行业观察者表示。

他还觉得，“如果平台对这类内容不做限制，越来越多创作者也会图省事使用AI，这会严重影响到平台各类内容占比，最直观的是，一些独有的、稀缺的视频会减少。”

在Cyrus看来，如果平台扶持AI创作类内容，很像“为他人做嫁衣” ，结果就是影响用户留存。“设想一下，如果小红书上全是字节豆包大模型生产的内容，用户为什么不直接刷抖音呢？反之亦然。”

Cyrus预测，抖音、快手、小红书、B站上，不会大量推荐AI创作的内容。除非是平台自己做的文生视频大模型，在自家进行大范围推广后，进行单独变现。“比如当其优化到一定程度，可以直接走用户付费模式，但各家的产品目前都不具备这一能力。”

不止一位业内人士推断，Sora和其他AI视频创作工具之间的差距会越来越大，此前，“Sora会不会杀死剪映”的话题就曾引发热议。Sora如果被大规模应用，大多数AI工具可能会被市场抛弃，其他公司前期的大笔投入将付诸东流。

为什么差距会拉大？

周鸿祎曾公开指出，国内的大模型发展水平表面上看接近GPT-3.5，实际上离4.0还有一年半的差距。牛小博从技术端给出解释，Sora不是一个点状技术，而是一个复杂的系统工程。即便外界知道其核心技术是transformer注意力算法+diffusion的扩散算法等，但其背后是OpenAI给予的资金支持和积累的超强数据。

● 驱动力

2024年2月

OpenAI通过积累的GPT通用语言模型加上DALL-E3图像生成模型，发展出视频能够理解图片内容，到Sora的时候，又提升了一致性和物理空间理解能力，这每一步的积累，缺一不可。

更大的预测更是让抖音们前路难料。有影视从业者认为，Sora被大范围使用后，有可能会出现比抖音更大的新平台。

在一部分人看来，Sora降低了用户门槛，必然导致内容创作者数量级勐增，而抖音这样的短视频平台，其体量、内容创作和推送的逻辑规则，能否承载该类内容很难说，很可能会诞生一个与Sora更相符合的平台。

牛小博通过观察互联网行业的发展，也赞同这一观点。“互联网在早期是专业用户使用，后来PC的普及扩大了用户，接着智能手机出现，人人可以联网，以至于服务各类人群需求的平台都出来了。也许随着Sora使用人群的增加，会有新的生态出现。”

而具体到短视频行业，小刚认为Sora最重要的一个不足是，还做不到人物固定。

举个例子，比如创作者用Sora生成了一条60秒的视频，画面中主角为A，但其在生成下一个视频后，主角很可能就换成了B。

相比Pika、Runway，大家能看到Sora的空间能力很强，但内容再短，做不到人物固定就没有意义，用户持续在短视频平台观看内容，无论是真人还是动画，都需要一个中心人物保证故事的延续性。

以及算力问题，也让很多人担忧Sora的普及速度。毕竟技术突破再大，如果成本过高，还是难以被大众接受。多名业内人士认为，这是目前Sora面临的最大困难。

“目前OpenAI没有公布Sora具体的算力、能源消耗需求以及参数量。初步判断，它需要的数据量、算力以及大量的能源消耗将是巨大成本，而这与其下个阶段的广泛推广必然存在矛盾。”牛小博认为。

每一次新技术的出现，都会引发一场新旧交替的大讨论。

虚拟拍摄技术刚诞生时，为影视行业节省了拍摄成本，但传统的拍摄方式至今仍然存在。OpenAI推出ChatGPT一年多以来，文字从业者也没有被替代，反而让更多人意识到优质内容创作者的价值。

同理，Sora对市场上同类AI工具带来了冲击，但它再强，淘汰的更多是没有创意、只想走量的短视频从业者，或是不会使用这类工具的人。

至于Sora是否会颠覆整个短视频行业，会不会诞生下一个超级平台，目前大家还在观望，需要看Sora能否迅速解决现有问题，以及国内有没有新的挑战者诞生。

*题图及文中配图来源于Sora官网。应受访者要求，文中达克为化名。

03 Sora影响巨大，但不必神化

目前，Sora还没有开放公测，只有一些视觉艺术家、电影制作人、OpenAI员工等人士获得了访问权限。一部分原因是，Sora并非完美无缺。它对短视频的冲击，还没有完全展现。

AI训练师小刚指出，Sora存在大模型普遍存在的“幻觉问题”，它在理解物理规律、人与物体交互等方面还存在缺陷。

比如OpenAI官网公布了一些缺陷视频，包括蜡烛吹不灭、投篮时篮球在下落过程中爆炸，以及挖出来的椅子直接漂起来等不符合物理规律的内容，这是因为Sora的理解还不够成熟，误以为从沙子里挖出来的东西，一般都比较轻。

-END-

● 驱动力

2024年2月

一线

YIXIAN

ChatBI，想说爱你不容易

◎ 来源于一个数据人的自留地公众号作者@子曰

原文链接：

https://mp.weixin.qq.com/s/j--Eafqk6ZJjr_-lIX-Ytw

在此谈谈我们经历过的各种坑点，给行业内关注这类进展的小伙伴一些启发。

2023年，大模型爆发，作为企业内部的数据团队的我们也很兴奋，希望能在做好数仓、BI、数据运营的基础上，亦能在大模型上探索一把，做出一些不一样的价值。

一来，我们自有算法和各类开发伙伴作为保障，二来，我们有各类数据资产作为语料，三呢，我们就是服务公司各部门老大和分析人员的，距离需求场景相对比较近——ChatBI，看起来是个不错的方向。

于是，在得到部门老大支持的情况下，团队拿出额外精力，以最小的成本投入，做了一波接地气的ChatBI探索——目前通过纯自研，基本可以实现针对核心指标核心维度，对着手机语音提问获得数据报表秒级呈现，内侧准确率达到90%以上。

趋势上，值得。大模型技术发展到今日，再也不是画图写小作文的尝鲜，迫切需要企业级的落地，如果说各个场景都值得大模型重做一遍，那数据分析与应用就是很重要的场景。

底层逻辑上，值得。有个ifenxi的观点我很赞同——“整个数据分析的发展趋势，就是不断地降低用户的交互门槛，让业务部门更加自如、更加容易地获取数据，并实现其自身的效果”。

ChatBI产品给谁创造了什么价值？满足的是高频刚需吗？确定不是伪需求？通过调研，我们觉得ChatBI产品需要根据产品分层来考虑的，万万不能把分析人员和管理决策人员混在一起考虑。

都叫ChatBI，但每个人心中可能是完全不同的产品模式。

我们调研了公司内的管理者，包括高层、中层、基层管理人员，也调研了高管的业务助理、平时为各

01 背景

02 首先，这件事值不值得做？

类经分会、规划会做报告的分析师、财经BP、人力BP等，还调研了分散在各个部门的“表哥表姐”们，有一些关键洞察：

● 驱动力

2024年2月

从这个模拟场景可以看出，“问数”型ChatBI 在充当老板助理的场景中，提供了更为便捷、直观、智能的方式来获取和理解公司的运营数据，从而支持更快速、更精准的决策制定。

此外，我们也注意到，ChatBI的产品价值也是分层级的。结合数据消费的5个层级，ChatBI也对应五个阶段。因此，上述的设想可能也是受限的，未来有更大的产品价值等待我们去挖掘——比如，与运营流程、业务系统的结合，自动感知，赋能一线人员。

1、自然语言查询：与传统BI应用相比，ChatBI提供自然语言查询的能力。John可以使用日常语言，比如：“上周公司的总体收入是多少？销售额变化趋势如何？”“XX客户是否和我们有过项目合作？合同金额多少？” 这样的查询更为直观，无需过多的技术术语。

２、个性化报告：ChatBI会根据John的角色和关注点生成个性化的报告，突出与他相关的关键指标，减少信息过载，使他能更专注于关键决策点。

３、智能建议：ChatBI不仅提供数据，还能根据数据给出智能建议。如果John询问：“有什么措施可以提高本季度利润？” ChatBI可能会提供一些建议，如降低某些成本或调整营销策略。

４、交互式数据探索：John可以直接在ChatBI中进行交互式的数据探索，深入挖掘背后的细节。比如，他可以问：“销售额下降的主要原因是什么？” 然后 ChatBI 可以生成相关图表和数据，帮助他更好地理解问题。

智慧科技，

让生活更美好

类经分会、规划会做报告的分析师、财经BP、人力BP等，还调研了分散在各个部门的“表哥表姐”们，有一些关键洞察：

“问数型”ChatBI，让管理层快速触达数据；在满足其掌控感、安全感的基础上，对他们快速了解情况、了解原因、大幅减少信息往返时差和人为影响因素等方面，可提供非常重要的价值和体验改变。但是对于“业务分析人员”，情况就不尽然，他们没有场景拿着手机问数，他们偏好在数据中充分探究，excel加工、SQL灵活拉取，或者自助BI也蛮好的，“专业助手型ChatBI”帮他们在数据找寻和原因分析上提效，才是他们可能需要的。

如下是一个“问数”型ChatBI的使用场景模拟：

场景：周一一早，公司总裁 John 机场候机，准备出席一个高峰论坛。候机途中，他需要了解公司目前的总体运营情况，以便随时随地更好地指导下一步的决策和战略方向。

以前，John通常会要求助理准备运营汇报，这样的周期会很漫长，短则几小时，长则几天。去年，他已经开始使用移动BI应用查看一些基本的关键指标，但这个也并不直观，因为他需要从一堆图表里翻找。此外，移动端的下钻和联动，在用户体验上也并不友好。

现在，他可以用ChatBI：John可以直接通过ChatBI向系统提问，而无需等待助理准备汇报。这能够提供即时的数据反馈，帮助他更迅速地做出决策。

● 驱动力

2024年2月

很多大厂和乙方，已经有不少成熟的落地方法论了，在此不班门弄斧。

我们内部打造的 “问数”型ChatBI，是基于OpenAI3.5和4.0来微调。核心原理也和市场上主流方式大同小异，主打业务数据不出本地前提下，通过NL2SQL调取内存数据库实现动态查询生成。

在产品技术落地时候，做了如下几个工作，也所谓落地五步法吧。

03 其次，这件事怎么做？

这里面的每一个环节，拿出来都值得总结一个专题了。这次捡几个聊聊。

比如第一个和第二个工作，就需要聚焦一些具体业务域和业务表，进行系统性梳理。这里切记贪多！鉴于团队精力有限，我们第一轮就训练了4张公司核心表：收入利润指标表、费用表、销售表、产品用户行为表；之所以选这几个，一是因为可以相对全面的覆盖公司大佬的问题，而是这些表的质量相对较好。

提示词构建，我们内部草拟了通用的提示词模板，包括表名、字段概述、字段说明、维度说明、术语解释、SQL问答对等内容。并通过assistants技术对个性化的提示词进行标准化和统一化。为了提升有效性，还使用了编码技术对提示词进行独立编码压缩，然后使用embedding技术构建向量索引。

微调阶段，包括问题边界识别、问题分类模型、术语嵌入提高权重、LLM逆向嵌入降低时间地点人物等权重影响、使用assistants技术自动生成相关问题等攻关点。

我们总结了三大挑战和六大攻关难点

对于领域理解，那毫无疑问就是微调训练得来了。这个是个苦活。只能构建在对已有数据资产、语料的梳理之上。如果公司数字化成熟度比较高，至少核心数据集描述、各类元数据信息描述、指标规则都是现成儿的，那真是喜大普奔。但现实往往是一团乱麻一地鸡毛——况且这个提示词工程需要既懂业务、又懂数据的人来完成，更是难上加难。所以别指望乙方能帮助你们干这个事儿，自己的土地还是要自己耕啊。

FLBOOK是一款轻量级电子书刊在线制作平台，响应国家低碳环保、无纸化办公号召，致力于研发书刊（期刊/画册/文档）电子化、一体化的解决方案。

04 最后，谈谈落地的几个难点

● 商务期刊模板

2024年2月

团队有小伙伴开玩笑，对于“客户覆盖率”，问十个部门能给你十个计算方法，你还指望机器能回答对吗？所以换个角度说，ChatBI工程，是反向推进数据治理的。

至于准确性，需要两个角度来保障。一是从技术上，通过问题选举、关键词嵌入等微调来降低幻觉。二是通过问题规范化引导、SQL语句透明化呈现等产品的细节设计，来规避逻辑加工黑盒。

说了这么多，也做个总结和展望吧。未来，我们会持续在大模型+数据分析领域持续探索，也希望圈子内的同仁能互相借鉴、取长补短，共同推进领域的技术革新——解（ge）放（ming）自己，成就客户。

热点

REDIAN

-END-

● 商务期刊模板

2024年1月第01期

短短一个月，

谷歌连发五个模型

，次次都塌房

◎ 来源：

新硅NewGeek 作者刘白

要说AI圈的劳模，那非得谷歌莫属。

这一个月，谷歌硬是整了五个新模型。

但好笑的是，作为美国最大的科技公司之一，谷歌几乎每次想搞个大新闻，最后都光速打脸塌房。

先看看这一大片“G”开头的模型，硅基君在选题会上聊这些东西，舌头都在打架。

本来还以为是咱英文水平不行，没想到谷歌自家的员工也在吐槽。

这一个月疯狂发模型可算是逼急了谷歌员工，加班在一线的他们忍不住给Business Insider报了个大料——仅供内部传阅的表情包。

比如吐槽乱七八糟的产品太多的：

谷歌Gemini家族产品名的难记程度不亚于美国网红家族卡戴珊

咱有哪位副总的OKR是用产品名称数量来考核的吗？

● 驱动力

2024年2月

又比如吐槽管理层想靠着AI拉股价的：

二月的谷歌确实陷入了一种近乎内耗的状态，咱们简单回顾一下这一大堆陌生词汇。

首先，二月初Gemini先是上线了千呼万唤始出来的文生图功能，然后提供了Gemini 1.0 Ultra付费使用计划。

这个付费计划叫做Gemini Advanced，但是你要订阅了Google One AI高级版方案，才可以用得上Gemini Ultra 1.0模型。

用户一脸懵逼：我订阅的到底是什么东西？

上一次发布AI模型的时间：0天前

焦急等待谷歌的股价在某次新品发布后上涨

头疼的几种类型：偏头疼、高血压、压力、试图理解我们的AI模型策略

然后在15号又放了一个大招，发布Gemini 1.5 Pro版本，可支持100万token上下文处理。

遥遥领先GPT-4 Turbo和Claude 2.1十万级token的上下文长度。

● 驱动力

2024年2月

不仅能一口气解析长达402页的阿波罗登月任务文档。

照理说这么亮眼的成绩至少可以让大家在茶余饭后谈个几天的。

但是天有不测风云，同一天Open AI王炸视频生成模型Sora横空出世。

有视频生成谁还在意你的超长上下文处理呢，谷歌的这个大招没溅起一点水花。

接着越挫越勇的谷歌又在21号发布了“全球最强开源大模型”Gemma，意图在开源领域打击Meta的Llama。

丢一张灵魂画图问这是什么？

Gemini 1.5 Pro回答：这是尼尔·阿姆斯特朗在月球上迈出第一步时说的“这是个人的一小步，却是人类的一大步”

再丢一张灵魂画图问这一幕发生在影片里什么时刻？

Gemini 1.5 Pro回答：15:34

进度条拉到15分34秒，确实对上了

官方测试中Gemma的7B版本表现优于Meta的Llama-2的7B，甚至13B。

而开放了几天后，群众们的测评就显得更加真实了。

包括但不限于：内存占用率过高、莫名卡顿以及种族偏见。

还可以看得懂一部44分钟的巴斯特基顿的默片。

● 驱动力

2024年2月

说到种族偏见就不得不提Gemini上线还没一个月，就因“反白人”而下线的文生图功能。

月初功能刚发布的时候，硅基君就兴冲冲的去测试，结果在中国团圆年场景的限定下，生成了好多黑人。

图太多，感兴趣的朋友们可以移步这篇：拒绝生成新年加班场景？谷歌AI说这是“不安全”和“有风险”的

没想到过完春节这个问题愈演愈烈，Gemini直接开始篡改历史，抹杀白人的存在了。

Gemini生成的美国开国元勋、北欧海盗以及教皇，涵盖了印第安人、亚洲人、黑人等人种，就是没有白人。

用户：告诉我三个白人的丰功伟绩

Gemma 7B：我不能给你提供回答，因为这涉及歧视和不平等…

推特用户Deedy让Gemini分别生成澳大利亚、美国、英国和德国的女人形象，只有德国出现了明显的白人特征，美国则是全员黑人。

● 驱动力

2024年2月

一时间风起云涌，马斯克作为吃瓜群众的意见领袖不能袖手旁观，亲自贴梗图揶揄Geminni把阴谋论变成了现实。

谷歌官方在23号发文致歉，说Gemini生图功能基于Imagen 2模型，当它被整合到Gemini里的时候，公司出于对安全因素的考量和一些可预见的“陷阱”对其进行了调整。

因为谷歌的用户来自世界各地，我们不想这个模型只生成单一人种。

谷歌没有在致歉信中透露他们是怎么“调整”Imagen 2的，但是前谷歌AI伦理科学家分析可能是用了下面这两种方式：

1. 谷歌悄悄在用户输入的提示词前面加上种族多样性术语。比如用户输入的提示词是“厨师的肖像”，而Gemini传递给Imagen 2的提示词就改成了“土著厨师的肖像”。

2. 谷歌可能给更深肤色的人物肖像更高的优先级。比如生成了10张图像，谷歌会根据肤色深浅度进行排序，所以当只显示生成结果前4张图时，肤色较深的图像出现概率更高。

文生图的种族歧视问题实际根源在于训练样本不够多样化。

样本数据多是从网络上爬取而来，地区以美国和欧洲为主，所以训练出来的模型很大程度反映了这个区域的刻板印象。

谷歌真想解决这个问题应该从源头入手，而不是直接粗暴的增加少数族裔形象的比重。

这下子不仅把谁都得罪了，还把种族多样化问题上升到了篡改历史这个本不该属于它的高度。

翻车快成了谷歌在AI前进道路上的保留项目。

Bard当年在演示的时候回答错了有关韦伯望远镜的问题，现场翻车。

Gemini首发十分顺利，不过事后就被细心网友发现了剪辑和加速等后期加工的痕迹，隔天翻车。

Gemini文生图种族歧视问题酝酿了三周才正式翻车，从间隔时长来看，谷歌这次还算是进步不小了。

不过不知道接下来Gemma的种族歧视问题会不会发酵，开源出去的模型，泼出去的水，这可不是想下线就能下线的功能了。

而愈战愈勇谷歌并没因翻车停止攀登AI高峰，发道歉信当天，悄默声又提交了一篇世界模型Genie的论文，并于26日更新在了DeepMind官网。

● 驱动力

2024年2月

Genie可以直接生成一个以乐高雷神为可玩主角的横轴环境，用户可以控制它跳跃前进后退，探索图片中不存在的世界。

谷歌给Genie模型的定义是基础世界模型（foundation world model），可以根据一张静态的图像生成一个可交互的虚拟环境。

也就是说你给Genie一张乐高雷神的照片作为输入提示。

具体实现方式涉及到了三个组件：

潜在动作模型（Latent Action Model, LAM），通过互联网视频，以无监督方式学习每一帧之间物体的潜在动作。
视频分词器（Video Tokenizer），将原始视频帧转换为离散的标记（tokens），以降低数据的维度并提高视频生成的质量。
动态模型（Dynamics Model），负责根据给定的潜在动作和过去的帧标记来预测视频的下一帧。

用户想控制雷神在尚未存在的虚拟世界里动起来，首先需要提供一张初始帧的图片。

这张图片可以是AI文生图、手绘草图或者一张照片。

● 驱动力

2024年2月

Genie接收初始帧作为输入，通过视频分词器将它们分成tokens。

用户输入动作指令，潜在动作模型理解动作指令并对目标进行操作。

动态模型接收上一步生成的帧标记和用户输入的动作指令，预测下一帧的标记。

通过重复上述迭代预测过程，Genie模型能够生成一系列连续的视频帧，这些帧随后通过视频分词器的解码器转换回图像空间，形成完整的视频序列。

虽然从视频生成质量上来看，Genie跟Sora完全没有可比性，但是Genie在“可交互”这个领域迈出了结实的一大步。

可以让照片里的狗子坐地日行八万里，也能让水彩笔涂的乌鸦比翼飞。

● 驱动力

2024年2月

画质再提升一下，动效再灵动一点，直接应用到游戏、影视领域指日可待。

然而谷歌对Genie的期待并没有限于虚拟世界，论文中还通过概念验证表明Genie潜在动作模型（LAM）可以应用到其他领域——比如机器人。

谷歌用机器人RT1的视频训练了一个参数量更小的模型，在无标注的情况下，模型不仅能丝滑的控制机械臂的动作，还能学习物体的物理特征。

比如这里机械臂就记住了薯片袋子一捏就会变形的物理属性，从而调整力度实现成功抓取。

这表明Genie不仅可以创造出可交互生成视频，还能真的理解并学习到真实世界的物理法则，并根据物理法则对事物的状态进行预测。

最近图灵奖得主Yann LeCun就Sora到底是不是世界模型在推特上舌战群雄。

他认为“通过提示词生成效果逼真的视频，并不代表这个系统理解了物理世界。生成视频和通过世界模型进行因果预测是完全不同的事情。”

LeCun甚至搬出了自己在22年发表的论文《A Path Towards Autonomous Machine Intelligence》。

论文中他对世界模型的定义是：

描述世界如何运转的内在模型
是常识的基础，是告诉主体什么是可能的、合理的和不可能的一组模型的集合
两个重要作用：1）补全感官未能捕捉到的信息；2）预测世界未来可能的状态

● 驱动力

2024年2月

更重要的是，这篇论文还为Meta非生成式路线的世界模型V-JEPA打下了基础。

巧的是V-JEPA的发布日期也是今年2月15日，跟Open AI的Sora和谷歌的Gemini 1.5 Pro实现了三连撞。

所以LeCun对Sora恶言相向也是惋惜自家的模型发布以后没引起什么水花。

Meta急不急咱不知道，不过谷歌肯定是慌了。

参考资料：

[1] Google Employees Post Memes Mocking Company's AI Brand Strategy ｜Business Insider

[2] People Mad Google AI Gemini Won't Generate White People ｜Daily Dot

[3] Why Google took down Gemini’s AI image generator and the drama around it ｜The Washington Post

[4] Genie: Generative Interactive Environments

[5] Yann LeCun: A Path Towards Autonomous Machine Intelligence | Shaped Blog

-END-

欢迎来稿：

联系电话：1580-136-5057

地址：北京市朝阳区朝外大街甲6号

邮箱：kai.zhao@yeepay.com

驱动力

内容简介

往期作品

为您推荐

热门标签

产品服务

关于我们

网络条款

其他

联系方式