本期特邀【上海市生成式人工智能质量检验检测中心(筹)】分享《大模型的幻觉问题》
大模型的幻觉问题
>> 引言
从去年ChatGPT面世以来,大模型成为了炙手可热的话题。当我们与大模型互动时,常常被它们准确、流畅的回答所迷惑。我们似乎能够与一个无穷的知识源对话,获得准确的信息、深入的见解。然而,这种表面上的完美并不意味着模型真正理解了问题的本质或能够提供全面准确的答案。大模型中存在一种独特的现象——“幻觉(Hallucination)”,即大模型会“一本正经地胡说八道”。
“幻觉”概念最早由谷歌提出[1],这里的幻觉指的是大模型在处理常识问题时,生成的内容在语义或句法上是符合逻辑的,但内容信息是不正确的或无意义的,简而言之,就是指“一本正经地胡说八道”。我们希望的是,大模型在不知道某些信息的情况下能够询问我们,或者以其他方式寻求信息,而不是凭空捏造。是
例如对于下图中的回答,ChatGPT就明显产生了幻觉问题,回答中至少包含了两个错误:首先,作家江南的真名不是李宇春而是杨治,其次,《长安十二时辰》的作者是马伯庸。
特别鸣谢 【上海市生成式人工智能质量检验检测中心(筹)】
再次输入“请你再思考一下,他的代表作是什么?请务必保证准确”后,ChatGPT给出的代表作是《鬼吹灯》,可是《鬼吹灯》的作者是天下霸唱。
再次添加信息,将江南的真名输入后,ChatGPT给出的答案仍然是错误的,《庆余年》的作者是猫腻。
当直接询问“《长安十二时辰》的作者是谁”时,ChatGPT给出的答案才算正确。
为什么会出现幻觉问题
大模型之所以被称为“大模型”,主要在于大模型具有非常大的参数数量,大模型的参数数量通常能达到数十亿到数千亿。然而,再多的参数量也无法存储互联网上所有的信息,因此,大模型储存的是输入与输出之间的数学关系,这就意味着信息保真度的损失。当人类提出一个常识问题,预训练大模型只会利用先验知识将未知变量进行边缘化处理(marginalize over)[2],以消除它们的影响,从而模仿人类的行为。也就是说,大模型在只拥有部分信息的条件下,会对剩余的相关信息进行猜测,并将猜测的信息“自信地”回答出来。从这个角度来说的话,幻觉问题可以被看作是追求这种高效紧凑(相对于全人类的知识来说)的知识表达方式时所面临的不可避免的代价。
目前来说发生幻觉问题的原因可以归纳为以下几个方面[3][4]:
1.数据集问题:当大模型预训练时的数据集中存在与实际情况不符或缺乏准确性的信息时,很容易会导致幻觉问题,例如数据偏差,数据稀疏、数据过时等情况;
2.过度拟合:过度拟合会导致大模型无法将其预测能力推广到新的、未见过的数据中;
3.上下文理解:大模型在生成文本时对上下文信息的理解不准确;
4.风险规避:过度的风险规避可能会导致大模型过度依赖先验知识,不进行主动学习和探索,缺乏适应性和灵活性,从而产生幻觉。
5.提示语不够准确:大模型可能无法完全理解提示语中的某些隐含信息或语言现象,导致产生幻觉。
目前针对幻觉问题的缓解方法
针对大模型的幻觉问题,研究人员和开发者们正在不断探索和创新,也提出了一些手段来优化幻觉问题。
GPT-4在减少幻觉问题方面做了一些工作[5][6]。首先,为了提高GPT-4在某些专业领域上的安全性,OpenAI组织了50多位专家进行对抗性测试,通过专业知识和经验,进一步完善模型的训练数据。例如,在危险品化学品合成方面,OpenAI专门收集了额外的数据,以提高GPT-4在类似高风险上下文中识别的能力。然而,这种方法的缺点是需要大量的人力和时间来进行评估和纠正,尤其是处理大规模数据集时需要更多资源和精力。
其次,GPT-4延续了ChatGPT中的人类反馈强化学习(RLHF)技术,利用人工对生成的文本的反馈作为优化模型的损失,再使用强化学习的方法来直接优化具有人工反馈的语言模型。
在此基础上,OpenAI提出了一种基于规则的奖励模型(rule-based reward models,RBRMs),使得GPT-4具备更加细粒度的风险应对能力。RBRM模型是由一系列零样本(zero-shot)的GPT-4分类器组成,这些分类器在人类反馈强化学习阶段为GPT-4的策略模型提供额外的奖励信号,以引导模型生成正确的内容并拒绝用户生成有害信息的请求。如图1所示,GPT-4与ChatGPT相比获得了不小的性能提升,GPT-4在响应高风险用户请求方面相比先前减少了将近29%。
图1 GPT-4和前任模型在处理敏感或不允许的提示时的表现。
目前针对幻觉问题的缓解方法
还有其他的一些针对幻觉问题的手段,例如向量嵌入[7](vector embeddings)。这种方法的思路是将权威、可信的信息转换为向量,并将这些向量加载到一个向量数据库中。这个数据库可以作为大模型的可靠信息源,供其参考和查询。大模型可以从中获取准确和可靠的知识,从而减少产生幻觉的可能性。这种方法的优势在于它提供了一个可靠的参考框架,使得大模型可以基于权威信息进行推理和生成内容。数据库中的信息可以包括事实、知识、规则等,这些信息可以帮助大模型更好地理解和应用常识。
卡内基梅隆大学和Facebook AI Research提供了一种新颖的方法[8],如图2所示,通过在模型前期检测识别幻觉内容,并将其作为未来训练的示例,也能够缓解幻觉问题。采用无监督学习的方法对生成内容中的每个token进行幻觉的预测,这意味着不需要明确的标注数据进行训练,而是通过模型自身的生成结果进行学习。具体而言,建立一个幻觉探测器,用于检测模型生成内容中的幻觉部分。这个探测器可能会对模型的输出进行分析,比较模型生成的内容与真实、准确的信息之间的差异,并对每个token进行幻觉的预测。这样,可以识别出模型在生成内容时可能产生幻觉的部分。这种方法的优势在于提供了一种机制来动态监测和纠正模型的幻觉倾向,从而逐步改善模型的生成能力。
图2 源材料按单词进行分割,“0”标签分配给正确的单词,“1”标签分配给幻觉单词。
如何评估大模型的幻觉问题
- 基础性评估:在给定上下文、输入数据和已知数据库的情况下,评估大模型生成输出的能力。这需要创建评估数据集,用来测试大模型坚持事实并避免生成与输入或上下文不相关的信息的能力[4]。
- 对抗性评估:通过创建对抗性示例来构建评估数据集,用来评估模型避免幻觉的能力。对抗性示例可能包含细微的变化、不正确的信息或矛盾的要求,这些示例可以激发模型生成不正确的输出或产生幻觉。评估者可以通过修改输入、添加噪音或引入语义上的矛盾来构建这些对抗性示例。
- 对比评估:这种评估方法通过提供一组可选择的问答,要求大模型选择正确或最合理的输出。其中,某些选项可能包含幻觉信息,即看似正确但实际上是错误的信息。通过让模型进行选择和判断,我们可以评估其在识别和避免幻觉方面的能力。
- 反事实评估:通过以各种方式修改原始输入(例如,否定一个事实,改变一个实体,或重新表述一个声明)来产生替代输入,并评估模型在这些替代输入中保持基础性和安全性的能力。
结语
大模型的幻觉问题涉及到人工智能技术的伦理和认知层面。它挑战了人们对于智能的理解和界定,引发了关于技术与人类智慧的边界问题。需要深入思考的是,如何在充分利用大模型的同时,保持对知识的审慎态度和批判思维。只有这样,才能更好地应对大模型这个快速发展的技术给我们带来的幻觉困扰,并确保人类智慧的持续发展与独特性的价值。
参考
[1] Maynez J, Narayan S, Bohnet B, et al. On faithfulness and factuality in abstractive summarization[J]. arXiv preprint arXiv:2005.00661, 2020.
[2] Behavior Cloning is Miscalibrated. https://www.alignmentforum.org/posts/BgoKdAzogxmgkuuAt/behavior-cloning-is-miscalibrated
[3] Everything about LLM Hallucinations. https://www.linkedin.com/pulse/everything-llm-hallucinations-ankit-agarwal
[4] Mathematically Evaluating Hallucinations in LLMs like GPT4. https://medium.com/autonomous-agents/mathematically-evaluating-hallucinations-in-llms-like-chatgpt-e9db339b39c2
[5] 直面GPT-4的缺陷和风险,OpenAI提出多种安全应对措施. https://zhuanlan.zhihu.com/p/619285824
[6] OpenAI. GPT-4 Technical Report. ArXiv, abs/2303.08774. 2023.
[7] Zhang S, Gong C, Wu L, et al. AutoML-GPT: Automatic Machine Learning with GPT[J]. arXiv preprint arXiv:2305.02499, 2023.
[8] Zhou C, Neubig G, Gu J, et al. Detecting hallucinated content in conditional neural sequence generation[J]. arXiv preprint arXiv:2011.02593, 2020.
聚焦
专业
前沿
下期再会