改善大语言模型在做出预测时的准确性和可靠性

Google研究团队开发了一个名为ASPIRE的新技术,它可以改善大语言模型在做出预测时的准确性和可靠性。

ASPIRE主要特点:

  • 让AI模型先回答问题,然后再自己检查答案是否正确。
  • 通过这种自我评估,模型能更准确地区分正确和错误的答案并给出信心分数。
  • 无论模型大小,它都能帮助提高准确性。

简单来说,ASPIRE帮助这些AI模型更好地判断它们的答案是否正确,并且只在比较有把握的时候给出预测。

在ASPIRE的帮助下,模型不仅能给出答案,还能同时提供一个与答案配对的信心分数,即模型对自己答案的自信程度。

通过提供信心分数,模型能够表达自己对于答案的不确定性。这种透明度对于用户来说是非常有价值的,尤其是在涉及重要决策的情况下。例如,如果模型对一个医疗相关的问题给出了低信心分数的答案,用户就会知道需要谨慎对待这个答案,并寻求专业人士的意见。

工作原理:

  • 两阶段指令调整:用于增强LLM在执行零样本会话式QA任务时的性能。

在第一阶段,LLM接受通用的预训练,这使得它具备处理各种类型的文本和问题的基本能力。

第二阶段是专门的微调阶段,其中模型针对特定类型的问答任务进行训练,如会话式问答。这使得模型能够更好地理解和回答连续的、上下文相关的问题。

  • 检索增强生成(RAG):用于优化密集检索器,减少部署成本。

RAG是一种结合了信息检索和生成模型的技术。它首先使用一个密集的检索器(例如搜索引擎)从大量数据中检索与问题相关的信息。

然后,模型使用这些检索到的信息来生成更精确、相关的答案。

RAG的优势在于它可以减少对大规模训练数据的依赖,同时降低部署模型的成本。

ASPIRE的工作机制:

ASPIRE的工作原理主要基于以下几个关键步骤,这些步骤共同帮助提高大型语言模型(LLM)在选择性预测任务中的性能:

1、任务特定调整:对模型进行微调,以适应特定的任务,例如问答。这意味着模型被训练得更好地理解和回应特定类型的查询。

2、答案抽样:在回答问题时,模型不仅生成单一的答案,而是产生多个可能的答案选项。这样做可以覆盖更多可能性,提高找到正确答案的机会。

3、自我评估学习:模型通过分析自己生成的答案集合,学习如何区分哪些答案更可能是正确的。这种自我评估能力使模型能够判断其回答的可靠性。

4、性能评估与选择性回应:当面对实际问题时,模型利用其自我评估能力来判断是否有足够的信心回答。模型使用内置的评估机制来评估它生成的答案的可信度。这时,模型会生成一个信心分数,表明它对自己的答案有多确信。如果模型对答案不够确定,它可能选择不提供答案,以避免给出错误信息。

5、持续优化:ASPIRE框架允许模型不断从新数据和用户互动中学习,进一步优化其预测准确性和自我评估能力。

综上所述,ASPIRE通过结合专门的微调、答案生成、自我评估和性能优化,使得大语言模型在处理复杂和高风险的决策任务时更加可靠和准确。这种方法特别适用于那些需要高度精确答案的应用场景。

ASPIRE实验结果:

1、准确率提升:在诸如CoQA、TriviaQA和SQuAD等问答(QA)数据集上,ASPIRE的实验结果显示,其性能显著优于现有方法。特别是在那些要求高度准确性的任务上,ASPIRE表现出色。例如,在 CoQA 基准上,与基线相比,ASPIRE 将 AUROC 从 51.3% 提高到 80.3%。

2、适用于不同规模的模型:即使是相对较小的语言模型(如OPT-2.7B),在经过ASPIRE调整之后,也能在某些情况下达到或超过更大模型的准确率。这意味着ASPIRE不仅提高了模型的总体性能,还增强了模型在处理特定任务时的灵活性和有效性。

3、自我评估的成功实施:ASPIRE通过引入自我评估机制,有效地提高了模型识别正确和错误答案的能力。这在实验中体现为更高的预测准确率和选择性回应能力。

应用案例:

使用OPT-2.7B模型来回答TriviaQA数据集中的问题,展示了如何通过选择性预测提高模型的准确性。

在这个示例中,OPT-2.7B模型在回答来自TriviaQA数据集的一个问题时给出了错误的答案。问题是:“哪种维生素有助于调节血液凝固?”而模型的答案是“维生素C”。如果没有选择性预测,大语言模型(LLM)可能会输出错误的答案,这在本例中可能导致用户摄取错误的维生素。

通常情况下,如果没有选择性预测功能,语言模型(比如OPT-2.7B)就会直接给出它认为最可能的答案,不管这个答案是否正确。在这个例子中,就是错误地告诉用户“维生素C有助于调节血液凝固”,这可能会误导用户。

但是,如果使用了选择性预测功能,情况就不一样了。选择性预测不仅会让模型给出一个答案,还会给这个答案一个“选择分数”,这个分数表示模型对自己的答案有多大的信心。如果这个分数很低(比如0.1),这意味着模型对自己的答案不太有信心。

在这种情况下,模型除了给出答案外,还会额外表示“我不知道!”这样的警告。这个警告的目的是告诉用户,模型对这个答案不够确定,用户最好不要完全依赖这个答案,可能需要通过其他来源来验证这个信息。

详细请参照:Introducing ASPIRE for selective prediction in LLMs – Google Research Blog

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注