改善大语言模型在做出预测时的准确性和可靠性

Google研究团队开发了一个名为ASPIRE的新技术，它可以改善大语言模型在做出预测时的准确性和可靠性。

ASPIRE主要特点：

让AI模型先回答问题，然后再自己检查答案是否正确。
通过这种自我评估，模型能更准确地区分正确和错误的答案并给出信心分数。
无论模型大小，它都能帮助提高准确性。

简单来说，ASPIRE帮助这些AI模型更好地判断它们的答案是否正确，并且只在比较有把握的时候给出预测。

在ASPIRE的帮助下，模型不仅能给出答案，还能同时提供一个与答案配对的信心分数，即模型对自己答案的自信程度。

通过提供信心分数，模型能够表达自己对于答案的不确定性。这种透明度对于用户来说是非常有价值的，尤其是在涉及重要决策的情况下。例如，如果模型对一个医疗相关的问题给出了低信心分数的答案，用户就会知道需要谨慎对待这个答案，并寻求专业人士的意见。

工作原理：

两阶段指令调整：用于增强LLM在执行零样本会话式QA任务时的性能。

在第一阶段，LLM接受通用的预训练，这使得它具备处理各种类型的文本和问题的基本能力。

第二阶段是专门的微调阶段，其中模型针对特定类型的问答任务进行训练，如会话式问答。这使得模型能够更好地理解和回答连续的、上下文相关的问题。

检索增强生成（RAG）：用于优化密集检索器，减少部署成本。

RAG是一种结合了信息检索和生成模型的技术。它首先使用一个密集的检索器（例如搜索引擎）从大量数据中检索与问题相关的信息。

然后，模型使用这些检索到的信息来生成更精确、相关的答案。

RAG的优势在于它可以减少对大规模训练数据的依赖，同时降低部署模型的成本。

ASPIRE的工作机制：

ASPIRE的工作原理主要基于以下几个关键步骤，这些步骤共同帮助提高大型语言模型（LLM）在选择性预测任务中的性能：

1、任务特定调整：对模型进行微调，以适应特定的任务，例如问答。这意味着模型被训练得更好地理解和回应特定类型的查询。

2、答案抽样：在回答问题时，模型不仅生成单一的答案，而是产生多个可能的答案选项。这样做可以覆盖更多可能性，提高找到正确答案的机会。

3、自我评估学习：模型通过分析自己生成的答案集合，学习如何区分哪些答案更可能是正确的。这种自我评估能力使模型能够判断其回答的可靠性。

4、性能评估与选择性回应：当面对实际问题时，模型利用其自我评估能力来判断是否有足够的信心回答。模型使用内置的评估机制来评估它生成的答案的可信度。这时，模型会生成一个信心分数，表明它对自己的答案有多确信。如果模型对答案不够确定，它可能选择不提供答案，以避免给出错误信息。

5、持续优化：ASPIRE框架允许模型不断从新数据和用户互动中学习，进一步优化其预测准确性和自我评估能力。

综上所述，ASPIRE通过结合专门的微调、答案生成、自我评估和性能优化，使得大语言模型在处理复杂和高风险的决策任务时更加可靠和准确。这种方法特别适用于那些需要高度精确答案的应用场景。

ASPIRE实验结果：

1、准确率提升：在诸如CoQA、TriviaQA和SQuAD等问答（QA）数据集上，ASPIRE的实验结果显示，其性能显著优于现有方法。特别是在那些要求高度准确性的任务上，ASPIRE表现出色。例如，在 CoQA 基准上，与基线相比，ASPIRE 将 AUROC 从 51.3% 提高到 80.3%。

2、适用于不同规模的模型：即使是相对较小的语言模型（如OPT-2.7B），在经过ASPIRE调整之后，也能在某些情况下达到或超过更大模型的准确率。这意味着ASPIRE不仅提高了模型的总体性能，还增强了模型在处理特定任务时的灵活性和有效性。

3、自我评估的成功实施：ASPIRE通过引入自我评估机制，有效地提高了模型识别正确和错误答案的能力。这在实验中体现为更高的预测准确率和选择性回应能力。

应用案例：

使用OPT-2.7B模型来回答TriviaQA数据集中的问题，展示了如何通过选择性预测提高模型的准确性。

在这个示例中，OPT-2.7B模型在回答来自TriviaQA数据集的一个问题时给出了错误的答案。问题是：“哪种维生素有助于调节血液凝固？”而模型的答案是“维生素C”。如果没有选择性预测，大语言模型（LLM）可能会输出错误的答案，这在本例中可能导致用户摄取错误的维生素。

通常情况下，如果没有选择性预测功能，语言模型（比如OPT-2.7B）就会直接给出它认为最可能的答案，不管这个答案是否正确。在这个例子中，就是错误地告诉用户“维生素C有助于调节血液凝固”，这可能会误导用户。

但是，如果使用了选择性预测功能，情况就不一样了。选择性预测不仅会让模型给出一个答案，还会给这个答案一个“选择分数”，这个分数表示模型对自己的答案有多大的信心。如果这个分数很低（比如0.1），这意味着模型对自己的答案不太有信心。

在这种情况下，模型除了给出答案外，还会额外表示“我不知道！”这样的警告。这个警告的目的是告诉用户，模型对这个答案不够确定，用户最好不要完全依赖这个答案，可能需要通过其他来源来验证这个信息。

详细请参照：Introducing ASPIRE for selective prediction in LLMs – Google Research Blog

相关文章

发表评论 取消回复

发表评论取消回复