将 LLMs 精调至 1.58 比特:使极端量化变简单
中文翻译: Zipxuan 本文也提供英文版本 English。 随着大语言模型(LLMs […]
将 LLMs 精调至 1.58 比特:使极端量化变简单 Read More »
开源LLM
中文翻译: Zipxuan 本文也提供英文版本 English。 随着大语言模型(LLMs […]
将 LLMs 精调至 1.58 比特:使极端量化变简单 Read More »
这里测试的是开源模型是 meta-llama/Llama-3.1-405B-Instruct,属于开源模型里面
使用GPU内存和CPU内存装载大模型 Read More »
一、描述: 使用 AutoModelForCausalLM 来实现从两个教师模型(teacher1 和 tea
将两个教师模型的知识蒸馏到一个学生模型中 Read More »
多GPU情况下,模型加载成功了,但是做推理的时候,还会使用GPU,导致GPU 不够,如何处理,卸载部分到CPU
多GPU情况下,如何处理GPU内存不够 Read More »
这是 Llama 3.2 3B Instruct 的未经审查版本,使用删减创建(请参阅本文以了解更多信息)。
Llama 3.2 3B Instruct 的未经审查版本 Read More »
这是 Llama 3.1 8B Instruct 的未经审查版本,使用删减创建(请参阅本文以了解更多信息)。
Llama 3.1 8B Instruct 的未经审查版本 Read More »