了解 Qwen-VL 模型

Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型性能强大,具备多语言对话、多图交错对话等能力,并支持中文开放域定位和细粒度图像识别与理解。

目前,提供了Qwen-VL和Qwen-VL-Chat两个模型,分别为预训练模型和Chat模型。如果想了解更多关于模型的信息,请点击链接查看我们的技术备忘录。

需要执行如下的命令:

1. 单卡加载 Qwen-VL

运行结果:

代码中的图片

击掌图片:

2. 多卡加载 Qwen-VL

运行结果如下:

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部