百度开源 Qianfan-VL系列视觉模型

前沿情报 · 4 小时前

Qianfan-VL: 面向用户需求的多模态大模型系列 | 百度智能云千帆

https://baidubce.github.io/Qianfan-VL/

https://github.com/baidubce/Qianfan-VL/blob/main/README_CN.md

Qianfan-VL - a baidu Collection

https://huggingface.co/collections/baidu/qianfan-vl-68d0b9b0be8575c17267c85c

baidu/Qianfan-VL-70B · Hugging Face

https://huggingface.co/baidu/Qianfan-VL-70B

baidu/Qianfan-VL-8B · Hugging Face

https://huggingface.co/baidu/Qianfan-VL-8B

baidu/Qianfan-VL-3B · Hugging Face

https://huggingface.co/baidu/Qianfan-VL-3B

模型介绍

Qianfan-VL模型系列是在企业级应用多模态大模型的场景中进行强化的通用多模态大模型，具备基础的通用能力，同时在产业落地的高频场景有深度的优化。通过三大核心功能，精准满足不同场景下的多模态理解需求。

核心特性

多尺寸模型

提供3B、8B、70B三种规格的模型，满足从端侧到云端的不同场景需求

OCR与文档理解增强

全场景OCR识别：支持手写体、印刷体、场景文字、公式等多种文字识别
复杂版面理解：表格解析、图表理解、文档结构化等能力
多语言支持：中英文及多语言文档处理能力

思考推理能力

8B和70B模型支持思维链（Chain-of-Thought）能力，在数学、推理计算等复杂场景展现卓越表现，可应用于辅助教学、拍照解题、自动判题等场景

模型规格

模型名称	参数量	上下文长度	支持思考	适用场景	模型下载
Qianfan-VL-3B	3B	32k	✖	端上实时场景、OCR文字识别	https://huggingface.co/baidu/Qianfan-VL-3B
Qianfan-VL-8B	8B	32k	✔	服务端通用场景、微调优化场景	https://modelscope.cn/models/baidu-qianfan/Qianfan-VL-8B
Qianfan-VL-70B	70B	32k	✔	离线数据合成、复杂推理计算场景	https://modelscope.cn/models/baidu-qianfan/Qianfan-VL-70B

技术优势

多阶段领域增强持续预训练技术

采用创新的四阶段渐进式训练策略，从跨模态对齐到通用知识注入，再到领域增强知识注入和后训练对齐，在保持通用能力的同时显著提升领域专项能力。通过精心设计的数据配比和训练策略，实现了通用与专业能力的良好平衡。

高精度数据合成

构建了覆盖文档识别、数学解题、图表理解、表格识别、公式识别、自然场景OCR等核心任务的多任务数据合成管线。结合传统CV模型和程序化生成方法，通过精细化的管线设计和中间过程数据构造，实现了高质量训练数据的高效生产，显著提升了模型在长尾场景的泛化能力。

大规模昆仑芯集群并行训练

基于百度自研昆仑芯P800芯片，通过5000+卡的超大规模分布式训练系统完成全部模型规模的训练。采用3D并行训练策略和通信-计算融合技术，实现了90%+的集群扩展效率，3T tokens训练数据的高效处理，展示了国产AI基础设施的成熟能力。

性能指标

通用能力评测

注：加粗数值表示该指标在所有模型中排名前两位

基准测试	Qianfan-VL-3B	Qianfan-VL-8B	Qianfan-VL-70B	InternVL3-8B	InternVL3-78B	Qwen2.5-VL-7B	Qwen2.5-VL-72B
A-Bench_VAL	75.65	75.72	78.1	75.86	75.86	76.49	79.22
CCBench	66.86	70.39	80.98	77.84	70.78	57.65	73.73
SEEDBench_IMG	76.55	78.02	79.13	77.00	77.52	76.98	78.34
SEEDBench2_Plus	67.59	70.97	73.17	69.52	68.47	70.93	73.25
ScienceQA_TEST	95.19	97.62	98.76	97.97	97.17	85.47	92.51
ScienceQA_VAL	93.85	97.62	98.81	97.81	95.14	83.59	91.32
MMT-Bench_VAL	62.23	63.22	71.06	65.17	63.67	61.40	69.49
MTVQA_TEST	26.5	30.14	32.18	30.30	27.62	29.08	31.48
BLINK	49.97	56.81	59.44	55.87	51.87	54.55	63.02
MMStar	57.93	64.07	69.47	68.40	66.07	61.53	66.00
POPE	85.08	86.06	88.97	90.59	88.87	85.97	83.35
RefCOCO (Avg)	85.94	89.37	91.01	89.65	91.40	86.56	90.25

OCR与文档理解能力

基准测试	Qianfan-VL-3B	Qianfan-VL-8B	Qianfan-VL-70B	InternVL3-8B	InternVL3-78B	Qwen2.5-VL-3B	Qwen2.5-VL-7B	Qwen2.5-VL-72B
OCRBench	831	854	873	881	847	810	883	874
AI2D_TEST	81.38	85.07	87.73	85.07	83.55	77.07	80.472	83.84
OCRVQA_TEST	66.15	68.98	74.06	39.03	35.58	69.24	71.02	66.8
TextVQA_VAL	80.11	82.13	84.48	82.15	83.52	79.09	84.962	83.26
DocVQA_VAL	90.85	93.54	94.75	92.04	83.82	92.71	94.91	95.75
ChartQA_TEST	81.79	87.72	89.6	85.76	82.04	83.4	86.68	87.16

数学推理能力

基准测试	Qianfan-VL-8B	Qianfan-VL-70B	InternVL3-8B	InternVL3-78B	Qwen2.5-VL-7B	Qwen2.5-VL-72B
MathVista-mini	69.19	78.6	69.5	71.1	69.5	70.1
MathVision	32.82	50.29	21.48	33.48	29.61	34.8
MathVerse	48.4	61.04	30.96	43.32	43.68	49.26
ChartQA Pro	50.41	52	19.38	47.92	37.32	44.43
HallusionBench	51.72	54.52	49.7	40.5	49.2	40.2
InHouse Dataset A	59.87	71.78	26	43.40	40.64	41.47
InHouse Dataset B	61.33	75.6	26.81	39.7	36.25	42.65

暗甜鱼子 · 3 小时前

   baidubce.github.io




千帆VL：面向用户需求的多模态大模型系列 | 百度智能云千帆

  千帆VL系列：参数从3B到70B的多模态模型，聚焦于文档理解、OCR增强及推理能力

wyg0921 · 2 小时前

加粗代表前两名没绷住，一般来说不都是代表最好的吗

alexgis · 2 小时前

这位是谁呀？

huihys · 2 小时前

甚至都不敢和 InternVL3.5 比

大希山 · 1 小时前

是前几天说视频不审核那个吗？

		自动登录	找回密码
密码			立即注册

资讯百度开源 Qianfan-VL系列视觉模型