发帖
 找回密码
 立即注册
搜索
0 0 0
前沿情报 244 0 4 小时前

Qianfan-VL: 面向用户需求的多模态大模型系列 | 百度智能云千帆

https://baidubce.github.io/Qianfan-VL/

https://github.com/baidubce/Qianfan-VL/blob/main/README_CN.md


Qianfan-VL - a baidu Collection

https://huggingface.co/collections/baidu/qianfan-vl-68d0b9b0be8575c17267c85c


baidu/Qianfan-VL-70B · Hugging Face

https://huggingface.co/baidu/Qianfan-VL-70B


baidu/Qianfan-VL-8B · Hugging Face

https://huggingface.co/baidu/Qianfan-VL-8B


baidu/Qianfan-VL-3B · Hugging Face

https://huggingface.co/baidu/Qianfan-VL-3B


模型介绍

Qianfan-VL模型系列是在企业级应用多模态大模型的场景中进行强化的通用多模态大模型,具备基础的通用能力,同时在产业落地的高频场景有深度的优化。通过三大核心功能,精准满足不同场景下的多模态理解需求。

核心特性

多尺寸模型

提供3B、8B、70B三种规格的模型,满足从端侧到云端的不同场景需求

OCR与文档理解增强

  • 全场景OCR识别:支持手写体、印刷体、场景文字、公式等多种文字识别
  • 复杂版面理解:表格解析、图表理解、文档结构化等能力
  • 多语言支持:中英文及多语言文档处理能力

思考推理能力

8B和70B模型支持思维链(Chain-of-Thought)能力,在数学、推理计算等复杂场景展现卓越表现,可应用于辅助教学、拍照解题、自动判题等场景

模型规格

模型名称 参数量 上下文长度 支持思考 适用场景 模型下载
Qianfan-VL-3B 3B 32k 端上实时场景、OCR文字识别 https://huggingface.co/baidu/Qianfan-VL-3B
Qianfan-VL-8B 8B 32k 服务端通用场景、微调优化场景 https://modelscope.cn/models/baidu-qianfan/Qianfan-VL-8B
Qianfan-VL-70B 70B 32k 离线数据合成、复杂推理计算场景 https://modelscope.cn/models/baidu-qianfan/Qianfan-VL-70B

技术优势

多阶段领域增强持续预训练技术

采用创新的四阶段渐进式训练策略,从跨模态对齐到通用知识注入,再到领域增强知识注入和后训练对齐,在保持通用能力的同时显著提升领域专项能力。通过精心设计的数据配比和训练策略,实现了通用与专业能力的良好平衡。

高精度数据合成

构建了覆盖文档识别、数学解题、图表理解、表格识别、公式识别、自然场景OCR等核心任务的多任务数据合成管线。结合传统CV模型和程序化生成方法,通过精细化的管线设计和中间过程数据构造,实现了高质量训练数据的高效生产,显著提升了模型在长尾场景的泛化能力。

大规模昆仑芯集群并行训练

基于百度自研昆仑芯P800芯片,通过5000+卡的超大规模分布式训练系统完成全部模型规模的训练。采用3D并行训练策略和通信-计算融合技术,实现了90%+的集群扩展效率,3T tokens训练数据的高效处理,展示了国产AI基础设施的成熟能力。

性能指标

通用能力评测

注:加粗数值表示该指标在所有模型中排名前两位

基准测试 Qianfan-VL-3B Qianfan-VL-8B Qianfan-VL-70B InternVL3-8B InternVL3-78B Qwen2.5-VL-7B Qwen2.5-VL-72B
A-Bench_VAL 75.65 75.72 78.1 75.86 75.86 76.49 79.22
CCBench 66.86 70.39 80.98 77.84 70.78 57.65 73.73
SEEDBench_IMG 76.55 78.02 79.13 77.00 77.52 76.98 78.34
SEEDBench2_Plus 67.59 70.97 73.17 69.52 68.47 70.93 73.25
ScienceQA_TEST 95.19 97.62 98.76 97.97 97.17 85.47 92.51
ScienceQA_VAL 93.85 97.62 98.81 97.81 95.14 83.59 91.32
MMT-Bench_VAL 62.23 63.22 71.06 65.17 63.67 61.40 69.49
MTVQA_TEST 26.5 30.14 32.18 30.30 27.62 29.08 31.48
BLINK 49.97 56.81 59.44 55.87 51.87 54.55 63.02
MMStar 57.93 64.07 69.47 68.40 66.07 61.53 66.00
POPE 85.08 86.06 88.97 90.59 88.87 85.97 83.35
RefCOCO (Avg) 85.94 89.37 91.01 89.65 91.40 86.56 90.25

OCR与文档理解能力

基准测试 Qianfan-VL-3B Qianfan-VL-8B Qianfan-VL-70B InternVL3-8B InternVL3-78B Qwen2.5-VL-3B Qwen2.5-VL-7B Qwen2.5-VL-72B
OCRBench 831 854 873 881 847 810 883 874
AI2D_TEST 81.38 85.07 87.73 85.07 83.55 77.07 80.472 83.84
OCRVQA_TEST 66.15 68.98 74.06 39.03 35.58 69.24 71.02 66.8
TextVQA_VAL 80.11 82.13 84.48 82.15 83.52 79.09 84.962 83.26
DocVQA_VAL 90.85 93.54 94.75 92.04 83.82 92.71 94.91 95.75
ChartQA_TEST 81.79 87.72 89.6 85.76 82.04 83.4 86.68 87.16

数学推理能力

基准测试 Qianfan-VL-8B Qianfan-VL-70B InternVL3-8B InternVL3-78B Qwen2.5-VL-7B Qwen2.5-VL-72B
MathVista-mini 69.19 78.6 69.5 71.1 69.5 70.1
MathVision 32.82 50.29 21.48 33.48 29.61 34.8
MathVerse 48.4 61.04 30.96 43.32 43.68 49.26
ChartQA Pro 50.41 52 19.38 47.92 37.32 44.43
HallusionBench 51.72 54.52 49.7 40.5 49.2 40.2
InHouse Dataset A 59.87 71.78 26 43.40 40.64 41.47
InHouse Dataset B 61.33 75.6 26.81 39.7 36.25 42.65
──── 0人觉得很赞 ────

使用道具 举报

  

      baidubce.github.io
  

  
   

千帆VL:面向用户需求的多模态大模型系列 | 百度智能云千帆

  千帆VL系列:参数从3B到70B的多模态模型,聚焦于文档理解、OCR增强及推理能力
加粗代表前两名没绷住,一般来说不都是代表最好的吗
这位是谁呀?
甚至都不敢和 InternVL3.5 比
是前几天说视频不审核那个吗?
您需要登录后才可以回帖 立即登录
高级模式