深度求索用的什么视觉大模型，效果不错

日常闲聊 · 2025-6-23 15:52:38

虽然dp不是多模态大模型，但是网页版可以识别文件，而且意外的可以。不知道是不是先用了什么视觉模型转换，再给dp总结。

话说如果用于ocr校对修正，大一点的模型好还是小模型就行？

FineRIk · 2025-6-23 15:52:57

就是 OCR 貌似。然后无论任何情景，在速度不是大问题的情况下永远都是模型越大越好。

libobo · 2025-6-23 15:53:09

FineRIk 发表于 2025-6-23 15:52
就是 OCR 貌似。然后无论任何情景，在速度不是大问题的情况下永远都是模型越大越好。 ...

不只是ocr识别文字，我给他照片他现在也能识别了

hslxwu · 2025-6-23 15:53:26

是不是国内发票他专门针对训练了，所以场景比较好

1qaz · 2025-6-23 15:54:33

libobo 发表于 2025-6-23 15:53
不只是ocr识别文字，我给他照片他现在也能识别了

xiaoling · 2025-6-23 15:55:02

DS倒是有自己的VL

GitHub - deepseek-ai/DeepSeek-VL2: DeepSeek-VL2: Mixture-of-Experts Vision-Language...
而且已经第二代了，但我感觉没接入DeepSeek，那个图片感觉只是个OCR（三月份是这样的，也许这么多月过去更新了？接入VL2了？）

xiaohyy · 2025-6-23 15:55:53

就是普通 OCR，但是听说很强

这是评测结果，deepseek 用的 OCR 能位居前列

寻找机会 · 2025-6-23 15:56:01

Deepseek 有几个多模态模型（Janus，Deepseek-VL），还有定制的 OCR 专用模型

libobo · 2025-6-23 15:56:21

1qaz 发表于 2025-6-23 15:54

搞什么，意思是他凭借一丢丢文字成功脑补出了场景？
究竟是幻觉还是脑补？太准了吧

听梦 · 2025-6-23 15:56:33

类似llamaindex的非结构化处理框架，yolo识别布局，ocr识别内容，多模态识别语义

1qaz · 2025-6-23 15:56:52

libobo 发表于 2025-6-23 15:56
搞什么，意思是他凭借一丢丢文字成功脑补出了场景？
究竟是幻觉还是脑补？太准了吧 ...

不，他是识别到你图片里的文字，补充到信息里面。我觉得他是识别到你里面的文字，提取到了关键信息

wryip · 2025-7-24 17:30:02

大小模型得测试下

twinsbbs · 2025-7-25 17:00:02

不太懂模型咋选呢

ouyang2008 · 2025-7-28 08:00:02

大小模型得实测呀

attribt · 2025-9-10 20:30:03

大小模型得实测呀

		自动登录	找回密码
密码			立即注册

交流深度求索用的什么视觉大模型，效果不错

14 回复

点评

点评

点评

点评