深度求索用的什么视觉大模型，效果不错_日常闲聊_BigSeek AI社区

libobo 发表于 2025-6-23 15:52:38

深度求索用的什么视觉大模型，效果不错

虽然dp不是多模态大模型，但是网页版可以识别文件，而且意外的可以。不知道是不是先用了什么视觉模型转换，再给dp总结。
话说如果用于ocr校对修正，大一点的模型好还是小模型就行？

FineRIk 发表于 2025-6-23 15:52:57

https://linux.do/uploads/default/original/3X/3/3/3339b15ea7c025039809fab82a3b3e4d31f80b80.png?v=14 就是 OCR 貌似。然后无论任何情景，在速度不是大问题的情况下永远都是模型越大越好。

libobo 发表于 2025-6-23 15:53:09

FineRIk 发表于 2025-6-23 15:52
就是 OCR 貌似。然后无论任何情景，在速度不是大问题的情况下永远都是模型越大越好。 ...

不只是ocr识别文字，我给他照片他现在也能识别了

hslxwu 发表于 2025-6-23 15:53:26

是不是国内发票他专门针对训练了，所以场景比较好

1qaz 发表于 2025-6-23 15:54:33

libobo 发表于 2025-6-23 15:53
不只是ocr识别文字，我给他照片他现在也能识别了

xiaoling 发表于 2025-6-23 15:55:02

DS倒是有自己的VL
GitHub - deepseek-ai/DeepSeek-VL2: DeepSeek-VL2: Mixture-of-Experts Vision-Language...
而且已经第二代了，但我感觉没接入DeepSeek，那个图片感觉只是个OCR（三月份是这样的，也许这么多月过去更新了？接入VL2了？）

xiaohyy 发表于 2025-6-23 15:55:53

就是普通 OCR，但是听说很强这是评测结果，deepseek 用的 OCR 能位居前列

寻找机会 发表于 2025-6-23 15:56:01

Deepseek 有几个多模态模型（Janus，Deepseek-VL），还有定制的 OCR 专用模型

libobo 发表于 2025-6-23 15:56:21

1qaz 发表于 2025-6-23 15:54

搞什么，意思是他凭借一丢丢文字成功脑补出了场景？
究竟是幻觉还是脑补？太准了吧 https://linux.do/images/emoji/twemoji/upside_down_face.png?v=14

听梦发表于 2025-6-23 15:56:33

类似llamaindex的非结构化处理框架，yolo识别布局，ocr识别内容，多模态识别语义

1qaz 发表于 2025-6-23 15:56:52

libobo 发表于 2025-6-23 15:56
搞什么，意思是他凭借一丢丢文字成功脑补出了场景？
究竟是幻觉还是脑补？太准了吧...

不，他是识别到你图片里的文字，补充到信息里面。我觉得他是识别到你里面的文字，提取到了关键信息

页: [1]

BigSeek_AI社区_AI论坛's Archiver

深度求索用的什么视觉大模型，效果不错