libobo 发表于 2025-6-23 15:52:38

深度求索用的什么视觉大模型,效果不错

虽然dp不是多模态大模型,但是网页版可以识别文件,而且意外的可以。不知道是不是先用了什么视觉模型转换,再给dp总结。
话说如果用于ocr校对修正,大一点的模型好还是小模型就行?

FineRIk 发表于 2025-6-23 15:52:57

https://linux.do/uploads/default/original/3X/3/3/3339b15ea7c025039809fab82a3b3e4d31f80b80.png?v=14 就是 OCR 貌似。然后无论任何情景,在速度不是大问题的情况下永远都是模型越大越好。

libobo 发表于 2025-6-23 15:53:09

FineRIk 发表于 2025-6-23 15:52
就是 OCR 貌似。然后无论任何情景,在速度不是大问题的情况下永远都是模型越大越好。 ...

不只是ocr识别文字,我给他照片他现在也能识别了

hslxwu 发表于 2025-6-23 15:53:26

是不是国内发票他专门针对训练了,所以场景比较好

1qaz 发表于 2025-6-23 15:54:33

libobo 发表于 2025-6-23 15:53
不只是ocr识别文字,我给他照片他现在也能识别了


xiaoling 发表于 2025-6-23 15:55:02

DS倒是有自己的VL
GitHub - deepseek-ai/DeepSeek-VL2: DeepSeek-VL2: Mixture-of-Experts Vision-Language...
而且已经第二代了,但我感觉没接入DeepSeek,那个图片感觉只是个OCR(三月份是这样的,也许这么多月过去更新了?接入VL2了?)

xiaohyy 发表于 2025-6-23 15:55:53

就是普通 OCR,但是听说很强这是评测结果,deepseek 用的 OCR 能位居前列

寻找机会 发表于 2025-6-23 15:56:01

Deepseek 有几个多模态模型(Janus,Deepseek-VL),还有定制的 OCR 专用模型

libobo 发表于 2025-6-23 15:56:21

1qaz 发表于 2025-6-23 15:54


搞什么,意思是他凭借一丢丢文字成功脑补出了场景?
究竟是幻觉还是脑补? 太准了吧 https://linux.do/images/emoji/twemoji/upside_down_face.png?v=14

听梦 发表于 2025-6-23 15:56:33

类似llamaindex的非结构化处理框架,yolo识别布局,ocr识别内容,多模态识别语义

1qaz 发表于 2025-6-23 15:56:52

libobo 发表于 2025-6-23 15:56
搞什么,意思是他凭借一丢丢文字成功脑补出了场景?
究竟是幻觉还是脑补? 太准了吧...

不,他是识别到你图片里的文字,补充到信息里面。我觉得他是识别到你里面的文字,提取到了关键信息
页: [1]
查看完整版本: 深度求索用的什么视觉大模型,效果不错