深度求索用的什么视觉大模型,效果不错
虽然dp不是多模态大模型,但是网页版可以识别文件,而且意外的可以。不知道是不是先用了什么视觉模型转换,再给dp总结。话说如果用于ocr校对修正,大一点的模型好还是小模型就行?
https://linux.do/uploads/default/original/3X/3/3/3339b15ea7c025039809fab82a3b3e4d31f80b80.png?v=14 就是 OCR 貌似。然后无论任何情景,在速度不是大问题的情况下永远都是模型越大越好。 FineRIk 发表于 2025-6-23 15:52
就是 OCR 貌似。然后无论任何情景,在速度不是大问题的情况下永远都是模型越大越好。 ...
不只是ocr识别文字,我给他照片他现在也能识别了 是不是国内发票他专门针对训练了,所以场景比较好 libobo 发表于 2025-6-23 15:53
不只是ocr识别文字,我给他照片他现在也能识别了
DS倒是有自己的VL
GitHub - deepseek-ai/DeepSeek-VL2: DeepSeek-VL2: Mixture-of-Experts Vision-Language...
而且已经第二代了,但我感觉没接入DeepSeek,那个图片感觉只是个OCR(三月份是这样的,也许这么多月过去更新了?接入VL2了?)
就是普通 OCR,但是听说很强这是评测结果,deepseek 用的 OCR 能位居前列
Deepseek 有几个多模态模型(Janus,Deepseek-VL),还有定制的 OCR 专用模型 1qaz 发表于 2025-6-23 15:54
搞什么,意思是他凭借一丢丢文字成功脑补出了场景?
究竟是幻觉还是脑补? 太准了吧 https://linux.do/images/emoji/twemoji/upside_down_face.png?v=14 类似llamaindex的非结构化处理框架,yolo识别布局,ocr识别内容,多模态识别语义 libobo 发表于 2025-6-23 15:56
搞什么,意思是他凭借一丢丢文字成功脑补出了场景?
究竟是幻觉还是脑补? 太准了吧...
不,他是识别到你图片里的文字,补充到信息里面。我觉得他是识别到你里面的文字,提取到了关键信息
页:
[1]