发帖
 找回密码
 立即注册
搜索
10 4 0
日常闲聊 69 10 昨天 15:52
虽然dp不是多模态大模型,但是网页版可以识别文件,而且意外的可以。不知道是不是先用了什么视觉模型转换,再给dp总结。

话说如果用于ocr校对修正,大一点的模型好还是小模型就行?


──── 4人觉得很赞 ────

使用道具 举报

就是 OCR 貌似。然后无论任何情景,在速度不是大问题的情况下永远都是模型越大越好。
libobo
昨天 15:53
不只是ocr识别文字,我给他照片他现在也能识别了  详情 回复
昨天 15:53
FineRIk 发表于 2025-6-23 15:52
就是 OCR 貌似。然后无论任何情景,在速度不是大问题的情况下永远都是模型越大越好。 ...

不只是ocr识别文字,我给他照片他现在也能识别了
1qaz
昨天 15:54
[attachimg]1221[/attachimg][attachimg]1220[/attachimg]  详情 回复
是不是国内发票他专门针对训练了,所以场景比较好
昨天 15:54
libobo 发表于 2025-6-23 15:53
不只是ocr识别文字,我给他照片他现在也能识别了

4923820cc8cf648b77e8553fee50fb5ca53aa636.webp e7371ea27d2caaee788b99adb321faf7f2b30133.jpeg
libobo
昨天 15:56
搞什么,意思是他凭借一丢丢文字成功脑补出了场景? 究竟是幻觉还是脑补? 太准了吧  详情 回复
DS倒是有自己的VL

GitHub - deepseek-ai/DeepSeek-VL2: DeepSeek-VL2: Mixture-of-Experts Vision-Language...
而且已经第二代了,但我感觉没接入DeepSeek,那个图片感觉只是个OCR(三月份是这样的,也许这么多月过去更新了?接入VL2了?)
就是普通 OCR,但是听说很强 15362f6b5478df432d2696dc988107ad5b54a0b0.webp 这是评测结果,deepseek 用的 OCR 能位居前列

Deepseek 有几个多模态模型(Janus,Deepseek-VL),还有定制的 OCR 专用模型
昨天 15:56

搞什么,意思是他凭借一丢丢文字成功脑补出了场景?
究竟是幻觉还是脑补? 太准了吧
1qaz
昨天 15:56
不,他是识别到你图片里的文字,补充到信息里面。我觉得他是识别到你里面的文字,提取到了关键信息  详情 回复
类似llamaindex的非结构化处理框架,yolo识别布局,ocr识别内容,多模态识别语义
昨天 15:56
libobo 发表于 2025-6-23 15:56
搞什么,意思是他凭借一丢丢文字成功脑补出了场景?
究竟是幻觉还是脑补? 太准了吧  ...

不,他是识别到你图片里的文字,补充到信息里面。我觉得他是识别到你里面的文字,提取到了关键信息
您需要登录后才可以回帖 立即登录
高级模式