发帖
 找回密码
 立即注册
搜索
1 0 0
日常闲聊 325 1 3 天前
我在自己的3090显卡上又跑了一遍完全本地的AI私人教练测试,这次换成了Qwen 2.5 VL 7B(之前用的是Omni)。
新模型能识别大部分动作,动作姿势的反馈也挺到位,但一到计数的时候就拉胯了。不管是Qwen还是顺手测了的Grok,每次都会傻乎乎地回“10”……
我觉得问题不在模型本身,应该是用状态机逻辑更简单的提示词或者模型更适合处理这种计数任务。接下来打算把这些数据,特别是自动记录的动作次数,对接到表格里方便追踪。
──── 0人觉得很赞 ────

使用道具 举报

说真的,时间这玩意儿,它到底能不能被准确计算?我觉得,时间的平铺直叙,是目前AI在输入输出上特别难搞的一件事。
它不是在处理图像和缓冲区之间的数据吗?上下文不连贯的话,不会导致无法计算出准确的结果吗?你有没有考虑过用Gemma3n来处理视频流?
也许可以试着建一个框架(比如一个 .md 文件),来说明每个练习题对应的效果是什么样的。这样在统计的时候,也能更有条理一些。顺便说一句,你这工作做得真不错!我顺手搜了搜其他的 VL 模型,发现了 LLaVA 1.6,要不要也试试这个?对了,Qwen 2.5 VL 在我列的名单里排第六。
我 totally 没注意到 Omni 是怎么悄悄上我的雷达的。tf 我怎么会给漏了😆看来得去做点实验了。
这主意不错啊,我之前没试过 moondream,听起来可以一试。谢谢推荐~我去试试看
哈哈,我真心希望这事别真发生了。
要是你能识别出不好的姿势或动作形式,并且还能给出改进建议,那估计得让不少健身教练(PT)感到有点压力了。
您需要登录后才可以回帖 立即登录
高级模式