用Grok的Imagine功能,把一张看起来是用老手机拍的女孩喝咖啡的图片,做成了一个视频。
对比一下,Midjourney也有类似功能,但我用它的Animate功能做的版本就有些不同。Midjourney在艺术表现上确实很棒,但在有些地方它就有点费劲了。
我本来想让视频里的人物做五个动作:喝咖啡、放下杯子、表现惊讶、微笑,以及做个鬼脸。
Midjourney的版本很难实现这些。它老是出现奇怪的动作,所以我不得不把提示词简化,降低复杂性。我生成了大约20个片段,其中80%都不能用,剩下的也只能说是“还行”。
Grok Imagine就完全达到了我的要求。结果正好相反,大概90%的片段都很好(只有一个输出有点不自然),我可以很轻松地挑选。我想要的效果也更清晰地呈现出来了。
虽然Grok的纯图片输出效果还达不到Midjourney的水平(更像是个小花招,经常生成一些没意思的照片),但它的视频模式就完全是另一回事了。
它能更好地理解物理空间,知道物体的位置,而且视频里的人物似乎也对周围环境有感知,这在Midjourney里是完全没有的。