今天终于有时间玩玩Luma的Dream Machine了。
看官方宣传视频,感觉是可以出大片的那种,可能给我的期望值太高了,亲自试验了下,效果不能说差,但要达到官方那种视频质量,还是得调试一番prompt。
前几天稍微对比了一下用Sora的prompt测试一下市面上几款文生视频模型,整理了结果如下
看起来如果用纯文字生成视频,Luma还是能生成不错的效果的,个人主观认为不如可灵AI,但又比runwayml的Gen-2好一些。
除了以上对比,我还额外做了一些测试。例如这个prompt
a benz race car running along the coastline生成效果如下
https://www.zhihu.com/video/1785417176557166592Benz logo还是很清晰的,海岸线的风景也不错,不认真看的话还看不出是AI视频。不过唯一的缺陷是车牌的文字显示不稳定,其实刚开始还是很不错的,但后面两秒就开始有点闪烁了。不过目前的文生视频模型在生成清晰文字方面都确实有点不稳定,即使是Sora精选出来的东京女郎那个视频,后面的招牌文字也是看不清的。
再来一个prompt
Iron man and Ultraman are fighting in tokyo, drone view生成效果如下:
https://www.zhihu.com/video/1785414771752964096涉及激烈打斗时就有点混乱了。
不过Luma除了纯文字,还可以加入图片作为控制变量。亲自测试下来发现,Luma不适合操作人物的动作。
例如拿他们两个的合照作为模型输入的图片
Sam Altman和马斯克不是很不合吗?那试试让他们打起来。当文字输入为「they fight」时,生成效果如下
https://www.zhihu.com/video/1785413354623479808额,打得看不清就算了,怎么Sam Altman衣服突然就变了。你们还是和好吧。
于是我把文字输入换成「they kiss」
https://www.zhihu.com/video/1785413887606177792啊。。。。这。。。。
总得来说,用luma来操纵人物动作,不客气的说,还是基本上处于没法用状态。但生成场景和物品,还是有点样子的。