今天終於有時間玩玩Luma的Dream Machine了。
看官方宣傳影片,感覺是可以出大片的那種,可能給我的期望值太高了,親自試驗了下,效果不能說差,但要達到官方那種影片質素,還是得偵錯一番prompt。
前幾天稍微對比了一下用Sora的prompt測試一下市面上幾款文生影片模型,整理了結果如下
看起來如果用純文字生成影片,Luma還是能生成不錯的效果的,個人主觀認為不如可靈AI,但又比runwayml的Gen-2好一些。
除了以上對比,我還額外做了一些測試。例如這個prompt
a benz race car running along the coastline生成效果如下
https://www.zhihu.com/video/1785417176557166592Benz logo還是很清晰的,海岸線的風景也不錯,不認真看的話還看不出是AI影片。不過唯一的缺陷是車牌的文字顯示不穩定,其實剛開始還是很不錯的,但後面兩秒就開始有點閃爍了。不過目前的文生影片模型在生成清晰文字方面都確實有點不穩定,即使是Sora精選出來的東京女郎那個影片,後面的招牌文字也是看不清的。
再來一個prompt
Iron man and Ultraman are fighting in tokyo, drone view生成效果如下:
https://www.zhihu.com/video/1785414771752964096涉及激烈打鬥時就有點混亂了。
不過Luma除了純文字,還可以加入圖片作為控制變量。親自測試下來發現,Luma不適合操作人物的動作。
例如拿他們兩個的合照作為模型輸入的圖片
Sam Altman和馬斯克不是很不合嗎?那試試讓他們打起來。當文字輸入為「they fight」時,生成效果如下
https://www.zhihu.com/video/1785413354623479808額,打得看不清就算了,怎麽Sam Altman衣服突然就變了。你們還是和好吧。
於是我把文字輸入換成「they kiss」
https://www.zhihu.com/video/1785413887606177792啊。。。。這。。。。
總得來說,用luma來操縱人物動作,不客氣的說,還是基本上處於沒法用狀態。但生成場景和物品,還是有點樣子的。