
Luma Labs 是一家專注于 3D 內(nèi)容生成技術(shù)的公司。其推出的 Luma AI 引發(fā)了廣泛關(guān)注。
Luma AI 成立于 2021 年 9 月,位于美國(guó)加州。該公司的核心技術(shù)是 NeRF(Neural Radiance Fields),這是一種三維重建技術(shù),可通過少量照片生成、著色和渲染逼真的 3D 模型。
Luma AI 推出的 Dream Machine 是一款強(qiáng)大的視頻生成模型。它能夠在 120 秒內(nèi)生成 120 幀的高質(zhì)量視頻,單個(gè)視頻最長(zhǎng)為 5 秒。生成的視頻具有逼真的流暢運(yùn)動(dòng)、電影攝影和戲劇效果,還能理解物理交互,確保生成的視頻角色和場(chǎng)景具有一致性和物理準(zhǔn)確性。
Dream Machine 支持文生視頻和圖生視頻。用戶每月有 30 次免費(fèi)生成的額度,目前免費(fèi)版每月可生成 30 個(gè),30 美元套餐一共 180 個(gè)。它可以在官網(wǎng) https://lumalabs.ai/ 直接體驗(yàn),用戶登錄后,通過輸入關(guān)鍵詞或上傳圖片并添加提示詞即可生成視頻。
Luma AI 的出現(xiàn)引發(fā)了 AI 視頻生成領(lǐng)域的熱潮,其效果獲得了很多網(wǎng)友的好評(píng)。但模型也存在一些問題,比如切換視角時(shí)汽車會(huì)變形,狗的運(yùn)動(dòng)沒有用到爪子,顯示文字會(huì)有問題等,不過官方表示會(huì)繼續(xù)優(yōu)化。此外,Luma AI 還推出了關(guān)鍵幀功能,讓用戶可以上傳起始圖片和結(jié)束圖片,并通過文字描述生成中間的過渡動(dòng)畫和特效。
Luma AI 的核心技術(shù) NeRF 詳解
NeRF(神經(jīng)輻射場(chǎng))是 Luma AI 的核心技術(shù)之一。它是一種三維重建技術(shù)方案,能夠基于現(xiàn)有視角的圖像生成新視角的圖像。簡(jiǎn)單來說,通過拍攝大量圖片或視頻,NeRF 可以將其轉(zhuǎn)化為一個(gè)可微分的三維場(chǎng)景。
NeRF 的工作原理包括輸入多視角的 2D 圖像和相應(yīng)的相機(jī)參數(shù),如位置、方向等。其網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)多層感知器(MLP),用于從輸入的空間坐標(biāo)和視角方向預(yù)測(cè)顏色和密度。在體渲染過程中,使用體渲染技術(shù),將神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的密度和顏色組合成最終的圖像。
與傳統(tǒng)的攝影測(cè)量方案相比,NeRF 的優(yōu)勢(shì)在于可以用更少量的數(shù)據(jù)生成三維模型。這意味著用戶只需用一臺(tái)手機(jī),就可以短時(shí)間、低成本地生成所需的 3D 模型。
例如,在建筑設(shè)計(jì)領(lǐng)域,設(shè)計(jì)師可以通過拍攝建筑物的不同角度照片,利用 NeRF 技術(shù)快速生成逼真的三維模型,以便更好地展示和分析設(shè)計(jì)效果。
NeRF 的工作原理包括輸入多視角的 2D 圖像和相應(yīng)的相機(jī)參數(shù),如位置、方向等。其網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)多層感知器(MLP),用于從輸入的空間坐標(biāo)和視角方向預(yù)測(cè)顏色和密度。在體渲染過程中,使用體渲染技術(shù),將神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的密度和顏色組合成最終的圖像。
與傳統(tǒng)的攝影測(cè)量方案相比,NeRF 的優(yōu)勢(shì)在于可以用更少量的數(shù)據(jù)生成三維模型。這意味著用戶只需用一臺(tái)手機(jī),就可以短時(shí)間、低成本地生成所需的 3D 模型。
例如,在建筑設(shè)計(jì)領(lǐng)域,設(shè)計(jì)師可以通過拍攝建筑物的不同角度照片,利用 NeRF 技術(shù)快速生成逼真的三維模型,以便更好地展示和分析設(shè)計(jì)效果。
Luma AI 視頻生成模型 Dream Machine 的優(yōu)勢(shì)
Luma AI 視頻生成模型 Dream Machine 具有眾多顯著優(yōu)勢(shì)。
首先,它能夠在 120 秒內(nèi)生成 120 幀的高質(zhì)量視頻,這種高效率大大縮短了視頻創(chuàng)作的時(shí)間,為創(chuàng)作者提供了極大的便利。
其次,Dream Machine 生成的視頻具有逼真的流暢運(yùn)動(dòng)、電影級(jí)別的攝影和戲劇效果,能夠匹配攝像機(jī)運(yùn)動(dòng),創(chuàng)造出令人驚艷的畫面。在處理包含人物的場(chǎng)景時(shí),其動(dòng)態(tài)效果明顯,人物動(dòng)作流暢自然,甚至還能自動(dòng)補(bǔ)上一些新的畫面。
此外,Dream Machine 對(duì)物理和人物運(yùn)動(dòng)有深入的理解,例如在處理圖像時(shí),能保持較高的圖像質(zhì)量,包括人物形象的穩(wěn)定一致,不會(huì)出現(xiàn)嚴(yán)重的扭曲模糊,有效提升了視頻創(chuàng)作的質(zhì)量和效率。
而且,Dream Machine 不僅可以通過文本生成視頻,還支持利用圖片作為引導(dǎo)來生成視頻內(nèi)容,具有多模態(tài)輸入的特點(diǎn)。
比如,在廣告制作中,利用 Dream Machine 可以快速生成吸引人的廣告視頻,提高品牌宣傳效果;在故事創(chuàng)作中,能將靜態(tài)圖像和文本轉(zhuǎn)化為動(dòng)態(tài)故事情節(jié),為創(chuàng)作者提供更多靈感。
首先,它能夠在 120 秒內(nèi)生成 120 幀的高質(zhì)量視頻,這種高效率大大縮短了視頻創(chuàng)作的時(shí)間,為創(chuàng)作者提供了極大的便利。
其次,Dream Machine 生成的視頻具有逼真的流暢運(yùn)動(dòng)、電影級(jí)別的攝影和戲劇效果,能夠匹配攝像機(jī)運(yùn)動(dòng),創(chuàng)造出令人驚艷的畫面。在處理包含人物的場(chǎng)景時(shí),其動(dòng)態(tài)效果明顯,人物動(dòng)作流暢自然,甚至還能自動(dòng)補(bǔ)上一些新的畫面。
此外,Dream Machine 對(duì)物理和人物運(yùn)動(dòng)有深入的理解,例如在處理圖像時(shí),能保持較高的圖像質(zhì)量,包括人物形象的穩(wěn)定一致,不會(huì)出現(xiàn)嚴(yán)重的扭曲模糊,有效提升了視頻創(chuàng)作的質(zhì)量和效率。
而且,Dream Machine 不僅可以通過文本生成視頻,還支持利用圖片作為引導(dǎo)來生成視頻內(nèi)容,具有多模態(tài)輸入的特點(diǎn)。
比如,在廣告制作中,利用 Dream Machine 可以快速生成吸引人的廣告視頻,提高品牌宣傳效果;在故事創(chuàng)作中,能將靜態(tài)圖像和文本轉(zhuǎn)化為動(dòng)態(tài)故事情節(jié),為創(chuàng)作者提供更多靈感。
Luma AI 模型存在的問題及優(yōu)化措施
Luma AI 模型在發(fā)展過程中存在一些問題。例如,在視角轉(zhuǎn)換時(shí),汽車可能會(huì)出現(xiàn)變形;狗的運(yùn)動(dòng)沒有正確地使用爪子;顯示文字時(shí)可能會(huì)發(fā)生錯(cuò)誤,如將“Luma”錯(cuò)誤顯示為“Lumma”;甚至在某些情況下,北極熊轉(zhuǎn)身時(shí)會(huì)出現(xiàn)兩個(gè)頭的奇異現(xiàn)象等。
針對(duì)這些問題,Luma AI 表示已經(jīng)認(rèn)識(shí)到,并正在積極采取優(yōu)化措施。他們持續(xù)優(yōu)化模型,以提供更加穩(wěn)定和高質(zhì)量的視頻生成服務(wù)。通過不斷改進(jìn)算法、增加訓(xùn)練數(shù)據(jù)、優(yōu)化模型架構(gòu)等方式,致力于提升模型的準(zhǔn)確性和穩(wěn)定性,為用戶帶來更好的體驗(yàn)。
針對(duì)這些問題,Luma AI 表示已經(jīng)認(rèn)識(shí)到,并正在積極采取優(yōu)化措施。他們持續(xù)優(yōu)化模型,以提供更加穩(wěn)定和高質(zhì)量的視頻生成服務(wù)。通過不斷改進(jìn)算法、增加訓(xùn)練數(shù)據(jù)、優(yōu)化模型架構(gòu)等方式,致力于提升模型的準(zhǔn)確性和穩(wěn)定性,為用戶帶來更好的體驗(yàn)。
Luma AI 關(guān)鍵幀功能介紹
Luma AI 的關(guān)鍵幀功能為視頻創(chuàng)作帶來了新的可能性。關(guān)鍵幀功能主要用于控制視頻能力,允許創(chuàng)作者在時(shí)間軸上設(shè)置特定的點(diǎn),這些點(diǎn)定義了動(dòng)畫或視頻的特定狀態(tài)或?qū)傩浴?br class="container-PzX343 wrapper-NZ1vL1 undefined" style="-webkit-font-smoothing: antialiased; box-sizing: border-box; -webkit-tap-highlight-color: rgba(0, 0, 0, 0); overflow-anchor: auto; color: initial; content: ""; display: block; font-size: var(--md-box-paragraph-spacing); margin: 1em;">用戶可以通過上傳一張起始圖片和一張結(jié)束圖片,然后通過文字描述想要的特效和場(chǎng)景變化,Dream Machine 就能自動(dòng)生成中間的過渡動(dòng)畫和特效,絲滑生成轉(zhuǎn)場(chǎng)。這使得視頻創(chuàng)作更加直觀和便捷,大大降低了非專業(yè)人員的創(chuàng)作門檻。
例如,用戶想要?jiǎng)?chuàng)作一個(gè)人物從站立到奔跑的視頻,只需上傳站立和奔跑的圖片,描述中間的動(dòng)作變化,如“人物逐漸加速,步伐變大”,就能輕松生成過渡效果。
Luma AI 的關(guān)鍵幀功能不僅適用于創(chuàng)意視頻制作,如廣告、短片制作和社交媒體內(nèi)容創(chuàng)作,還在互動(dòng)劇業(yè)務(wù)、市場(chǎng)營(yíng)銷、教育與培訓(xùn)等領(lǐng)域有著廣泛的應(yīng)用。
例如,用戶想要?jiǎng)?chuàng)作一個(gè)人物從站立到奔跑的視頻,只需上傳站立和奔跑的圖片,描述中間的動(dòng)作變化,如“人物逐漸加速,步伐變大”,就能輕松生成過渡效果。
Luma AI 的關(guān)鍵幀功能不僅適用于創(chuàng)意視頻制作,如廣告、短片制作和社交媒體內(nèi)容創(chuàng)作,還在互動(dòng)劇業(yè)務(wù)、市場(chǎng)營(yíng)銷、教育與培訓(xùn)等領(lǐng)域有著廣泛的應(yīng)用。
Luma AI 作為一家在 3D 內(nèi)容生成和視頻生成領(lǐng)域不斷創(chuàng)新的公司,其技術(shù)和產(chǎn)品為用戶帶來了全新的體驗(yàn)和更多的創(chuàng)作可能性。無論是 NeRF 技術(shù)、Dream Machine 模型還是關(guān)鍵幀功能,都展現(xiàn)了 Luma AI 在人工智能與創(chuàng)意融合方面的努力和成果。隨著技術(shù)的不斷進(jìn)步和優(yōu)化,相信 Luma AI 將在未來為我們帶來更多驚喜和突破。