以下文章來(lái)源于VAST AI ,作者Tripo2.0
達(dá)晨完成對(duì)3D大模型領(lǐng)軍企業(yè)VAST新一輪融資的領(lǐng)投。近期,VAST連續(xù)完成了兩輪共計(jì)數(shù)億元的融資,天使輪由綠洲資本領(lǐng)投,Pre-A輪領(lǐng)投方為達(dá)晨財(cái)智以及春華創(chuàng)投,并創(chuàng)造了3D大模型賽道的最?融資?額。
同時(shí),VAST全新的3D大模型Tripo 2.0也在今天與大家正式見(jiàn)面。

| 關(guān)于VAST
VAST成?于2023年3?,是?家致?于通?3D大模型研發(fā)的AI公司,公司?標(biāo)是通過(guò)打造?眾級(jí)別的3D內(nèi)容創(chuàng)作?具,建?3D的UGC內(nèi)容平臺(tái),讓基于3D的空間成為??體驗(yàn)、內(nèi)容表達(dá)、提升新質(zhì)?產(chǎn)?的關(guān)鍵要素。
2024年初,VAST推出數(shù)?億參數(shù)級(jí)別的3D?模型Tripo 1.0,8秒就可用圖/?生成3D?格模型,上線至今全球???成超過(guò)500萬(wàn)個(gè)3D模型。
2024年3?,VAST與全球頂級(jí)開(kāi)源社區(qū)Stability AI共同推出開(kāi)源3D基礎(chǔ)模型TripoSR,該模型創(chuàng)造了0.5秒完成單圖?3D模型的頂尖表現(xiàn),?今仍是3D?成領(lǐng)域開(kāi)源社區(qū)的熱?項(xiàng)?。
今天,VAST推出Tripo 2.0,驗(yàn)證了3D大模型的Scaling Law,也將3D生成推向下一個(gè)里程碑。
Tripo 2.0采?了融合DiT和U-Net模型的復(fù)合架構(gòu),通過(guò)學(xué)習(xí)捕捉?規(guī)模數(shù)據(jù)中的?何和材質(zhì)分布,更好地保證了3D模型?何形狀的細(xì)節(jié)和材質(zhì)的輸出質(zhì)量。
Tipo 2.0能夠完成10秒?成形狀?何、10秒?成紋理及PBR,為3D?成領(lǐng)域設(shè)?了通?模型新的效果標(biāo)準(zhǔn)。
據(jù)我們所知,Tripo在所有的3D生成任務(wù)的效果中均處于全球領(lǐng)先地位。
GPTEval3D:基于MLLM的評(píng)估指標(biāo)(3D生成形狀、紋理質(zhì)量、細(xì)節(jié)表現(xiàn)、輸入條件遵循性、輸出多樣性),旨在評(píng)估生成的3D內(nèi)容的語(yǔ)義準(zhǔn)確性和質(zhì)量
| 理解單個(gè)物體是理解世界的開(kāi)始
對(duì)于創(chuàng)作3D內(nèi)容的用戶而言,文字輸入的生成方式提供了“言出法隨、創(chuàng)造世界”的可能,圖片輸入則提供更多創(chuàng)作過(guò)程中的可控性的。
與傳統(tǒng)3D重建的應(yīng)用場(chǎng)景不同,大部分純粹的創(chuàng)意概念可能超出了現(xiàn)實(shí)世界的物理限制。許多游戲、設(shè)計(jì)項(xiàng)目或虛擬場(chǎng)景中的3D內(nèi)容實(shí)際上也沒(méi)有現(xiàn)實(shí)中的實(shí)體。某些環(huán)境異常惡劣,即使投入大量資金購(gòu)買(mǎi)先進(jìn)的掃描設(shè)備,也無(wú)法掃描、修復(fù)或重建這些內(nèi)容。
因此,3D大模型對(duì)于文字生成復(fù)雜組合物體的能力、以及單圖輸入的空間理解及還原的能力,就成為評(píng)價(jià)體系中最為重要的考察標(biāo)準(zhǔn)。
對(duì)于Tripo而言,這意味著需要具備以下能力:
第一是精準(zhǔn)的語(yǔ)言理解能力,將用戶的文本輸入意圖準(zhǔn)確地反映成物體的幾何結(jié)構(gòu)和組成細(xì)節(jié),還包括文本中各部分之間的空間關(guān)系;
第二是對(duì)空間的深度和精確還原能力,確保從任意視角的單一圖片中準(zhǔn)確推斷三維結(jié)構(gòu)和深度信息,精確還原復(fù)雜物體的幾何形狀和紋理細(xì)節(jié),并保持整體一致性;
第三是對(duì)于物理規(guī)律和常識(shí)的理解能力,確保生成的內(nèi)容既符合用戶意圖,又在遵循基本物理法則的情況下保持邏輯一致性,使結(jié)果在創(chuàng)意自由度和現(xiàn)實(shí)合理性之間找到平衡;
這就是Tripo交出的答卷:見(jiàn)微知著,探索世界的背面。
比如“長(zhǎng)著牙、拿著樹(shù)葉的葉子精怪”、“有番茄、生菜、胡蘿卜的菜籃”、“站在水面玻璃球上的火烈鳥(niǎo)”:
以上效果由www.tripo3d.ai 直出,均為AI生成3D模型的六視渲染圖
再以這張翡翠布花的圖片為例,左邊的花束與主干花束是黏連還是分開(kāi)?葉片之間的重疊關(guān)系是什么?花束的背后是什么樣?
再比如這艘船,桅桿的結(jié)構(gòu)是什么?船艙的結(jié)構(gòu)如何設(shè)計(jì)?
除了精進(jìn)的文本和視覺(jué)輸入理解能力之外,Tripo 2.0 的生成結(jié)果也擁有領(lǐng)先的質(zhì)量和保真度,在形狀和紋理質(zhì)量、細(xì)節(jié)表現(xiàn)都樹(shù)立了新的行業(yè)標(biāo)準(zhǔn)(new state-of-the-art)。
Tripo不僅能生成高度細(xì)致和準(zhǔn)確的3D形狀,捕捉復(fù)雜的特征和幾何結(jié)構(gòu),還能生成高保真度的PBR(基于物理的渲染)材質(zhì),呈現(xiàn)出精細(xì)的表面屬性和逼真豐富的視覺(jué)效果。
達(dá)晨投資團(tuán)隊(duì)表示:“數(shù)千年來(lái),人類(lèi)文明的傳承方式主要是文字、圖像和模型。近幾年在人工智能的加持下,這些文明的表達(dá)方式發(fā)生了革命性變化。達(dá)晨在內(nèi)容生成方面已經(jīng)布局了大語(yǔ)言模型、文生圖、文生視頻等,而文生/圖生3D是“新文明”拼圖的最后一環(huán)。正如‘AI教母’李飛飛的觀點(diǎn),人類(lèi)是生活在3D世界中的,而人工智能要真正追上人類(lèi),必須突破3D的理解和生成。第一代互聯(lián)網(wǎng)主要基于語(yǔ)言的交互,第二代互聯(lián)網(wǎng)主要基于圖片和視頻的交互,下一代互聯(lián)網(wǎng)一定是3D內(nèi)容的交互,而面向C端的3D創(chuàng)作工具就成為了關(guān)鍵環(huán)節(jié)、重中之重。相比較VAST在2B方向?qū)τ趥鹘y(tǒng)建模師的幫助,我們更看好其在2C方向?qū)τ趶V大消費(fèi)者生活方式的改變。試想一下,大到房屋家具、小到鞋包杯碗,身邊的物品都可以按照自己的心意來(lái)設(shè)計(jì)和制造,個(gè)性化將得到極大解放,每個(gè)人心中的創(chuàng)意都將得以展現(xiàn)。如果再配合上MR眼鏡,我們可以隨時(shí)隨地改造世界,在下一代互聯(lián)網(wǎng)中共享空間文明?!?/span>