
近日,達(dá)晨財(cái)智完成對(duì)視頻大模型公司愛(ài)詩(shī)科技億級(jí)A1輪融資領(lǐng)投,光源資本擔(dān)任獨(dú)家財(cái)務(wù)顧問(wèn)。資金將主要用于底層視頻大模型的技術(shù)研發(fā)及團(tuán)隊(duì)搭建等方面。
2024年2月,OpenAI發(fā)布Sora之后,在視頻大模型行業(yè)掀起了新的風(fēng)浪,愛(ài)詩(shī)科技也因此受到廣泛關(guān)注。愛(ài)詩(shī)科技由字節(jié)跳動(dòng)前視覺(jué)技術(shù)負(fù)責(zé)人王長(zhǎng)虎創(chuàng)辦于2023年4月,專注于打造全球頂尖的AI視頻生成模型及應(yīng)用,并服務(wù)于營(yíng)銷、廣告、游戲等內(nèi)容創(chuàng)作行業(yè)。王長(zhǎng)虎是人工智能領(lǐng)域的專家,也有豐富的產(chǎn)品經(jīng)驗(yàn)。他博士畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué),2009年畢業(yè)后,擔(dān)任過(guò)微軟亞洲研究院主管研究員,曾在新加坡國(guó)立大學(xué)擔(dān)任研究工程師。2017年初,王長(zhǎng)虎加入字節(jié)跳動(dòng),任人工智能實(shí)驗(yàn)室總監(jiān)、集團(tuán)視覺(jué)技術(shù)負(fù)責(zé)人,搭建了視覺(jué)技術(shù)團(tuán)隊(duì)和視覺(jué)算法平臺(tái)和業(yè)務(wù)中臺(tái),并支撐了抖音和TikTok等產(chǎn)品從0到1的建設(shè)和發(fā)展。這是王長(zhǎng)虎第一次創(chuàng)業(yè),他表示:“我一直有一個(gè)創(chuàng)業(yè)的情結(jié),想要嘗試從0開(kāi)始,孵化技術(shù)和產(chǎn)品,用人工智能影響和幫助盡可能多的企業(yè)和用戶。UGC向AIGC轉(zhuǎn)變過(guò)程中存在大量的機(jī)會(huì),我們想抓住這個(gè)機(jī)會(huì)。”眼下,整個(gè)視頻行業(yè)被Sora的驚艷亮相炒的風(fēng)風(fēng)火火,有人把Sora的出現(xiàn)形容為視頻生成領(lǐng)域的ChatGPT時(shí)刻,OpenAI和其他公司的差距正在進(jìn)一步拉大,創(chuàng)業(yè)公司很難出頭。王長(zhǎng)虎持有相反的觀點(diǎn),他認(rèn)為,目前Sora的技術(shù)發(fā)展相當(dāng)于在GPT2和GPT3之間,還沒(méi)到GPT-4的水平,留給市場(chǎng)的空間很大。在他看來(lái),視頻模型的生成能力好壞體現(xiàn)在三個(gè)維度:第一,準(zhǔn)確性,即判斷生成的視頻內(nèi)容是否和輸入的prompt或圖片匹配,符合用戶預(yù)期;第二,一致性,即生成的視頻中的主體、背景和運(yùn)動(dòng)是否有連貫性,是否符合真實(shí)世界的物理規(guī)律;第三,信息豐富度,即在一段時(shí)間內(nèi)生成的視頻是否能夠呈現(xiàn)足夠的故事性。王長(zhǎng)虎提到,Sora的生成視頻效果確實(shí)比現(xiàn)在市面上的視頻大模型要好,對(duì)于整個(gè)行業(yè)和愛(ài)詩(shī)科技而言,是挑戰(zhàn)也是機(jī)會(huì)?!耙环矫?,Sora采用了DiT(Diffusion Transformer)的技術(shù)路線,驗(yàn)證了該架構(gòu),其次,Sora出現(xiàn)之后整個(gè)AI視頻生成行業(yè)會(huì)迎來(lái)新的爆發(fā)性機(jī)會(huì),愛(ài)詩(shī)作為最早入局的公司之一,更有機(jī)會(huì)去追上并趕超Sora,在這個(gè)賽道取得一席之地。”技術(shù)上,DiT(Diffusion Transformer)被認(rèn)為是Sora采用的一種技術(shù)架構(gòu),該技術(shù)路線架構(gòu)靈活度更高,且顯著提升視頻的生成質(zhì)量。愛(ài)詩(shī)科技在創(chuàng)立之初就選擇了這條路線。目前,海外市場(chǎng),愛(ài)詩(shī)科技國(guó)際版AI視頻生成產(chǎn)品PixVerse已經(jīng)正式運(yùn)營(yíng),用戶可以通過(guò)網(wǎng)頁(yè)端,或者加入Discord-PixVerse服務(wù)器進(jìn)行體驗(yàn)。今年3月,面向國(guó)內(nèi)用戶的愛(ài)詩(shī)大模型也已通過(guò)備案,現(xiàn)已開(kāi)放內(nèi)測(cè),內(nèi)測(cè)鏈接為https://aishiai.com/waitlist。△國(guó)際版PixVerse網(wǎng)頁(yè)端產(chǎn)品界面產(chǎn)品方面,PixVerse主要支持文生視頻、圖生視頻等主功能,在2023年10月,愛(ài)詩(shī)就把生成的視頻內(nèi)容做到了4K的分辨率。以文生視頻功能為例,PixVerse產(chǎn)品界面有Prompt 、Style、Aspect-ratio、Negative-prompt四個(gè)功能參數(shù),其中Prompt 指的是需要輸入的一段句子或關(guān)鍵詞語(yǔ);Style 決定了視頻畫(huà)面的風(fēng)格;Aspect-ratio決定了視頻的畫(huà)幅比例;Negative-prompt 幫助規(guī)避視頻中用戶不想呈現(xiàn)的內(nèi)容,用文字表達(dá)即可。△PixVerse網(wǎng)頁(yè)端視頻生成界面比如,輸入Prompt:a little girl with bun hair wear flight attendant blue uniform stand in the plane cabin. she smile to the passanger,就可以得到下面這段4秒的視頻。
也有很多海外用戶借助PixVerse和其他AI創(chuàng)作工具制作微電影、廣告、動(dòng)漫等,形成了新一代的AI工具流。
商業(yè)化發(fā)展層面,愛(ài)詩(shī)的思路是聚焦C端,通過(guò)技術(shù)平臺(tái),構(gòu)建AI視頻生成全價(jià)值鏈,提升內(nèi)容生成、審核、分發(fā)及商業(yè)化各環(huán)節(jié)的效率,并最終實(shí)現(xiàn)AI Native視頻產(chǎn)品應(yīng)用閉環(huán),滿足各個(gè)行業(yè)和用戶的需求。王長(zhǎng)虎認(rèn)為,OpenAI的商業(yè)節(jié)奏在初期會(huì)和之前GPT-4的路線一樣,更注重完善整個(gè)大的技術(shù)體系,在模型側(cè)發(fā)力,開(kāi)放API,讓用戶和開(kāi)發(fā)者自己進(jìn)行產(chǎn)品開(kāi)發(fā)同時(shí),愛(ài)詩(shī)的發(fā)展也將不僅僅局限于技術(shù),還會(huì)關(guān)注更多應(yīng)用產(chǎn)品側(cè)的機(jī)會(huì)。
根據(jù)海外流量檢測(cè)網(wǎng)站similarweb.com,目前愛(ài)詩(shī)海外產(chǎn)品PixVerse月訪問(wèn)量增長(zhǎng)迅猛,已經(jīng)超過(guò)百萬(wàn),用戶群里中有影視、游戲、廣告主、藝術(shù)創(chuàng)作者等各行各業(yè)的人。△數(shù)據(jù)來(lái)自海外流量檢測(cè)網(wǎng)站similarweb.com眼下,創(chuàng)立已有一年的愛(ài)詩(shī)目前在團(tuán)隊(duì)擴(kuò)張方面也相對(duì)謹(jǐn)慎,目前,愛(ài)詩(shī)公司團(tuán)隊(duì)有20多人,相比去年只多了十個(gè)人。王長(zhǎng)虎認(rèn)為,團(tuán)隊(duì)是愛(ài)詩(shī)最核心的競(jìng)爭(zhēng)力之一。愛(ài)詩(shī)目前的團(tuán)隊(duì)成員大部分都在早期就支撐了抖音、TikTok從0-1階段,曾把AI視頻技術(shù)廣泛應(yīng)用到了今日頭條、抖音等字節(jié)跳動(dòng)全線產(chǎn)品中,在視頻技術(shù)領(lǐng)域有豐富的經(jīng)驗(yàn)。“比如在技術(shù)層面,數(shù)據(jù)清洗、自動(dòng)標(biāo)注、模型加速等工程化問(wèn)題,都是此前在字節(jié)做產(chǎn)品期間就面臨過(guò)的難題,當(dāng)時(shí)單我們團(tuán)隊(duì)就操盤(pán)了數(shù)萬(wàn)塊GPU?!蓖蹰L(zhǎng)虎告訴36氪。在他看來(lái),這些能力都可以復(fù)用在愛(ài)詩(shī)的產(chǎn)品建設(shè)過(guò)程中,幫助公司在資源有限的情況下,更好產(chǎn)生ROI更高的算法和生成能力。此外,過(guò)去一年,團(tuán)隊(duì)已經(jīng)在視頻大模型的技術(shù)產(chǎn)品有一定的積累,也有助于公司在競(jìng)爭(zhēng)中持續(xù)保持優(yōu)勢(shì)。關(guān)于未來(lái)發(fā)展,王長(zhǎng)虎透露,接下來(lái) 3——6 個(gè)月,愛(ài)詩(shī)最重要的目標(biāo)是,技術(shù)上能夠追平甚至趕超Sora,做出更好的產(chǎn)品,同時(shí)也會(huì)持續(xù)推進(jìn)國(guó)內(nèi)和海外產(chǎn)品的更新迭代,在2024年底做到大規(guī)模的C端應(yīng)用落地。王長(zhǎng)虎認(rèn)為:“未來(lái),提供視頻大模型的技術(shù)公司一定是少數(shù),愛(ài)詩(shī)希望持續(xù)打磨技術(shù)層和產(chǎn)品層能力,做出國(guó)民級(jí)的AI原生視頻產(chǎn)品應(yīng)用,服務(wù)廣大的C端用戶?!?/span>達(dá)晨財(cái)智談到,此次投資愛(ài)詩(shī)主要看中團(tuán)隊(duì)的幾個(gè)層面:首先,創(chuàng)始人王長(zhǎng)虎此前曾在微軟亞洲研究院任職,發(fā)表過(guò)上百篇的頂會(huì)期刊論文,對(duì)計(jì)算機(jī)視頻的前沿技術(shù)具有非常高的敏感度,且團(tuán)隊(duì)從0到1搭建字節(jié)的計(jì)算機(jī)視頻底層算法模型,在模型、數(shù)據(jù)、算力上都經(jīng)歷過(guò)大規(guī)模的工程化檢驗(yàn),在視頻大模型上的創(chuàng)業(yè)上有其他團(tuán)隊(duì)不具備的天然背景優(yōu)勢(shì);其次,團(tuán)隊(duì)執(zhí)行力極強(qiáng),公司模型按周迭代,同時(shí)有諸多的分叉版本在同時(shí)優(yōu)化,公司很早就嘗試用Transfomer替代Diffusion Model中的Unet的技術(shù)路線,模型效果也在逐步提升;第三,團(tuán)隊(duì)是工程師文化的典型,管理扁平,每個(gè)人對(duì)技術(shù)都有追求和信仰。接下來(lái),期待愛(ài)詩(shī)能打造出下一代端到端Super AI-Native的視頻平臺(tái)、產(chǎn)品、應(yīng)用。成為國(guó)內(nèi)最頭部的多模態(tài)AI企業(yè)。*本文轉(zhuǎn)載自智能涌現(xiàn),作者武靜靜,編輯鄧詠儀
