深入花心,印度丰满妓女A片生与妓院,九浅一深和左三右三如何搭配,国产精品永久免费,裸体跳舞XXXX裸体跳舞

News Center

新聞中心

如果以哈利波特視角打開Sora"劇本" | 達開腦洞
發(fā)布日期:2024-02-24

微信圖片_20240226084428.png

新年開工第一周,迎來OpenAI再次發(fā)布大殺器級別產(chǎn)品Sora的“轟炸”。技術(shù)流分析在你的訂閱列表里不斷更新,我們希望從一個更好玩的視角打開Sora的“劇本”,或許能激發(fā)我們更多的思考。


本文來自超級充電站,作者Stella 蔡康淇




|| 魔法思維盆:腦海里有,Sora就有


在魔法世界里,記憶高深的魔法師,比如鄧布利多,可以用魔杖從太陽穴拉出一根綿長的銀絲,再置于石盆中,化成可以跳進去沉浸式體驗的「記憶」。第一次看這個情節(jié),就覺得如果大腦里想到的東西,可以這樣方便地有選擇性地還原出來,呈現(xiàn)給其他人,一定是一件非常有趣的事。當 OpenAI 拿出 Sora 模型,好像這件事已經(jīng)要實現(xiàn)了。


c8efdb5881ec0946d669bcfcc978c56b.jpg


Sora 是發(fā)布 ChatGPT 的公司 OpenAI 最新發(fā)布的一個「文字生成視頻」的模型,與以往其他的 AI 視頻模型不同,Sora 可以根據(jù)用戶提供的文字描述生成最長達 1 分鐘的高清視頻,也就是你想到了什么,告訴它,它就幫你「實現(xiàn)」。Sora 生成的可以是常規(guī)的單個畫面視頻,也可以是有切分的多視角/多畫面視頻,并且畫面非常流暢穩(wěn)定,人物/主體對象沒有畸變,還包含復雜的鏡頭調(diào)度。


c1b6a7cc04beb59f52cf97e36fa6659d.png

OpenAI 官網(wǎng)上發(fā)布的 Sora 生成視頻,提示詞是:「在印度孟買的一場冬季風暴期間,一只可愛的袋鼠穿著藍色牛仔褲和白色 T 恤在悠閑地漫步。」


除了基本的「文生視頻」功能,Sora 還能夠生成高清圖像(2048 x 2048)、使靜止的圖片動起來(圖片轉(zhuǎn)視頻)、向前或向后延長視頻(AI 補全)、對已有的視頻做出調(diào)整/改變,以及將兩個視頻巧妙地連接起來(在視頻之間形成順滑合理的過渡)等。


fbce0f7104df3c225a77dfda3bec744e.png

上傳一張圖片,然后加上文字描述,Sora 就可以根據(jù)你的描述將圖片轉(zhuǎn)化成視頻。


93e5623b3cba4eeba0e81f53aee2e32f.jpg

原始視頻中車是在森林里開,將它上傳到 Sora,Sora 就可以讓它「開」到海底、恐龍世界等超乎現(xiàn)實的地方,還可以改成游戲畫風,或者直接讓場景回到中世紀馬車時代。在這個過程中,主體「車」始終保持在畫面中央,前進速度和鏡頭運行方式也保持一致。

b3deb28a061af7795f440317a214a99e.png

將無人機飛越古城的視頻(最左)和蝴蝶在海底的視頻(最右)都上傳給 Sora,Sora 就可以將兩個視頻很好地銜接起來:先把無人機替換成蝴蝶,然后逐漸把古城變成海底生物的質(zhì)感(看中間的這張圖),最后完全變成蝴蝶在海底的視頻。

使用方面,目前 OpenAI 沒有公布向公眾開放 Sora 的計劃,應該是要進行進一步的評估和優(yōu)化。同時,OpenAI 也篩選了部分視覺藝術(shù)家、設計師和電影工作者來收集使用反饋,目前 Twitter 上已經(jīng)有非常多受邀人士發(fā)布了自己的作品。


99ccae944822c18adca90967f97c78ae.png


Sora 團隊成員 Bill Peebles 發(fā)布的作品,給 Sora 的提示詞是:「一座巨大的大教堂里全是貓。放眼望去,到處都是貓。一個男人走進大教堂,向坐在王座上的巨型貓王鞠躬?!乖谶@ 20 秒的視頻里,這個男人說了一段話,貓王給出了情緒反應,而且最后還走到了這個男人身邊,就像一個完整的電影片段。


盡管 Sora 最大的特點是「模仿現(xiàn)實」,能夠生成非?!刚鎸崱沟囊曨l畫面,但目前 Sora 模型也存在明顯的弱點,比如它可能難以準確模擬復雜場景的物理原理,并且可能無法理解因果關(guān)系,比如,一個人咬了一口餅干,但之后視頻里的餅干卻沒有咬痕。它還可能混淆空間細節(jié),例如混淆左右,并且可能難以精確描述隨著時間推移發(fā)生的事件,例如遵循特定的相機軌跡。


8f7a8b66007db2ce4b0cfd3608e2f896.png

Sora 生成的視頻不能準確地模擬玻璃杯掉下來摔碎的動作,杯子摔下來之后似乎跟底下的液體融為了一體。

不過,Sora 目前出現(xiàn)的錯誤其實大部分人并不能馬上看出來,已經(jīng)達到了所謂「混淆視聽」的能力。例如在官方放出的 demo 當中,有一個猴子下棋的視頻(見下圖),看起來栩栩如生,但是它的棋盤和棋子其實是不完全符合現(xiàn)實中的棋盤和棋子的模樣/規(guī)則的。這不得不讓人有些擔心,就像 ChatGPT 回答問題的時候經(jīng)常「胡編亂造」一樣,如果 Sora 開放給公眾使用,出現(xiàn)一系列真實程度不明的視頻,可能也很容易誤導受眾,這時候就體現(xiàn)出「Facebook 標記 AI 生成內(nèi)容」的重要性。


ec5a1dd5153608eb1438d7dd2ed25861.png

Sora 生成的猴子下棋視頻,當中的棋子數(shù)目顯然是不對的,棋盤也有點奇怪,當然也不排除這是屬于猴子的「棋」……

|| 湯姆·里德爾魔法日記:ChatGPT開始有記憶


魔法世界里不僅有能自己寫字的筆,還有能跟記憶對話的「魔法日記」,它屬于小時候的伏地魔——湯姆 · 里德爾。當羅恩的妹妹金妮開始在日記上寫自己的心情的時候,湯姆就在紙面上「復活」了。


162f367a53da88ef1e5f8779bd074c52.jpg


如果這個寫日記的人是你自己,而你可以跟自己的記憶對話,這種感覺是不是也很妙?


OpenAI 稱本周將對部分用戶開放 ChatGPT 的「記憶」功能,但沒有透露更大規(guī)模應用的時間表。使用此功能的用戶可以自主選擇是否讓聊天機器人「記得」他們在對話當中透露的信息,比如家里有幾個人、喜歡旅行、寫 Summary 需要特定格式等……或者也可以直接告訴 ChatGPT 希望它「記得」某些信息,或者「忘記」某些信息。這樣用戶就不需要每開一次新的對話窗口就重復一遍信息了,能夠節(jié)省很多時間,同時也對自己的信息有直接的控制權(quán)。


337d961e2984ad34aa00e3bf9caa8069.png


OpenAI 舉了一些例子來說明「記憶」功能的實用性,比如,如果你告訴 ChatGPT 你擁有一家咖啡店,那么下次當你向 ChatGPT 詢問有沒有什么好的社媒點子來慶祝一個新店開張的時候,它就會知道也許是你提過的這家咖啡店開張了。又比如,如果你說過家里有一個嬰兒非常喜歡水母,那么下次當你問它能不能幫忙生成一張給寶寶的生日賀卡時,它就會記得在賀卡上放一些水母元素。


6f1d65cf2aa3ae0bdccfd5ecda3cae59.jpg


其實當前 ChatGPT 在去年 7 月份已經(jīng)發(fā)布過一個叫「Customize ChatGPT」的功能,允許 Plus 版本的用戶「自定義」他們的 ChatGPT,讓聊天機器人記得一些基本信息,比如對用戶的稱呼、用戶在什么地點、用戶的工作內(nèi)容和愛好、希望 ChatGPT 答復的語氣和長度等,不過這都是用戶主動輸入并且可以隨時修改的信息。比如當我輸入了「請叫我 Stella」以及「我有一只柯基叫椰子」這些信息之后,ChatGPT 就會在對話中使用這些信息,當我提到「我的狗」,它就「知道」是「椰子」(見下圖)。OpenAI 表示這個功能在「記憶」功能開放之后也將繼續(xù)發(fā)揮作用。


8cbb36bd5a6278c319effacab92ad81e.png



4930430d96beb5a2efecda6c6bc49751.png



此外,GPT 商店中的個性化 GPT 也將享有「記憶」功能,這也將帶來許多便利,比如,如果你在用一個推薦書籍或者電影的 GPT,那么 GPT 就會記得你的喜好,以及你跟它說過你曾經(jīng)看過什么書或者影片,讓推薦更精準。


不過,壞處當然是很多用戶會擔心的隱私問題,對此,OpenAI 表示,這個功能用戶是可以自主決定開關(guān)的,并且他們也可以直接要求機器人「抹去」某次對話的內(nèi)容。功能開啟之后,用戶也可以使用「臨時對話」模式,這個功能不會調(diào)用「記憶」,也不會創(chuàng)建「記憶」。


|| 麻瓜錯誤:不要嘗試讓GPT用左手寫字!


AI犯錯的「麻瓜時刻」——生成圖像時的錯誤。


9f5467ffe85aa517f552849921a04654.jpg


不知道你有沒有發(fā)現(xiàn),ChatGPT 有一些總是無法辦到的事情,比如接下來要說的這三件:它無法生成「左手寫字」的圖像,無法生成「任意時間」的鐘表,也無法生成「兩只眼睛在同一邊」的人。


c1e03aeb9d437a479361a57e2df69c84.jpg


當嘗試讓它生成左手寫字/吃飯/打籃球的圖像時,它總是假裝它生成的是左手,但其實圖像里永遠還是在用右手。


81921444a81d22e59920992c051bf8d0.png


更有趣的是,當讓 GPT 生成一張小朋友正在辨認自己的左右手的圖片,并且要求它在圖上標注左右時,它生成的圖像中左和右指向的是同一個方向。


8ff047836a31d6c412b3c889683f53f1.png


第二件事,當讓它生成圓盤時鐘時,無論輸入什么時間,它生成的永遠是十點十分。據(jù)說這是因為大部分的時鐘廣告當中展示的「時間」都是十點十分,因為這樣時針和分針會形成一個有趣的「V」字形狀,視覺上更平衡和愉悅;另外,鐘表的 logo 一般都會在「12」下面,十點十分的時候 logo 正好在正中間,能得到最好的展示。也許是 GPT 過多地「學習」了這些鐘表的圖片,所以默認鐘表時間都是十點十分?


a561decb52152797ad76c9b87f4ec77c.png


最后,ChatGPT 無法生成眼睛長在同一邊的人,也無法生成嘴巴長在額頭上的人,以此類推。這似乎比較好理解,畢竟現(xiàn)實中也沒有這樣的人,影視作品中也很少,AI 沒有數(shù)據(jù)可以借鑒,也無法理解。


91af6eb22d0b2ab7aed4de62e93b6507.png



當我們用哈利波特視角打開Sora"劇本",這個魔法世界,是否已經(jīng)來到了身邊?還有一個問題,我們需要分院帽嗎?


1111.jpg



達晨成立于2000年4月19日,總部位于深圳,是我國第一批按市場化運作設立的本土創(chuàng)投機構(gòu)。自成立以來,達晨伴隨著中國經(jīng)濟的快速增長和多層次資本市場的不斷完善,在社會各界的關(guān)心和支持下,聚焦于信息技術(shù)、智能制造和節(jié)能環(huán)保、醫(yī)療健康、大消費和企業(yè)服務、文化傳媒、軍工等領(lǐng)域 … [ +更多 ]
微信公眾號

達晨財智創(chuàng)業(yè)投資管理有限公司 版權(quán)所有

Copyright © Fortune Venture Capital Co.Ltd. All rights reserved

電話:0755-83515108

郵箱:fortune@fortunevc.com

粵ICP備14030831號 技術(shù)支持:中網(wǎng)互聯(lián)

粵公網(wǎng)安備 44030402003598號