近日,在 KDD 國(guó)際數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)大會(huì)上,達(dá)晨投資企業(yè)智譜AI介紹了新一代基座大模型GLM-4-Plus。GLM-4-Plus是智譜全自研 GLM 大模型的最新版本,它標(biāo)志著智譜繼續(xù)瞄準(zhǔn)通用人工智能,持續(xù)推進(jìn)大模型技術(shù)的獨(dú)立自主創(chuàng)新。
主要更新:
語(yǔ)言基座模型 GLM-4-Plus:在語(yǔ)言理解、指令遵循、長(zhǎng)文本處理等方面性能得到全面提升,保持了國(guó)際領(lǐng)先水平。
文生圖模型 CogView-3-Plus:具備與當(dāng)前最優(yōu)的 MJ-V6 和 FLUX 等模型接近的性能。
圖像/視頻理解模型 GLM-4V-Plus:具備卓越的圖像理解能力,并具備基于時(shí)間感知的視頻理解能力。該模型將上線開放平臺(tái)(bigmodel.cn),并成為國(guó)內(nèi)首個(gè)通用視頻理解模型API。
視頻生成模型CogVideoX:在發(fā)布并開源2B版本后,5B版本也正式開源,其性能進(jìn)一步增強(qiáng),是當(dāng)前開源視頻生成模型中的最佳選擇。
同時(shí),清言app上新“視頻通話”功能,這也是國(guó)內(nèi)首個(gè)面向C端開放的視頻通話功能。
GLM-4-Plus 使用了大量模型輔助構(gòu)造高質(zhì)量合成數(shù)據(jù)以提升模型性能;利用 PPO 有效有效提升模型推理(數(shù)學(xué)、代碼算法題等)表現(xiàn),更好反應(yīng)人類偏好。
下面是 benchmark 對(duì)比:
語(yǔ)言文本能力方面,GLM-4-Plus和GPT-4o及405B參數(shù)量的Llama3.1相當(dāng)。
Language capabilities

長(zhǎng)文本能力比肩國(guó)際先進(jìn)水平。通過(guò)更精準(zhǔn)的長(zhǎng)短文本數(shù)據(jù)混合策略,取得了更強(qiáng)的長(zhǎng)文本的推理效果。
Long Context evaluation
GLM-4V-Plus 在圖像和視頻理解能力方面位居前列。GLM-4V-Plus 還可以理解網(wǎng)頁(yè)內(nèi)容,并將其轉(zhuǎn)換為 html 代碼。
Vision capabilities
GLM-4V-Plus 能夠理解并分析復(fù)雜的視頻內(nèi)容,同時(shí)具備時(shí)間感知能力。上線開放平臺(tái)后,將提供國(guó)內(nèi)首個(gè)通用視頻理解模型 API 。
Video analysis
用戶:這個(gè)穿綠色衣服的球員在整個(gè)視頻都做了什么?
GLM-4V-Plus:在整個(gè)視頻中,穿綠色衣服的球員在場(chǎng)上運(yùn)球,然后跳起將球投入籃筐。
用戶:這個(gè)視頻的精彩時(shí)刻是什么?發(fā)生在第幾秒?
GLM-4V-Plus:這個(gè)視頻的精彩時(shí)刻發(fā)生在第4秒,當(dāng)時(shí)穿綠色衣服的球員跳起并將球投入籃筐。
文生圖模型迎來(lái)最新版本CogView-3-Plus,其效果接近目前最佳的MJ-V6及FLUX等模型,并支持圖片編輯功能。

GLM-4-Plus現(xiàn)已在智譜大模型開放平臺(tái)bigmodel.cn部署,開發(fā)者即日起就能通過(guò) API 方式調(diào)用這一智譜最新基座大模型。
| 清言app迎來(lái)重要更新,全新的“視頻通話”功能來(lái)了!
智譜清言app迎來(lái)“視頻通話”功能,這也是國(guó)內(nèi)首個(gè)面向C端開放的視頻通話功能。
清言作為第一批C端上線的大模型產(chǎn)品,過(guò)去的一年,常常以文字和語(yǔ)音的形式和大家交流。但現(xiàn)在,清言也有了眼睛,解鎖了AI新體驗(yàn)。
清言視頻通話跨越了文本模態(tài)、音頻模態(tài)和視頻模態(tài),并具備實(shí)時(shí)推理的能力?,F(xiàn)在,用戶撥打清言的視頻通話窗口,即可與它進(jìn)行流暢通話,即便頻繁打斷它也能迅速反應(yīng)。只要打開攝像頭,用戶看到的畫面,清言也可以看到,同時(shí)可以聽(tīng)懂指令并準(zhǔn)確執(zhí)行。這樣的體驗(yàn)就如同和真人視頻通話一樣。
在智譜的視頻通話demo中可以看到,通過(guò)這一全新功能,清言瞬間變身一對(duì)一專屬私教,無(wú)論是復(fù)雜的學(xué)術(shù)論文,還是多學(xué)科的學(xué)生作業(yè),都能進(jìn)行實(shí)時(shí)解答;也能隨時(shí)切換中英文進(jìn)行對(duì)話——妥妥一位全能的學(xué)霸朋友,7X24小時(shí)陪伴在身邊。
清言app視頻通話功能自8月30日上線,首批面向清言部分用戶開放,同時(shí)開放外部申請(qǐng)。智譜將會(huì)持續(xù)迭代并逐步放開規(guī)模,盡快讓全員都可以使用。
隨著視頻通話功能的加入,讓清言app成為首個(gè)可以通過(guò)文本、音頻、視頻和圖像來(lái)進(jìn)行多模態(tài)互動(dòng)的 AI 助手。
最新推出的基座大模型,和此前發(fā)布的 CogVideoX 等模型一道,完善了智譜自主原創(chuàng)的全棧大模型譜系,推動(dòng)智譜實(shí)現(xiàn)面向世界先進(jìn)水平的全面對(duì)標(biāo)。
視頻通話功能是清言 app 繼 7 月上線生成視頻功能清影 Ying 后又一重大更新。通過(guò)小步快走持續(xù)迭代,智譜努力讓大模型技術(shù)更好賦能更多用戶。
隨著開源模型和開放平臺(tái)模型的廣受歡迎,智譜也將繼續(xù)推動(dòng) AI 力量惠及更多人群。通過(guò)大模型鏈接物理世界億級(jí)用戶,智譜致力于為千行百業(yè)帶來(lái)持續(xù)創(chuàng)新與變革,加速邁向通用人工智能時(shí)代。