在對標(biāo)OpenAI之路上,智譜AI又近了一步。
今年年初,OpenAI被爆出將自研AI Agent軟件,它可替代人類,自動導(dǎo)航至任何網(wǎng)站并執(zhí)行指定任務(wù)。
近日,智譜AI推出相似產(chǎn)品——自主智能體AutoGLM,智譜將其稱為是一個可模擬用戶訪問網(wǎng)頁、點(diǎn)擊網(wǎng)頁的瀏覽器助手。
智譜的展示視頻顯示,AutoGLM可實(shí)現(xiàn)網(wǎng)頁進(jìn)行線上點(diǎn)餐、整理小紅書筆記并生成攻略、總結(jié)論文等功能。
同時,智譜AI還推出了端到端情感語音模型GLM-4-Voice 。這款情感語音模型不僅能夠模擬真實(shí)的情感表達(dá),甚至連細(xì)微的停頓、喘氣都表現(xiàn)得惟妙惟肖。
這一技術(shù)的突破,與科幻愛情電影《Her》的部分情節(jié)相似。電影中,男主角西奧多與AI助手薩曼莎偶然相識,薩曼莎正是通過富有情感的語音互動讓人感到貼近、溫暖。
如今,智譜AI的情感語音模型似乎正把《Her》中的科幻場景帶入我們的日常生活,人工智能不再只是冷冰冰的工具,而開始具備“情感”與“個性”。
達(dá)晨于2021年投資智譜AI并多輪加注。
| 自主智能體上線:能點(diǎn)外賣、夸彩虹屁
與OpenAI的AI Agent相似,智譜清言AutoGLM模型,也無需用戶手動操作示范,不受制于簡單的任務(wù)場景或API調(diào)用,即可替代人類在電子設(shè)備執(zhí)行操作。
目前,智譜清言已經(jīng)與微信、淘寶、美團(tuán)、小紅書等8款知名應(yīng)用軟件適配,覆蓋日常生活常用的線上聊天、網(wǎng)購、社交、地圖、酒店火車訂票等功能。
具體而言,當(dāng)你向AutoGLM發(fā)出指令后,雙方之間的對話將以語音形式展現(xiàn),并實(shí)時顯示字幕。
例如,你可以要求AutoGLM在大眾點(diǎn)評給出指定的店家好評,并自動編輯評論。在執(zhí)行“發(fā)送評論”這一超出指令的操作時,AutoGLM會主動提示是否進(jìn)行。你也能讓AutoGLM查找淘寶某一時段的歷史訂單,復(fù)購指定商品。就連向指定微信好友的朋友圈點(diǎn)贊、評論,這一步驟較長的任務(wù)也能完成。除了網(wǎng)購、編輯評論等功能之外,AutoGLM還能批量總結(jié)微信公眾號多篇文章,并生成文章摘要。
智譜公眾號介紹,AutoGLM基于自進(jìn)化在線課程強(qiáng)化學(xué)習(xí)框架WEBRL,克服了訓(xùn)練任務(wù)稀缺、反饋信號稀少和策略分布漂移等網(wǎng)頁智能體研究和應(yīng)用難題,加之自適應(yīng)學(xué)習(xí)策略,能夠在迭代過程中不斷改進(jìn)、持續(xù)穩(wěn)定地提高自身性能。這意味著,AutoGLM具備了一定自我糾錯能力。
△來源:智譜公眾號
據(jù)悉,為了保護(hù)用戶隱私,AutoGLM不會主動獲取用戶的個人隱私信息,如果需要執(zhí)行授權(quán)范圍之外的任務(wù),AutoGLM會主動提示以獲取用戶同意。
即使用戶向AutoGLM授權(quán),也不意味著AutoGLM永久擁有相關(guān)權(quán)限。每次后臺啟動AutoGLM,都會重新向用戶申請無障礙權(quán)限。
目前,AutoGLM已上線電腦端開放使用,安裝清言插件即可使用,手機(jī)端AutoGLM正開放安卓手機(jī)內(nèi)測。
| 情感語音模型,有情感、會停頓
兩個月前,智譜清言首次秀了一把視頻通話技術(shù),雖然當(dāng)時語音通話功能能聽懂對話、回復(fù)還算準(zhǔn)確,但語氣像是機(jī)器人“背稿子”,沒啥感情。要是讓它來點(diǎn)情感表達(dá),它還會一本正經(jīng)地告訴你:“作為一個人工智能,無法表達(dá)感情”。
不過,現(xiàn)在升級后的情感語音模型,感覺就不一樣了。語音聽起來更有“人味兒”,還能加點(diǎn)感情,像真人一樣跟你聊。
它已經(jīng)學(xué)會了用撒嬌、調(diào)侃、憤怒、歇斯底里等語氣表達(dá)。比如,擬人語音能模仿孩子,用撒嬌語氣向姐姐要糖葫蘆。
如果普通話聽膩了,沒問題,它還能切換為北京、東北、廣東、臺灣、重慶五地腔調(diào),比如介紹美食時那句經(jīng)典的“巴適得板”,直接讓人食欲大開。
玩角色扮演游戲也不成問題,可以把它設(shè)定為《哈利波特》中的反派伏地魔與你戰(zhàn)斗,并能要求它以指定的語氣進(jìn)行扮演。比如它能以電視劇中常見的反派語氣說話。
如果挑戰(zhàn)繞口令加速,它可能就會“翻車”了,發(fā)音有點(diǎn)“飄”。不過在某些時候,擬人語音說話時偶爾會出現(xiàn)短暫的電流聲。另外,發(fā)音偶爾也可能不標(biāo)準(zhǔn),比如將為什么的“為”,發(fā)音為“微”。
據(jù)了解,GLM-4-Voice結(jié)合了自然語言生成(NLG)和語音合成技術(shù),相比傳統(tǒng)的TTS技術(shù)(Text-to-Speech),擬人語音能夠理解上下文語境,實(shí)現(xiàn)富有情感的自然對話。
此外,GLM-4-Voice以音頻 token 的形式直接建模語音,在一個模型里面同時完成語音的理解和生成,信息損失和誤差積累相比傳統(tǒng)級聯(lián)方案更少,理論上有著更高的建模上限。
△GLM-4-Voice 模型架構(gòu)圖;來源:智譜AI
這不是清言擬人語音通話的全部功能,其對標(biāo)GPT 40,將在響應(yīng)和打斷速度、情緒感知情 感共鳴、語音可控表達(dá)、多語言多方言等方面進(jìn)一步突破。目前,其已實(shí)現(xiàn)不同情緒,各地方言說話時,還能調(diào)節(jié)語速、音量,實(shí)現(xiàn)與真人般的對話。
目前,GLM-4-Voice已上線清言app,用戶可與清言自然聊天。值得注意的是,GLM-4-Voice已對外開源,這是智譜AI首個開源的端到端多模態(tài)模型。
下一步,它還將支持視頻通話功能,屆時不僅能認(rèn)出物體,還能用語氣帶來“眼神交流”的互動感。
據(jù)智譜公眾號,智譜發(fā)布從文本、圖像、視頻到情感語音模型等多模態(tài),并讓AI學(xué)會使用各種工具,原因在于其打造了新的基座模型——GLM-4-Plus。在語言文本能力方面,GLM-4-Plus和GPT-4o、405B參數(shù)量的Llama3.1 相當(dāng)。
| 加碼AI手機(jī),智譜找到商業(yè)化大入口
“現(xiàn)在的小模型還處于找市場的階段,需要將市場與技術(shù)磨合,提升效率的同時找到新的應(yīng)用場景。”
兩個月前,智譜AI CEO張鵬曾提到了這一觀點(diǎn)。與手機(jī)廠商合作AI智能體,或許就是張鵬所說的新場景。
找到場景,是模型廠商的當(dāng)務(wù)之急,這意味著模型廠商不僅能獲得穩(wěn)定的收入來源,完成自我造血,同時也能在場景中持續(xù)手機(jī)數(shù)據(jù),進(jìn)行產(chǎn)品迭代。
而AI智能體是大模型應(yīng)用的主要形式之一,其具備自主感知、決策并采取行動,被認(rèn)為將是電腦、智能手機(jī)下一代產(chǎn)品形態(tài)的AI手機(jī)、AI PC,就搭載了AI智能體。據(jù)咨詢機(jī)構(gòu)IDC預(yù)計(jì),2027年,中國市場AI手機(jī)和AI PC的市占率將分別超過50%、80%。
智譜正在加緊推動大模型落地AI手機(jī)。本月22日,智譜與高通達(dá)成合作,為驍龍 8 至尊版適配優(yōu)化 GLM-4V 端側(cè)視覺大模型,提供多模態(tài)交互方式;23日,智譜與某手機(jī)廠商圍繞GLM 大模型合作,雙方將打造AI產(chǎn)品。
而AutoGLM,智譜也透露正在與榮耀等手機(jī)廠商開展深度合作。事實(shí)上,今年9月智譜與榮耀已成立AI大模型技術(shù)聯(lián)合實(shí)驗(yàn)室。
榮耀也有意進(jìn)一步提升AI智能體的表現(xiàn)。在23日的榮耀MagicOS 9.0發(fā)布會媒體采訪中,榮耀終端有限公司CEO趙明表示,榮耀正在通過AI重構(gòu)操作系統(tǒng),打造核心底層能力,以實(shí)現(xiàn)更加智慧化的服務(wù)。
AI手機(jī)風(fēng)頭正盛,多家手機(jī)廠商如蘋果、榮耀、vivo、OPPO等爭相推出具備AI功能的手機(jī),AI功能如AI消除、AI通話摘要等。
然而,搭載AI智能體的手機(jī)目前數(shù)量較少,其中原因,既包括行業(yè)技術(shù)發(fā)展仍不成熟,另一反面相關(guān)標(biāo)準(zhǔn)長期缺失。
不過,這一情況正在逐步改善。
市場層面,Open.ai、智譜等模型廠商已傳出與手機(jī)公司合作消息,將推動模型廠商、應(yīng)用軟件提供者與手機(jī)廠商之間的合作。
政策層面,中國信息通信研究院與國內(nèi)多家手機(jī)廠商聯(lián)合發(fā)布《終端智能化分級研究報告》,其中對終端智能化進(jìn)行了分級定義,一定程度,這將推進(jìn)國內(nèi)AI手機(jī)市場的發(fā)展。
△終端智能化分級定義
多款大模型已與智能手機(jī)生態(tài)公司合作,或許AI手機(jī),將成為智譜商業(yè)驅(qū)動的主引擎。