當(dāng)前關(guān)注:AI見聞日報:將上下文學(xué)習(xí)能力從語言遷移到視覺,MetaVL開啟下一個多模態(tài)時代 | 見智研究
今日要點:
1、蘋果在 iOS17 中加入transformer語言模型,用于提高文字和語音轉(zhuǎn)文字時的準確性。
2、蘋果開發(fā)人員:Vision Pro里用了“腦機接口”,通過檢測眼睛等準確預(yù)測用戶下一步要做什么
【資料圖】
3、MetaVL: 將上下文學(xué)習(xí)能力從語言模型遷移到視覺,開啟下一個多模態(tài)時代
4、Runway獲得1億美元D輪融資,谷歌領(lǐng)投
見聞視角
海外AI
1、蘋果在ios17中加入transformer語言模型,用于提高文字和語音轉(zhuǎn)文字時的準確性。
蘋果在今日更新的ios系統(tǒng)介紹中,闡述了使用transformer語言模型,用于提高文字和語音轉(zhuǎn)文字時的準確性,通過用于單詞預(yù)測——提高了用戶每次鍵入時的體驗和準確性。而這個模型如同蘋果一直以來強調(diào)對用戶的隱私保護一樣,是在手機端的模型。
見智研究認為,蘋果使用transformer模型用于一些基礎(chǔ)應(yīng)用符合蘋果一直以來的務(wù)實精神,蘋果從不強調(diào)某項技術(shù)是否先進,而是要在用戶體驗上做到極致。這也是蘋果一直強調(diào)技術(shù)落地到應(yīng)用的體現(xiàn)。
見智研究相信蘋果設(shè)備在明年將會擁有自己的llm模型,而這個模型按照蘋果一貫的隱私保護模式,應(yīng)為純本地化的模型。
2、蘋果開發(fā)人員:Vision Pro里用了“腦機”,通過檢測眼睛準確預(yù)測用戶下一步要做什么
一位在AR/VR領(lǐng)域工作十年、擔(dān)任蘋果AR神經(jīng)技術(shù)研究員的網(wǎng)友Sterling Crispin發(fā)推文,介紹了蘋果AR的神經(jīng)技術(shù)研發(fā)
根據(jù)Crispin的介紹和蘋果的專利說明,蘋果的神經(jīng)技術(shù)可以做到預(yù)測用戶行為、根據(jù)用戶狀態(tài)調(diào)整虛擬環(huán)境。
最酷的結(jié)果是在用戶實際點擊之前預(yù)測他們會點擊什么,人們的瞳孔在點擊之前往往有反應(yīng),原因是人們會期望在點擊之后會發(fā)生什么。
這時可以通過監(jiān)測用戶的眼睛行為來創(chuàng)造生物反饋,并實時重新設(shè)計用戶界面,以創(chuàng)造更多預(yù)期的瞳孔反應(yīng)。這是一個通過眼睛實現(xiàn)的粗略“腦機接口”,用戶不用接受侵入性的腦部外科手術(shù)。
推斷認知狀態(tài)的其他技術(shù),包括以用戶可能無法察覺的方式向他們快速閃現(xiàn)視覺或聲音,然后測量他們的反應(yīng)。
見智研究認為,蘋果通過全新的神經(jīng)技術(shù)對人的行為進行預(yù)測,從而大幅減小了vision產(chǎn)品整個UI操作的延遲,大幅提升用戶體驗。從無數(shù)細節(jié)中可以看到,蘋果在用搬山能力處理每一個細節(jié),這個軟硬整合能力,不是誰能可以隨便模仿的,它所體現(xiàn)的每一個細節(jié),都看出蘋果花費巨大的功夫在解決交互體驗。這也是蘋果之所以偉大的地方。
3、MetaVL: 將上下文學(xué)習(xí)能力從語言模型遷移到視覺,開啟下一個多模態(tài)時代
動機:研究如何在視覺-語言領(lǐng)域?qū)崿F(xiàn)上下文學(xué)習(xí),將單模態(tài)的元學(xué)習(xí)知識轉(zhuǎn)移到多模態(tài)中,以提高大規(guī)模預(yù)訓(xùn)練視覺-語言(VL)模型的能力。方法:首先在自然語言處理(NLP)任務(wù)上元訓(xùn)練一個語言模型,實現(xiàn)上下文學(xué)習(xí),然后通過連接一個視覺編碼器將該模型轉(zhuǎn)移到視覺-語言任務(wù)上,以實現(xiàn)跨模態(tài)的上下文學(xué)習(xí)能力的轉(zhuǎn)移。優(yōu)勢:實驗證明,跨模態(tài)的上下文學(xué)習(xí)能力可以轉(zhuǎn)移,該模型顯著提高了視覺-語言任務(wù)上的上下文學(xué)習(xí)能力,并且在模型大小方面能夠有顯著的優(yōu)化,例如在VQA、OK-VQA和GQA上,所提出方法在參數(shù)數(shù)量減少約20倍的情況下超過了基準模型。見智研究一句話總結(jié):
M Monajatipoor, L H Li, M Rouhsedaghat, L F. Yang, K Chang探索了將元學(xué)習(xí)的上下文學(xué)習(xí)能力從單模態(tài)遷移到多模態(tài)的可能性,證明了在視覺-語言任務(wù)中通過遷移可以顯著提升上下文學(xué)習(xí)能力,甚至在模型大小方面實現(xiàn)優(yōu)化。
這意味著多模態(tài)情況下的對話能力將得到加強,對于現(xiàn)有的文生圖來說可能會帶來新的變化,生成模式對用戶將更友好。
4、Runway獲得1億美元D輪融資,谷歌領(lǐng)投
生成式AI平臺Runway獲得1億美元D輪融資(約7億元),估值15億美元,本次由谷歌領(lǐng)投。谷歌投資Runway的最大原因之一是為了爭奪云計算客戶。
Runway曾在4月底與谷歌簽訂了7500萬美元的3年商業(yè)協(xié)議,同時Runway已從谷歌獲得了價值2000萬美元的云計算資源用于產(chǎn)品運營和研發(fā)。
見智研究曾使用過GEN-1生成相應(yīng)視頻特效,但目前可玩性不算高。Gen-2是Runway在今年3月最新發(fā)布的,但目前手機客戶端還未提供使用。Gen-2可以通過文本、圖片、文本+圖片直接生成視頻,同時支持風(fēng)格化和渲染添加好萊塢式大片特效,僅需要幾分鐘即可完成所有操作。
風(fēng)險提示及免責(zé)條款 市場有風(fēng)險,投資需謹慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標(biāo)、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負。關(guān)鍵詞:
相關(guān)閱讀
最近更新
- 06-14
- 06-14