OneFlow編譯
(資料圖片僅供參考)
翻譯|賈川、楊婷、徐佳渝 編輯|王金許
一朝成名天下知。ChatGPT/GPT-4相關(guān)的新聞接二連三刷屏朋友圈,如今,這些模型背后的公司OpenAI的知名度不亞于任何科技巨頭。
不過,就在ChatGPT問世前,OpenAI在GPT-3發(fā)布后的兩年多時(shí)間里陷入沉寂,甚至開始被人唱衰。實(shí)際上,OpenAI在這期間正在潛心打磨GPT-3.5。
在OneFlow去年3月發(fā)布的《深度學(xué)習(xí)崛起十年:“開掛”的OpenAI革新者》一文中,OpenAI聯(lián)合創(chuàng)始人、首席科學(xué)家就介紹了那些現(xiàn)在業(yè)內(nèi)人盡皆知的人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)、AI對(duì)齊以及多模態(tài)等關(guān)鍵名詞和基本思路。
只不過,那時(shí)業(yè)內(nèi)似乎都在忙著比拼更大的模型參數(shù),無暇顧及抑或并不在意OpenAI正在研究的工作,看過這個(gè)對(duì)話的人很少。
當(dāng)然,即使看了他們的技術(shù)思路,相信他們能走通的人就更少了,能去真正實(shí)踐的也只有他們自己。直到ChatGPT大獲成功,同行也只好羨慕嫉妒拍自己大腿,并說上一句:不就是已有技術(shù)的組合。然后眼睜睜看著OpenAI一腳油門,甩出同行幾條街。
作為GPT系列模型背后“組裝者”和推動(dòng)者,毫不夸張地說,沒有Ilya Sutskever,就沒有現(xiàn)在的ChatGPT以及GPT-4。他正在改變世界。
更驚人的是,十年前,他已經(jīng)改變過一次世界。那個(gè)引發(fā)深度學(xué)習(xí)新一輪革命浪潮的AlexNet也與Ilya有關(guān),他是AlexNet的作者之一,后續(xù)隨之而來的AlphaGo、GPT、CLIP、DALL-E和Codex都離不開他的貢獻(xiàn)。
那么,從推動(dòng)這一系列變革的科學(xué)家角度,他究竟如何看待當(dāng)先ChatGPT、GPT-4模型的發(fā)展?他對(duì)AI的思考和堅(jiān)定信念從何而來?OpenAI下一步研究方向是什么?他又如何看待AI對(duì)社會(huì)的影響?
在近期與英偉達(dá)CEO黃仁勛(GTC大會(huì))以及Eye on AI播客的主持人Craig S. Smith的兩場對(duì)話中,Ilya對(duì)此進(jìn)行了解答。
對(duì)話中的Ilya像是AI研究者中的苦行僧。不同于Sam Altman和Greg Brockman兩位創(chuàng)始人在交談中表現(xiàn)出的異常敏捷的表達(dá)能力,Ilya的語速相對(duì)平緩很多,但他的思考要比說出口的內(nèi)容更深遠(yuǎn)。當(dāng)你問他能否解決GPT模型一本正經(jīng)地胡說八道的問題時(shí),他說,“讓我們拭目以待”,這個(gè)回答讓你感覺毛骨悚然的同時(shí)還會(huì)相信這家伙真的能做到。
就在業(yè)內(nèi)其他團(tuán)隊(duì)正在研究怎么研發(fā)類ChatGPT追趕甚至“彎道超車”O(jiān)penAI時(shí),GPT-5或許已經(jīng)在路上了。在這之前,最好看看Ilya怎么思考AI及其未來發(fā)展方向,或許會(huì)啟發(fā)我們提出更好的、不一樣的發(fā)展路徑。
OneFlow以QA形式對(duì)上述兩場對(duì)話進(jìn)行了編譯整理,對(duì)于問題以下不作具體區(qū)分。(Craig的播客經(jīng)授權(quán)后由OneFlow編譯,內(nèi)容轉(zhuǎn)載請聯(lián)系OneFlow獲得授權(quán)。播客:https://www.eye-on.ai/)
1AI界的“iPhone時(shí)刻”
Q:ChatGPT就是AI界的“iPhone時(shí)刻”,你是如何實(shí)現(xiàn)這一歷史性轉(zhuǎn)變的?
A:最開始,我們也不清楚該如何開展整個(gè)項(xiàng)目,而且這個(gè)領(lǐng)域與現(xiàn)在的發(fā)展走向也完全不同。2016年左右開始創(chuàng)辦OpenAI時(shí),這一領(lǐng)域的研究者還很少,我們當(dāng)時(shí)的同事大多來自Google/DeepMind,他們有從業(yè)經(jīng)驗(yàn),但思路相對(duì)而言比較狹窄,有所束縛。
那時(shí)我們有兩個(gè)大的基礎(chǔ)想法,它們的影響一直延續(xù)到今天。第一個(gè)想法是通過壓縮進(jìn)行無監(jiān)督學(xué)習(xí)。現(xiàn)在看來這是理所應(yīng)當(dāng),但在2016年,無監(jiān)督學(xué)習(xí)是一個(gè)還沒有被解決的問題,也沒有任何科學(xué)家有相關(guān)想法。
Yann LeCun當(dāng)時(shí)到處說這是一個(gè)技術(shù)上的瓶頸。壓縮也不是人們經(jīng)常會(huì)談到的問題,但ChatGPT實(shí)際上確實(shí)壓縮了訓(xùn)練數(shù)據(jù),我們通過不斷訓(xùn)練自回歸生成模型實(shí)現(xiàn)了數(shù)據(jù)壓縮。如果數(shù)據(jù)被壓縮得足夠好,就必須要提取其中存在的所有隱藏信息,這就是關(guān)鍵所在。
這也直接導(dǎo)致了我們研究情緒神經(jīng)元。OpenAI科學(xué)家Alec Radford訓(xùn)練LSTM來預(yù)測亞馬遜評(píng)論的下一個(gè)字符時(shí)發(fā)現(xiàn),如果你預(yù)測下一個(gè)字符足夠好,LSTM就會(huì)有一個(gè)與情緒對(duì)應(yīng)的神經(jīng)元。這就很好地展示了無監(jiān)督學(xué)習(xí)的效果,也驗(yàn)證了下一個(gè)字符預(yù)測的想法。這個(gè)發(fā)現(xiàn)對(duì)我們的影響很大。
但哪里能得到無監(jiān)督學(xué)習(xí)的數(shù)據(jù)呢?無監(jiān)督學(xué)習(xí)的難點(diǎn)不在于數(shù)據(jù),更多關(guān)于為什么要這么做,以及意識(shí)到訓(xùn)練神經(jīng)網(wǎng)絡(luò)來預(yù)測下一個(gè)字符是值得追求和探索的。
然后Transformer出來后,我們立即發(fā)現(xiàn)這個(gè)模型就是我們想要的,于是做出了GPT-1。
第二個(gè)想法就是強(qiáng)化學(xué)習(xí)。我有一個(gè)很強(qiáng)的信念是“越大越好”,OpenAI的目標(biāo)是找到擴(kuò)展的正確路徑。我們完成的第一個(gè)真正的大型項(xiàng)目是實(shí)時(shí)戰(zhàn)略游戲DOTA 2。當(dāng)時(shí)我們訓(xùn)練了一個(gè)強(qiáng)化學(xué)習(xí)的Agent來與自己對(duì)抗,目標(biāo)是達(dá)到人類玩家的水平。
從DOTA的強(qiáng)化學(xué)習(xí)轉(zhuǎn)變?yōu)槿祟惙答伒膹?qiáng)化學(xué)習(xí),再加上GPT技術(shù)基座,成就了今天的ChatGPT。
Q:有人認(rèn)為,ChatGPT只是一個(gè)大型語言模型,但在我看來,那背后有自己的復(fù)雜系統(tǒng)。能否介紹一下你們是如何通過強(qiáng)化學(xué)習(xí)進(jìn)行精調(diào)的?ChatGPT背后是否有多種系統(tǒng)進(jìn)行支撐?
A:當(dāng)我們訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)以準(zhǔn)確預(yù)測互聯(lián)網(wǎng)上大量不同文本的下一個(gè)詞時(shí),我們在做的其實(shí)是在學(xué)習(xí)一個(gè)世界模型。從表面看,神經(jīng)網(wǎng)絡(luò)只是在學(xué)習(xí)文本中的統(tǒng)計(jì)相關(guān)性,但實(shí)際上,學(xué)習(xí)統(tǒng)計(jì)相關(guān)性就能把知識(shí)壓縮得很好,神經(jīng)網(wǎng)絡(luò)所學(xué)習(xí)的是,它在生成文本過程中的一些表述,文本只是這個(gè)世界的一個(gè)映射,所以神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的是這個(gè)世界的多個(gè)方面的知識(shí)。
這就是它在準(zhǔn)確預(yù)測下一個(gè)詞的任務(wù)中所學(xué)習(xí)到的,對(duì)下一個(gè)詞的預(yù)測越準(zhǔn),還原度越高,你看到的文本的準(zhǔn)確度就越高。這就是ChatGPT模型在預(yù)訓(xùn)練階段所做的,它盡可能多地從世界的映射(也就是文本)中學(xué)習(xí)關(guān)于世界的知識(shí)。
但這不能說明神經(jīng)網(wǎng)絡(luò)會(huì)表現(xiàn)出人類希望它做出的行為,這就需要第二階段的微調(diào)、人類反饋的強(qiáng)化學(xué)習(xí)以及其他形式的AI系統(tǒng)的協(xié)助,這個(gè)階段做得更好,神經(jīng)網(wǎng)絡(luò)越就越有用、可靠。
Q:多模態(tài)為GPT-4帶來的最大突破是什么?
A:多模態(tài)非常有意思。第一,多模態(tài)在視覺識(shí)別上特別有用。因?yàn)檎麄€(gè)世界是視覺化的,人類和其他動(dòng)物也是視覺動(dòng)物,人腦1/3的灰質(zhì)都是用于視覺的,如果沒有視覺,神經(jīng)網(wǎng)絡(luò)的用處不會(huì)達(dá)到它應(yīng)有的程度,GPT-4能夠很好地去理解這些圖像。
第二,除了從文本中學(xué)習(xí)外,我們還能從圖像中學(xué)習(xí)關(guān)于這個(gè)世界的知識(shí),盡管這看起來還不太明確。一個(gè)人可能一生之中會(huì)聽到10億個(gè)詞,對(duì)我們來說,有盡可能多的信息來源很重要。
同樣,這也適用于神經(jīng)網(wǎng)絡(luò)。即使是視覺信息,也會(huì)通過文本緩慢傳播,如果再加上視覺信息,模型就能學(xué)到文本中原本沒有的信息。
Q:相比ChatGPT,GPT-4在哪些方面有所改進(jìn)?
A:ChatGPT版本有時(shí)會(huì)錯(cuò)誤地理解問題,給出的回答有的很不理想,但GPT-4好多了,還能會(huì)以更快的方式去解決難題,簡而言之,就是可靠性更高了。 GPT-4是在ChatGPT的基礎(chǔ)上進(jìn)行改進(jìn)的。GPT-4的訓(xùn)練大約始于6-8個(gè)月前,它的預(yù)測能力更加準(zhǔn)確,這得益于其更好的神經(jīng)網(wǎng)絡(luò),使其能夠更加精準(zhǔn)地預(yù)測下一個(gè)單詞,并深入理解文本。
GPT-4為什么能更精準(zhǔn)地預(yù)測下一個(gè)單詞,為什么這會(huì)帶來更深的理解能力?就像你讀偵探小說時(shí),情節(jié)、事件以及其他線索都不清楚,使你無法準(zhǔn)確預(yù)測故事結(jié)局。但當(dāng)你閱讀小說的最后一頁時(shí),就可以很容易推測出兇手是誰,這是因?yàn)槟阍陂喿x過程中積累了大量的知識(shí)和經(jīng)驗(yàn)。同樣地,GPT-4的更大訓(xùn)練數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)可以幫助它更好地理解文本,從而更準(zhǔn)確地預(yù)測下一個(gè)單詞。
Q:從ChatGPT到GPT-4,有哪些能力讓你覺得很驚艷?
A:一方面是模型的可靠性,另一方面,最讓我覺得驚艷的就是,這些模型真的有效。我在AI領(lǐng)域差不多有二十多年了,神經(jīng)網(wǎng)絡(luò)從最開始毫不起眼的工作慢慢演進(jìn),通過更大的數(shù)據(jù)集訓(xùn)練之后,變得越來越強(qiáng),盡管基礎(chǔ)算法不同,但訓(xùn)練方式是類似的。我經(jīng)常會(huì)感嘆于人工神經(jīng)元的想法居然真的有效。
2
“智能”背后的工作原理
Q:你是何時(shí)對(duì)計(jì)算機(jī)科學(xué)感興趣的?這種興趣來自最初的一時(shí)沖動(dòng)?還是由腦科學(xué)、神經(jīng)科學(xué)等興趣引發(fā)的?
A:我出生于俄羅斯,在以色列長大,十多歲時(shí)隨父母移民到了加拿大。根據(jù)父母的說法,我從小就表現(xiàn)出了對(duì)AI的興趣。我一直想搞清楚意識(shí)(consciousness)這個(gè)東西,對(duì)一切能夠幫我了解意識(shí)的東西感興趣。在這方面,AI似乎是個(gè)很好的切入點(diǎn)。
17歲時(shí),我就開始跟著Geoffrey Hinton在多倫多大學(xué)做研究了。當(dāng)時(shí),深度學(xué)習(xí)是人工智能領(lǐng)域最重要、最難接觸的部分,我一直想做這方面的研究。
現(xiàn)在,我們理所當(dāng)然地認(rèn)為計(jì)算機(jī)是可以學(xué)習(xí)的,但在2003年,情況恰恰相反,AI領(lǐng)域的最大成就是國際象棋引擎深藍(lán)(Deep Blue)。當(dāng)時(shí)AI的發(fā)展程度還比較低級(jí),就拿國際象棋來說,AI只是通過簡單的方法尋找棋子的最佳走位。
這種方法難以用于實(shí)戰(zhàn),因?yàn)楫?dāng)時(shí)人們還沒有搞清楚該怎么讓AI學(xué)習(xí),但我對(duì)此很感興趣,幸運(yùn)的是,Geoff是多倫多大學(xué)的教授,我有機(jī)會(huì)在學(xué)校見他,見面后一拍即合,我很快加入了他的團(tuán)隊(duì)。
Q:你只是單純地對(duì)機(jī)器學(xué)習(xí)感興趣,還是與Geoff一樣,希望借助機(jī)器學(xué)習(xí)來了解大腦的奧秘?
A:AI涵蓋的領(lǐng)域非常廣泛,人們?nèi)胄蠥I領(lǐng)域的動(dòng)機(jī)也各有不同,而我想要弄清楚“智能”背后的工作原理。
現(xiàn)在,對(duì)這個(gè)問題我們已經(jīng)有了一些答案。“智能”的背后是一張大型神經(jīng)網(wǎng)絡(luò),我們對(duì)神經(jīng)網(wǎng)絡(luò)的工作原理也有了一定程度的了解。但在當(dāng)時(shí),雖然神經(jīng)網(wǎng)絡(luò)已經(jīng)存在,卻沒人知道它的用處。
所以“智能”到底是如何運(yùn)作的?到底該怎么做才能讓計(jì)算機(jī)變得稍微智能一點(diǎn)?
那時(shí)的我有一個(gè)非常明確的想法:在AI領(lǐng)域作出真實(shí)、有效的貢獻(xiàn)。當(dāng)時(shí)AI屆看似人多,貢獻(xiàn)也層出不窮,但卻沒有取得任何實(shí)質(zhì)性的成就,就像一片荒蕪之地,看不到希望。這些就是我最初從事AI的動(dòng)力。
Q:Geoff曾說,卷積神經(jīng)網(wǎng)絡(luò)(CNN)的突破促使你參加了ImageNet競賽,而Alex用他高超的編程技能訓(xùn)練了神經(jīng)網(wǎng)絡(luò)。
A:簡而言之,當(dāng)時(shí)我意識(shí)到,如果在一個(gè)足夠大的數(shù)據(jù)集上訓(xùn)練大型深度神經(jīng)網(wǎng)絡(luò),讓這個(gè)神經(jīng)網(wǎng)絡(luò)去處理復(fù)雜任務(wù)(比如視覺等),只要堅(jiān)持訓(xùn)練下去,就能成功。
這背后的邏輯是:人腦是擁有神經(jīng)元的神經(jīng)網(wǎng)絡(luò),可以快速處理視覺等復(fù)雜任務(wù),可以得出,其它某些神經(jīng)網(wǎng)絡(luò)也可以很好地做到這一點(diǎn)。因此,我們需要一個(gè)較小但相關(guān)的神經(jīng)網(wǎng)絡(luò),并用數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練。計(jì)算機(jī)內(nèi)部最好的神經(jīng)網(wǎng)絡(luò)將與執(zhí)行這項(xiàng)任務(wù)的神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)聯(lián)。當(dāng)時(shí)的一種說法是,大型深度神經(jīng)網(wǎng)絡(luò)可以完成這一任務(wù)。
另外,我們要有訓(xùn)練工具(Geoff的實(shí)驗(yàn)室完成了這部分的技術(shù)工作),將這兩點(diǎn)相結(jié)合(一是神經(jīng)網(wǎng)絡(luò)要足夠大,確保訓(xùn)練時(shí)正常運(yùn)行;二是指定解決方案的數(shù)據(jù)),我們就可以訓(xùn)練神經(jīng)網(wǎng)絡(luò),ImageNet競賽剛好滿足了我們的需求。Alex有快速卷積核,ImageNet擁有足夠大的數(shù)據(jù),而我們抓住了這個(gè)機(jī)會(huì),做了一些前所未有的嘗試,并取得了成功。
Q:Geoff曾提出一個(gè)非常有趣的觀點(diǎn):與人腦相比,具有大量參數(shù)的大型模型,尤其是大型語言模型,可以用相對(duì)較少的參數(shù)處理大量數(shù)據(jù)。相比之下,人類大腦有數(shù)以萬億計(jì)的參數(shù),但處理的數(shù)據(jù)量相對(duì)較小。你是否思考過這個(gè)問題?
A:特別是在模型訓(xùn)練的早期階段,現(xiàn)有神經(jīng)網(wǎng)絡(luò)技術(shù)結(jié)構(gòu)確實(shí)需要大量數(shù)據(jù)。然而,在模型訓(xùn)練的后期階段,對(duì)數(shù)據(jù)的需求會(huì)逐漸減少,這也是模型能夠快速學(xué)習(xí)的原因。雖然模型的學(xué)習(xí)速度不及人類,但已經(jīng)相當(dāng)迅速了。
從某個(gè)角度來看,我們并不一定關(guān)心是否需要大量數(shù)據(jù)才能實(shí)現(xiàn)目標(biāo)。但從更普遍角度,從較少的數(shù)據(jù)中學(xué)到更多知識(shí)是可能的,盡管這需要一些富有創(chuàng)意的想法。
從少量的數(shù)據(jù)中學(xué)習(xí)更多知識(shí)將會(huì)開啟其他可能性,使我們能夠向AI傳授其缺乏的技能,并且更易傳遞我們的期望和偏好,以更精確地控制其行為。雖然經(jīng)過訓(xùn)練后的語言模型可以快速學(xué)習(xí)知識(shí),但還有更多的機(jī)會(huì)可以利用。
3
擴(kuò)展的對(duì)象更重要
Q:2017年,《Attention Is All You Need》一文提出了自注意機(jī)制和Transformer模型。那么GPT項(xiàng)目的研發(fā)是如何開始的?
A:在OpenAI早期,我們的工作重心是“預(yù)測下一件事就是你所需的一切(predicting the next thing is all you need)”。當(dāng)時(shí),我們想利用有限的神經(jīng)網(wǎng)絡(luò)去預(yù)測下一個(gè)單詞、像素,在我們看來預(yù)測就是壓縮(compression)。我們想知道預(yù)測下一個(gè)單詞能發(fā)展到什么程度,想知道預(yù)測能否解決無監(jiān)督學(xué)習(xí)。在GPT之前,無監(jiān)督學(xué)習(xí)就是機(jī)器學(xué)習(xí)的最高目標(biāo),是大家心目中的圣杯。
雖然現(xiàn)在人們已經(jīng)徹底掌握了無監(jiān)督學(xué)習(xí),它已不再是人們關(guān)注的焦點(diǎn),但它曾經(jīng)確實(shí)是機(jī)器學(xué)習(xí)的最高目標(biāo),是一大難點(diǎn)。當(dāng)時(shí),我對(duì)這方面的研究非常感興趣,因?yàn)?strong>足夠好的預(yù)測可以幫助我們進(jìn)行無監(jiān)督學(xué)習(xí),理想狀態(tài)是實(shí)現(xiàn)全部數(shù)據(jù)集的無監(jiān)督學(xué)習(xí)。
當(dāng)時(shí),我們使用的是遞歸神經(jīng)網(wǎng)絡(luò)(RNN),但它無法勝任上述任務(wù)?!禔ttention Is All You Need》論文發(fā)表以后,我們很快意識(shí)到Transformer可以解決當(dāng)前神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的長程依賴(long-term dependencies)的局限問題。
這其實(shí)是技術(shù)問題,但我們立刻切換到Transformer。就這樣,初期GPT開始萌芽、發(fā)展起來,有了Transformer,GPT運(yùn)行越來越順利,變得越來越大,隨后我們意識(shí)到,可以讓它一直不斷擴(kuò)大,就這樣最終發(fā)展到了GPT-3,并走到了現(xiàn)在這個(gè)階段。
Q:Richard Sutton(強(qiáng)化學(xué)習(xí)先驅(qū))一直強(qiáng)調(diào)“擴(kuò)展(scale)是我們所需要的一切”,而不需要新的算法。這一觀點(diǎn)是否對(duì)你有影響或者是你們想到一塊兒去了?
A:他的想法并沒有影響到我。盡管Rich的《慘痛教訓(xùn)(The Bitter Lesson)》一文非常有說服力,我們也很樂意看到其他人的類似想法,但我認(rèn)為,這篇文章的觀點(diǎn)其實(shí)有點(diǎn)夸大其詞,或者至少人們從中得出的觀點(diǎn)“不管做什么,擴(kuò)展就對(duì)了”是夸張的說法。這種說法是不正確的。
我們需要擴(kuò)展一些可以從中受益的特定事物。深度學(xué)習(xí)讓我們首次實(shí)現(xiàn)了對(duì)擴(kuò)展的有效利用,并從中獲得了回報(bào),這是深度學(xué)習(xí)的一大突破。在此之前,大型計(jì)算機(jī)集群的作用是什么?可能僅限于天氣模擬、物理模擬、電影制作等等,除此之外沒有任何真實(shí)的需求。
事實(shí)上,深度神經(jīng)網(wǎng)絡(luò)越大、訓(xùn)練數(shù)據(jù)越多,運(yùn)行的效果就越好,這是第一個(gè)有趣的擴(kuò)展案例。將來我們需要擴(kuò)展的事物可能會(huì)出現(xiàn)變化,這種變化也許更有利于擴(kuò)展,但現(xiàn)在我們還不知道變化的規(guī)模,在搞清楚它的規(guī)模之后,你可能又會(huì)驚訝于它的變化之微小。
總之,擴(kuò)展的對(duì)象十分重要?,F(xiàn)在,我們只是找到了一個(gè)能夠獲得回報(bào)的擴(kuò)展對(duì)象。
Q:聽你說過,需要更快的處理器才能進(jìn)一步擴(kuò)展模型。模型擴(kuò)展(scaling of models)似乎是無止境的,但訓(xùn)練這些模型所需的計(jì)算能力已經(jīng)接近極限,或者至少達(dá)到了社會(huì)公認(rèn)的極限。
A:我記不太清你提及的具體評(píng)論,但在處理器方面,越快越好的邏輯不言而喻,我們確實(shí)需要更快、更多的處理器。不過,隨著計(jì)算能力的需求不斷提高,對(duì)計(jì)算資源的投入成本也在持續(xù)上升。
問題的關(guān)鍵不在于成本是否高昂,而在于我們能否通過投入成本得到超過其本身的價(jià)值。如果你投入了巨大的成本但沒有獲得任何價(jià)值,那么這樣的代價(jià)肯定不值得。但是,如果你獲得了非常有用、極具價(jià)值的東西,能夠解決許多問題,那付出的成本就是值得的。
4
大型語言模型的局限性
Q:目前,大型語言模型的局限性在于,它們所擁有的知識(shí)只限于它們所訓(xùn)練過的語種,而大多數(shù)人類知識(shí)都是非語言性的。它們的目標(biāo)是滿足prompt的統(tǒng)計(jì)一致性(statistical consistency),而對(duì)語言所涉及的現(xiàn)實(shí)沒有基本的理解。
A:其實(shí),很難確定什么是語言模型的局限性。比如,兩年前人們曾對(duì)當(dāng)時(shí)的局限性高談闊論,但現(xiàn)在的局限性跟當(dāng)時(shí)相比又完全不同。因此相比于談?wù)摼窒扌裕瑢⒆⒁饬Ψ旁诋?dāng)下的發(fā)展更為重要,畢竟誰又能保證目前的局限性還會(huì)在兩年后仍制約著語言模型的發(fā)展呢?至少我沒這個(gè)自信。
另一方面,有人認(rèn)為模型只是在學(xué)習(xí)統(tǒng)計(jì)規(guī)律,因此它們不知道世界的本質(zhì)究竟是什么。但我認(rèn)為,學(xué)習(xí)統(tǒng)計(jì)規(guī)律比我們眼睛看到的更重要。之所以現(xiàn)在才有這個(gè)觀點(diǎn),是因?yàn)槲覀冞€沒有(至少大多數(shù)人沒有)真正在神經(jīng)網(wǎng)絡(luò)上花費(fèi)很多時(shí)間,而神經(jīng)網(wǎng)絡(luò)在一定程度上是統(tǒng)計(jì)學(xué)。
什么是統(tǒng)計(jì)模型?其實(shí)只是擬合一些參數(shù),比如真實(shí)發(fā)生的事情。預(yù)測也是一種統(tǒng)計(jì)現(xiàn)象,不過需要了解產(chǎn)生數(shù)據(jù)的真正底層過程才能更多地對(duì)數(shù)據(jù)進(jìn)行壓縮,進(jìn)而完成預(yù)測。在這個(gè)過程中,你需要更多地了解這個(gè)產(chǎn)生數(shù)據(jù)的世界。
隨著生成模型變得越來越好,理解程度也會(huì)越來越高,它們對(duì)整個(gè)世界的了解會(huì)讓我們?yōu)橹痼@。而其中諸多精妙之處,卻不止存在于現(xiàn)世,那是一個(gè)透過文本鏡頭才能看到的世界。
它們了解到的世界是文字鏡頭映射出來的世界:學(xué)習(xí)互聯(lián)網(wǎng)上人類生成的各類文本。但這些文本其實(shí)也表達(dá)了整個(gè)世界。
一個(gè)很有意義和啟發(fā)性的例子是,Sydney是由ChatGPT支持的Bing衍生出的一種模式,當(dāng)用戶對(duì)Sydney說,Google是比Bing更好的搜索引擎時(shí),Sydney就會(huì)變得好斗、咄咄逼人。
那么,我們該如何看待這種現(xiàn)象?這又意味著什么?有人會(huì)說,它只是在預(yù)測人類在這種情況下會(huì)怎么做。沒錯(cuò),人類確實(shí)會(huì)這么做,但這也許意味著用心理學(xué)語言開始理解神經(jīng)網(wǎng)絡(luò)的行為。
Q:事實(shí)上,神經(jīng)網(wǎng)絡(luò)有時(shí)會(huì)產(chǎn)生“幻覺”,而語言模型在學(xué)習(xí)世界、思想、概念等方面的表現(xiàn)要好得多,但輸出方面卻不盡人意,當(dāng)我向ChatGPT詢問關(guān)于我的個(gè)人信息時(shí),它識(shí)別出我是一名記者,但它卻給我冠上了很多沒有獲得過的榮譽(yù)。在你們未來的研究中,是否有措施來解決這個(gè)問題?
A:關(guān)于這一過程需要理解的是:在預(yù)訓(xùn)練階段,我們只是訓(xùn)練語言模型,希望學(xué)習(xí)關(guān)于這個(gè)世界的一切;在人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)階段,我們關(guān)注的是輸出結(jié)果。如果輸出不合適或者不合理時(shí),就會(huì)停止這樣的輸出。模型很快就能學(xué)會(huì)生成恰當(dāng)?shù)妮敵觥?/p>
現(xiàn)在的問題在于輸出水平,其實(shí)預(yù)訓(xùn)練階段的情況并非如此。神經(jīng)網(wǎng)絡(luò)確實(shí)有編造回答的傾向,即使是ChatGPT也會(huì)時(shí)不時(shí)的胡亂編造,這極大地限制了模型的實(shí)用性。我希望能通過改進(jìn)強(qiáng)化學(xué)習(xí)反饋步驟來阻止神經(jīng)網(wǎng)絡(luò)產(chǎn)生“幻覺”。
此時(shí)你可能會(huì)問,它們真的會(huì)學(xué)習(xí)嗎?我的答案是:讓我們拭目以待。
Q:如果我告訴ChatGPT,它的回答有誤,那么這是在對(duì)其進(jìn)行訓(xùn)練,還是內(nèi)部會(huì)給它一些懲罰或者獎(jiǎng)勵(lì),以便下次回答得更加準(zhǔn)確。
A:我們現(xiàn)在的做法是雇傭人工訓(xùn)練員來教神經(jīng)網(wǎng)絡(luò)(比如ChatGPT)如何表現(xiàn)。到目前為止,他們指定所需行為的方式略有不同。但事實(shí)上,你所描述的就是正確的訓(xùn)練方式:只需與它互動(dòng),它會(huì)從你的反應(yīng)中推斷自己的回答是否讓你滿意。
因此,輸出結(jié)果不好,ChatGPT下次就應(yīng)該做些不同的事情。雖然“幻覺”是一個(gè)很大的問題,但這種方法完全可以解決這些問題。
Q:Yann LeCun(圖靈獎(jiǎng)得主,CNN網(wǎng)絡(luò)發(fā)明者)認(rèn)為,大型語言模型所缺失的是一種非語言的基礎(chǔ)世界模型(underlying world model),語言模型的構(gòu)建可以對(duì)其進(jìn)行參考。我想聽聽你對(duì)此的看法,以及你是否在這方面有所探索。
A:我看過他的提議,其中有許多想法,并且與當(dāng)前技術(shù)范式可能存在一些細(xì)微差異,但在我看來,這些差異并不是非常顯著。
首先,對(duì)于一個(gè)系統(tǒng)來說,擁有多模態(tài)的理解是可取的,這樣可以使其從多方位(不僅僅從文本)來了解世界、了解人類以及與之相關(guān)的情況,如此一來,系統(tǒng)也能更好地理解它應(yīng)該解決的任務(wù),滿足人類的需求。
在這方面,我們已經(jīng)做了相當(dāng)多的工作,比如Clip和Dall-E,它們都朝著多模態(tài)方向發(fā)展。這并不是一個(gè)非此即彼的情況,有人說如果沒有視覺,不從視頻中理解世界,就不能處理這方面的工作。
但我想說的是:有些東西從圖像和圖表中學(xué)習(xí)起來要容易得多,但我們?nèi)匀豢梢酝ㄟ^文本來進(jìn)行學(xué)習(xí),只是學(xué)習(xí)速度要慢一點(diǎn)。
以顏色舉例。雖然我們不能從文本中學(xué)習(xí)顏色的概念,但每個(gè)神經(jīng)網(wǎng)絡(luò)都通過“嵌入(embeddings)”表示單詞、句子和概念,這些embeddings也就是高維向量,可以知道什么與什么類似,神經(jīng)網(wǎng)絡(luò)如何看待這個(gè)概念或那個(gè)概念。所以機(jī)器可以通過嵌入向量來判斷顏色,紫色比紅色更接近藍(lán)色,但比橙色更接近紅色,如果有視覺感知,顏色之間的差異一眼就可看出,但僅從文本來分辨,可能需要更長的時(shí)間,也許你知道怎么交流,已經(jīng)了解了單詞和語法,但也需要一段時(shí)間才能真正理解顏色。
因此,多模態(tài)非必要,但絕對(duì)有用。雖然這是一個(gè)很好的發(fā)展方向,但我并不認(rèn)為必須在當(dāng)前方案和多模態(tài)中二選一。
Yann LeCun的論文中提到:最大的挑戰(zhàn)之一是,預(yù)測具有不確定性的高維向量。我們需要采取特定方法來解決這個(gè)問題。我發(fā)現(xiàn),其實(shí)當(dāng)前的自回歸Transformers已經(jīng)具有該屬性,但論文中沒有承認(rèn)這一點(diǎn)。
舉兩個(gè)例子。一是給定某書中的一頁,預(yù)測下一頁。這有很多種情況,是一個(gè)非常復(fù)雜的高維空間,但自回歸Transformers能處理得很好。對(duì)于圖像處理也是如此。比如OpenAI在研發(fā)iGPT時(shí),將Transformer應(yīng)用于像素預(yù)測,能以非常復(fù)雜和微妙的方式生成圖像,效果非常好。它有很不錯(cuò)的無監(jiān)督表示學(xué)習(xí)能力。
Dall-E 1的情況也是一樣。因此,論文中強(qiáng)調(diào)當(dāng)前方法無法預(yù)測高維分布的部分是錯(cuò)誤的,那絕對(duì)可以勝任。
Q:現(xiàn)在有一種觀點(diǎn):安排一批人類訓(xùn)練員與大型語言模型(如ChatGPT)一起工作,并通過強(qiáng)化學(xué)習(xí)對(duì)其進(jìn)行指導(dǎo)。僅從直覺來看,這并不能有效教會(huì)模型理解潛在現(xiàn)實(shí)(underlying reality)。
A:我不同意這個(gè)說法。首先,我們的預(yù)訓(xùn)練模型已經(jīng)掌握了關(guān)于潛在現(xiàn)實(shí)的必要知識(shí),并對(duì)語言及其產(chǎn)生過程有了深入了解。
也許我需要再次強(qiáng)調(diào)一點(diǎn)。在大型語言模型中,學(xué)習(xí)到的文本數(shù)據(jù)是對(duì)真實(shí)世界進(jìn)程(real-world processes)的壓縮表示,其中包含有關(guān)人類思想、感受,以及人類所處環(huán)境和人際互動(dòng)等方面的信息。
一個(gè)人可能處于不同情境,而這些情境所涉及的信息是壓縮進(jìn)程的一部分,并由神經(jīng)網(wǎng)絡(luò)表示,以生成新的文本內(nèi)容。語言模型越好,生成模型的表現(xiàn)越好,保真度越高,就能更好捕捉這個(gè)進(jìn)程。要想構(gòu)建一個(gè)高質(zhì)量的系統(tǒng),只需遵循“如果方法有效,則繼續(xù)使用”的策略。
那些指導(dǎo)模型學(xué)習(xí)的訓(xùn)練員團(tuán)隊(duì)本身也在利用AI來輔助他們的工作。這些工具能夠高效地完成大量任務(wù),但仍需要人類進(jìn)行監(jiān)督和評(píng)估,以確保結(jié)果的高可靠性,這與人類的教育過程沒什么不同。
我們會(huì)積極尋求方法來提高模型的效率和準(zhǔn)確性,以構(gòu)建表現(xiàn)良好的語言模型。為了確保模型能夠識(shí)別幻覺(hallucination),需要進(jìn)行額外的訓(xùn)練。一旦模型掌握了該技能,就可以將其用于處理業(yè)務(wù)需求了。而強(qiáng)化學(xué)習(xí)人類訓(xùn)練員或者其他類似的方法能夠教會(huì)模型辨識(shí)幻覺。雖然目前還沒有確切的結(jié)論,但我們很快就會(huì)找到答案。
Q:你近期關(guān)注的研究方向是什么?
A:提高模型的可靠性和可控性,加快模型從少量數(shù)據(jù)中學(xué)習(xí)知識(shí)的速度,并降低對(duì)人工指導(dǎo)的依賴,避免出現(xiàn)“幻覺”。我認(rèn)為這一系列問題密不可分。此外,還需要注意這些問題所涉及的時(shí)間跨度。
5
AI對(duì)社會(huì)管理的影響
Q:你談過AI給民主帶來的影響。若是擁有充足的數(shù)據(jù)和足夠大的模型,就可以用這些數(shù)據(jù)來訓(xùn)練模型以獲得讓所有人都滿意的最優(yōu)決策。你覺得這會(huì)幫助人類進(jìn)行社會(huì)管理嗎?
A:我們還無法預(yù)測政府將如何利用這種技術(shù)來獲取各種建議,不過在民主問題上,未來可能會(huì)出現(xiàn)這樣一種情況:由于神經(jīng)網(wǎng)絡(luò)無處不在且對(duì)社會(huì)產(chǎn)生巨大影響,我們將不得不建立某種民主流程,讓公民向神經(jīng)網(wǎng)絡(luò)提供信息,包括他們希望的事務(wù)狀態(tài)、行為方式等。
這可能是一種高效的民主形式,即我們可以從每個(gè)公民身上獲取更多的信息并進(jìn)行匯總,然后指定這些系統(tǒng)如何采取行動(dòng)。當(dāng)然,這會(huì)引發(fā)許多問題。
當(dāng)前的模型還有很多提升空間,未來,特別是在訓(xùn)練和使用模型方面會(huì)發(fā)生一些變化,從而使模型能夠更好地解決這類問題。
Q:按你所說,每個(gè)人都有機(jī)會(huì)輸入數(shù)據(jù),然而這也牽涉到世界模型的問題。你是否認(rèn)為AI系統(tǒng)最終可以變得足夠強(qiáng)大,能夠理解某種情境并分析所有的變量?
A:分析所有變量意味著需要綜合考慮情境中的所有因素,確定重要變量,并進(jìn)行深入研究。這個(gè)過程類似于讀書,我可以選擇讀一百本書,也可以仔細(xì)閱讀一本書,這樣就可以獲得更多。這種方法在一定程度上是值得推崇的,但也許在某種程度上,理解所有事情是基本不可能的。
舉個(gè)更簡單的例子:當(dāng)社會(huì)或公司面臨復(fù)雜情況時(shí),即使對(duì)于中等規(guī)模的公司來說,處理大量數(shù)據(jù)和分析信息的任務(wù)也超出了個(gè)人的能力范圍。然而,通過正確地構(gòu)建AI系統(tǒng),就可以在各種情境下獲得極大的幫助。
其他人都在看
GPT-4,大增長時(shí)代的序幕
深度學(xué)習(xí)崛起十年:“開掛”的OpenAI革新者
OpenAI創(chuàng)始人:GPT-4的研究起源和構(gòu)建心法
ChatGPT作者Schulman:我們成功的秘密武器
比快更快,開源Stable Diffusion刷新作圖速度
OneEmbedding:單卡訓(xùn)練TB級(jí)推薦模型不是夢
GLM訓(xùn)練加速:性能最高提升3倍,顯存節(jié)省1/3
歡迎Star、試用OneFlow:github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/
關(guān)鍵詞: