GPT-4創(chuàng)造者：第二次改變AI浪潮的方向-當(dāng)前資訊

來源：CSDN博客 | 2023-03-28 17:01:26 |

OneFlow編譯

(資料圖片僅供參考)

翻譯｜賈川、楊婷、徐佳渝編輯｜王金許

一朝成名天下知。ChatGPT/GPT-4相關(guān)的新聞接二連三刷屏朋友圈，如今，這些模型背后的公司OpenAI的知名度不亞于任何科技巨頭。

不過，就在ChatGPT問世前，OpenAI在GPT-3發(fā)布后的兩年多時(shí)間里陷入沉寂，甚至開始被人唱衰。實(shí)際上，OpenAI在這期間正在潛心打磨GPT-3.5。

在OneFlow去年3月發(fā)布的《深度學(xué)習(xí)崛起十年：“開掛”的OpenAI革新者》一文中，OpenAI聯(lián)合創(chuàng)始人、首席科學(xué)家就介紹了那些現(xiàn)在業(yè)內(nèi)人盡皆知的人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）、AI對(duì)齊以及多模態(tài)等關(guān)鍵名詞和基本思路。

只不過，那時(shí)業(yè)內(nèi)似乎都在忙著比拼更大的模型參數(shù)，無暇顧及抑或并不在意OpenAI正在研究的工作，看過這個(gè)對(duì)話的人很少。

當(dāng)然，即使看了他們的技術(shù)思路，相信他們能走通的人就更少了，能去真正實(shí)踐的也只有他們自己。直到ChatGPT大獲成功，同行也只好羨慕嫉妒拍自己大腿，并說上一句：不就是已有技術(shù)的組合。然后眼睜睜看著OpenAI一腳油門，甩出同行幾條街。

作為GPT系列模型背后“組裝者”和推動(dòng)者，毫不夸張地說，沒有Ilya Sutskever，就沒有現(xiàn)在的ChatGPT以及GPT-4。他正在改變世界。

更驚人的是，十年前，他已經(jīng)改變過一次世界。那個(gè)引發(fā)深度學(xué)習(xí)新一輪革命浪潮的AlexNet也與Ilya有關(guān)，他是AlexNet的作者之一，后續(xù)隨之而來的AlphaGo、GPT、CLIP、DALL-E和Codex都離不開他的貢獻(xiàn)。

那么，從推動(dòng)這一系列變革的科學(xué)家角度，他究竟如何看待當(dāng)先ChatGPT、GPT-4模型的發(fā)展？他對(duì)AI的思考和堅(jiān)定信念從何而來？OpenAI下一步研究方向是什么？他又如何看待AI對(duì)社會(huì)的影響？

在近期與英偉達(dá)CEO黃仁勛（GTC大會(huì)）以及Eye on AI播客的主持人Craig S. Smith的兩場對(duì)話中，Ilya對(duì)此進(jìn)行了解答。

對(duì)話中的Ilya像是AI研究者中的苦行僧。不同于Sam Altman和Greg Brockman兩位創(chuàng)始人在交談中表現(xiàn)出的異常敏捷的表達(dá)能力，Ilya的語速相對(duì)平緩很多，但他的思考要比說出口的內(nèi)容更深遠(yuǎn)。當(dāng)你問他能否解決GPT模型一本正經(jīng)地胡說八道的問題時(shí)，他說，“讓我們拭目以待”，這個(gè)回答讓你感覺毛骨悚然的同時(shí)還會(huì)相信這家伙真的能做到。

就在業(yè)內(nèi)其他團(tuán)隊(duì)正在研究怎么研發(fā)類ChatGPT追趕甚至“彎道超車”O(jiān)penAI時(shí)，GPT-5或許已經(jīng)在路上了。在這之前，最好看看Ilya怎么思考AI及其未來發(fā)展方向，或許會(huì)啟發(fā)我們提出更好的、不一樣的發(fā)展路徑。

OneFlow以QA形式對(duì)上述兩場對(duì)話進(jìn)行了編譯整理，對(duì)于問題以下不作具體區(qū)分。（Craig的播客經(jīng)授權(quán)后由OneFlow編譯，內(nèi)容轉(zhuǎn)載請聯(lián)系OneFlow獲得授權(quán)。播客：https://www.eye-on.ai/）

1AI界的“iPhone時(shí)刻”

Q：ChatGPT就是AI界的“iPhone時(shí)刻”，你是如何實(shí)現(xiàn)這一歷史性轉(zhuǎn)變的？

A：最開始，我們也不清楚該如何開展整個(gè)項(xiàng)目，而且這個(gè)領(lǐng)域與現(xiàn)在的發(fā)展走向也完全不同。2016年左右開始創(chuàng)辦OpenAI時(shí)，這一領(lǐng)域的研究者還很少，我們當(dāng)時(shí)的同事大多來自Google/DeepMind，他們有從業(yè)經(jīng)驗(yàn)，但思路相對(duì)而言比較狹窄，有所束縛。

那時(shí)我們有兩個(gè)大的基礎(chǔ)想法，它們的影響一直延續(xù)到今天。第一個(gè)想法是通過壓縮進(jìn)行無監(jiān)督學(xué)習(xí)。現(xiàn)在看來這是理所應(yīng)當(dāng)，但在2016年，無監(jiān)督學(xué)習(xí)是一個(gè)還沒有被解決的問題，也沒有任何科學(xué)家有相關(guān)想法。

Yann LeCun當(dāng)時(shí)到處說這是一個(gè)技術(shù)上的瓶頸。壓縮也不是人們經(jīng)常會(huì)談到的問題，但ChatGPT實(shí)際上確實(shí)壓縮了訓(xùn)練數(shù)據(jù)，我們通過不斷訓(xùn)練自回歸生成模型實(shí)現(xiàn)了數(shù)據(jù)壓縮。如果數(shù)據(jù)被壓縮得足夠好，就必須要提取其中存在的所有隱藏信息，這就是關(guān)鍵所在。

這也直接導(dǎo)致了我們研究情緒神經(jīng)元。OpenAI科學(xué)家Alec Radford訓(xùn)練LSTM來預(yù)測亞馬遜評(píng)論的下一個(gè)字符時(shí)發(fā)現(xiàn)，如果你預(yù)測下一個(gè)字符足夠好，LSTM就會(huì)有一個(gè)與情緒對(duì)應(yīng)的神經(jīng)元。這就很好地展示了無監(jiān)督學(xué)習(xí)的效果，也驗(yàn)證了下一個(gè)字符預(yù)測的想法。這個(gè)發(fā)現(xiàn)對(duì)我們的影響很大。

但哪里能得到無監(jiān)督學(xué)習(xí)的數(shù)據(jù)呢？無監(jiān)督學(xué)習(xí)的難點(diǎn)不在于數(shù)據(jù)，更多關(guān)于為什么要這么做，以及意識(shí)到訓(xùn)練神經(jīng)網(wǎng)絡(luò)來預(yù)測下一個(gè)字符是值得追求和探索的。

然后Transformer出來后，我們立即發(fā)現(xiàn)這個(gè)模型就是我們想要的，于是做出了GPT-1。

第二個(gè)想法就是強(qiáng)化學(xué)習(xí)。我有一個(gè)很強(qiáng)的信念是“越大越好”，OpenAI的目標(biāo)是找到擴(kuò)展的正確路徑。我們完成的第一個(gè)真正的大型項(xiàng)目是實(shí)時(shí)戰(zhàn)略游戲DOTA 2。當(dāng)時(shí)我們訓(xùn)練了一個(gè)強(qiáng)化學(xué)習(xí)的Agent來與自己對(duì)抗，目標(biāo)是達(dá)到人類玩家的水平。

從DOTA的強(qiáng)化學(xué)習(xí)轉(zhuǎn)變?yōu)槿祟惙答伒膹?qiáng)化學(xué)習(xí)，再加上GPT技術(shù)基座，成就了今天的ChatGPT。

Q：有人認(rèn)為，ChatGPT只是一個(gè)大型語言模型，但在我看來，那背后有自己的復(fù)雜系統(tǒng)。能否介紹一下你們是如何通過強(qiáng)化學(xué)習(xí)進(jìn)行精調(diào)的？ChatGPT背后是否有多種系統(tǒng)進(jìn)行支撐？

A：當(dāng)我們訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)以準(zhǔn)確預(yù)測互聯(lián)網(wǎng)上大量不同文本的下一個(gè)詞時(shí)，我們在做的其實(shí)是在學(xué)習(xí)一個(gè)世界模型。從表面看，神經(jīng)網(wǎng)絡(luò)只是在學(xué)習(xí)文本中的統(tǒng)計(jì)相關(guān)性，但實(shí)際上，學(xué)習(xí)統(tǒng)計(jì)相關(guān)性就能把知識(shí)壓縮得很好，神經(jīng)網(wǎng)絡(luò)所學(xué)習(xí)的是，它在生成文本過程中的一些表述，文本只是這個(gè)世界的一個(gè)映射，所以神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的是這個(gè)世界的多個(gè)方面的知識(shí)。

這就是它在準(zhǔn)確預(yù)測下一個(gè)詞的任務(wù)中所學(xué)習(xí)到的，對(duì)下一個(gè)詞的預(yù)測越準(zhǔn)，還原度越高，你看到的文本的準(zhǔn)確度就越高。這就是ChatGPT模型在預(yù)訓(xùn)練階段所做的，它盡可能多地從世界的映射（也就是文本）中學(xué)習(xí)關(guān)于世界的知識(shí)。

但這不能說明神經(jīng)網(wǎng)絡(luò)會(huì)表現(xiàn)出人類希望它做出的行為，這就需要第二階段的微調(diào)、人類反饋的強(qiáng)化學(xué)習(xí)以及其他形式的AI系統(tǒng)的協(xié)助，這個(gè)階段做得更好，神經(jīng)網(wǎng)絡(luò)越就越有用、可靠。

Q：多模態(tài)為GPT-4帶來的最大突破是什么？

A：多模態(tài)非常有意思。第一，多模態(tài)在視覺識(shí)別上特別有用。因?yàn)檎麄€(gè)世界是視覺化的，人類和其他動(dòng)物也是視覺動(dòng)物，人腦1/3的灰質(zhì)都是用于視覺的，如果沒有視覺，神經(jīng)網(wǎng)絡(luò)的用處不會(huì)達(dá)到它應(yīng)有的程度，GPT-4能夠很好地去理解這些圖像。

第二，除了從文本中學(xué)習(xí)外，我們還能從圖像中學(xué)習(xí)關(guān)于這個(gè)世界的知識(shí)，盡管這看起來還不太明確。一個(gè)人可能一生之中會(huì)聽到10億個(gè)詞，對(duì)我們來說，有盡可能多的信息來源很重要。

同樣，這也適用于神經(jīng)網(wǎng)絡(luò)。即使是視覺信息，也會(huì)通過文本緩慢傳播，如果再加上視覺信息，模型就能學(xué)到文本中原本沒有的信息。

Q：相比ChatGPT，GPT-4在哪些方面有所改進(jìn)？

A：ChatGPT版本有時(shí)會(huì)錯(cuò)誤地理解問題，給出的回答有的很不理想，但GPT-4好多了，還能會(huì)以更快的方式去解決難題，簡而言之，就是可靠性更高了。 GPT-4是在ChatGPT的基礎(chǔ)上進(jìn)行改進(jìn)的。GPT-4的訓(xùn)練大約始于6-8個(gè)月前，它的預(yù)測能力更加準(zhǔn)確，這得益于其更好的神經(jīng)網(wǎng)絡(luò)，使其能夠更加精準(zhǔn)地預(yù)測下一個(gè)單詞，并深入理解文本。

GPT-4為什么能更精準(zhǔn)地預(yù)測下一個(gè)單詞，為什么這會(huì)帶來更深的理解能力？就像你讀偵探小說時(shí)，情節(jié)、事件以及其他線索都不清楚，使你無法準(zhǔn)確預(yù)測故事結(jié)局。但當(dāng)你閱讀小說的最后一頁時(shí)，就可以很容易推測出兇手是誰，這是因?yàn)槟阍陂喿x過程中積累了大量的知識(shí)和經(jīng)驗(yàn)。同樣地，GPT-4的更大訓(xùn)練數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)可以幫助它更好地理解文本，從而更準(zhǔn)確地預(yù)測下一個(gè)單詞。

Q：從ChatGPT到GPT-4，有哪些能力讓你覺得很驚艷？

A：一方面是模型的可靠性，另一方面，最讓我覺得驚艷的就是，這些模型真的有效。我在AI領(lǐng)域差不多有二十多年了，神經(jīng)網(wǎng)絡(luò)從最開始毫不起眼的工作慢慢演進(jìn)，通過更大的數(shù)據(jù)集訓(xùn)練之后，變得越來越強(qiáng)，盡管基礎(chǔ)算法不同，但訓(xùn)練方式是類似的。我經(jīng)常會(huì)感嘆于人工神經(jīng)元的想法居然真的有效。

“智能”背后的工作原理

Q：你是何時(shí)對(duì)計(jì)算機(jī)科學(xué)感興趣的？這種興趣來自最初的一時(shí)沖動(dòng)？還是由腦科學(xué)、神經(jīng)科學(xué)等興趣引發(fā)的？

A：我出生于俄羅斯，在以色列長大，十多歲時(shí)隨父母移民到了加拿大。根據(jù)父母的說法，我從小就表現(xiàn)出了對(duì)AI的興趣。我一直想搞清楚意識(shí)（consciousness）這個(gè)東西，對(duì)一切能夠幫我了解意識(shí)的東西感興趣。在這方面，AI似乎是個(gè)很好的切入點(diǎn)。

17歲時(shí)，我就開始跟著Geoffrey Hinton在多倫多大學(xué)做研究了。當(dāng)時(shí)，深度學(xué)習(xí)是人工智能領(lǐng)域最重要、最難接觸的部分，我一直想做這方面的研究。

現(xiàn)在，我們理所當(dāng)然地認(rèn)為計(jì)算機(jī)是可以學(xué)習(xí)的，但在2003年，情況恰恰相反，AI領(lǐng)域的最大成就是國際象棋引擎深藍(lán)（Deep Blue）。當(dāng)時(shí)AI的發(fā)展程度還比較低級(jí)，就拿國際象棋來說，AI只是通過簡單的方法尋找棋子的最佳走位。

這種方法難以用于實(shí)戰(zhàn)，因?yàn)楫?dāng)時(shí)人們還沒有搞清楚該怎么讓AI學(xué)習(xí)，但我對(duì)此很感興趣，幸運(yùn)的是，Geoff是多倫多大學(xué)的教授，我有機(jī)會(huì)在學(xué)校見他，見面后一拍即合，我很快加入了他的團(tuán)隊(duì)。

Q：你只是單純地對(duì)機(jī)器學(xué)習(xí)感興趣，還是與Geoff一樣，希望借助機(jī)器學(xué)習(xí)來了解大腦的奧秘？

A：AI涵蓋的領(lǐng)域非常廣泛，人們?nèi)胄蠥I領(lǐng)域的動(dòng)機(jī)也各有不同，而我想要弄清楚“智能”背后的工作原理。

現(xiàn)在，對(duì)這個(gè)問題我們已經(jīng)有了一些答案。“智能”的背后是一張大型神經(jīng)網(wǎng)絡(luò)，我們對(duì)神經(jīng)網(wǎng)絡(luò)的工作原理也有了一定程度的了解。但在當(dāng)時(shí)，雖然神經(jīng)網(wǎng)絡(luò)已經(jīng)存在，卻沒人知道它的用處。

所以“智能”到底是如何運(yùn)作的？到底該怎么做才能讓計(jì)算機(jī)變得稍微智能一點(diǎn)？

那時(shí)的我有一個(gè)非常明確的想法：在AI領(lǐng)域作出真實(shí)、有效的貢獻(xiàn)。當(dāng)時(shí)AI屆看似人多，貢獻(xiàn)也層出不窮，但卻沒有取得任何實(shí)質(zhì)性的成就，就像一片荒蕪之地，看不到希望。這些就是我最初從事AI的動(dòng)力。

Q：Geoff曾說，卷積神經(jīng)網(wǎng)絡(luò)（CNN）的突破促使你參加了ImageNet競賽，而Alex用他高超的編程技能訓(xùn)練了神經(jīng)網(wǎng)絡(luò)。

A：簡而言之，當(dāng)時(shí)我意識(shí)到，如果在一個(gè)足夠大的數(shù)據(jù)集上訓(xùn)練大型深度神經(jīng)網(wǎng)絡(luò)，讓這個(gè)神經(jīng)網(wǎng)絡(luò)去處理復(fù)雜任務(wù)（比如視覺等），只要堅(jiān)持訓(xùn)練下去，就能成功。

這背后的邏輯是：人腦是擁有神經(jīng)元的神經(jīng)網(wǎng)絡(luò)，可以快速處理視覺等復(fù)雜任務(wù)，可以得出，其它某些神經(jīng)網(wǎng)絡(luò)也可以很好地做到這一點(diǎn)。因此，我們需要一個(gè)較小但相關(guān)的神經(jīng)網(wǎng)絡(luò)，并用數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練。計(jì)算機(jī)內(nèi)部最好的神經(jīng)網(wǎng)絡(luò)將與執(zhí)行這項(xiàng)任務(wù)的神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)聯(lián)。當(dāng)時(shí)的一種說法是，大型深度神經(jīng)網(wǎng)絡(luò)可以完成這一任務(wù)。

另外，我們要有訓(xùn)練工具（Geoff的實(shí)驗(yàn)室完成了這部分的技術(shù)工作），將這兩點(diǎn)相結(jié)合（一是神經(jīng)網(wǎng)絡(luò)要足夠大，確保訓(xùn)練時(shí)正常運(yùn)行；二是指定解決方案的數(shù)據(jù)），我們就可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)，ImageNet競賽剛好滿足了我們的需求。Alex有快速卷積核，ImageNet擁有足夠大的數(shù)據(jù)，而我們抓住了這個(gè)機(jī)會(huì)，做了一些前所未有的嘗試，并取得了成功。

Q：Geoff曾提出一個(gè)非常有趣的觀點(diǎn)：與人腦相比，具有大量參數(shù)的大型模型，尤其是大型語言模型，可以用相對(duì)較少的參數(shù)處理大量數(shù)據(jù)。相比之下，人類大腦有數(shù)以萬億計(jì)的參數(shù)，但處理的數(shù)據(jù)量相對(duì)較小。你是否思考過這個(gè)問題？

A：特別是在模型訓(xùn)練的早期階段，現(xiàn)有神經(jīng)網(wǎng)絡(luò)技術(shù)結(jié)構(gòu)確實(shí)需要大量數(shù)據(jù)。然而，在模型訓(xùn)練的后期階段，對(duì)數(shù)據(jù)的需求會(huì)逐漸減少，這也是模型能夠快速學(xué)習(xí)的原因。雖然模型的學(xué)習(xí)速度不及人類，但已經(jīng)相當(dāng)迅速了。

從某個(gè)角度來看，我們并不一定關(guān)心是否需要大量數(shù)據(jù)才能實(shí)現(xiàn)目標(biāo)。但從更普遍角度，從較少的數(shù)據(jù)中學(xué)到更多知識(shí)是可能的，盡管這需要一些富有創(chuàng)意的想法。

從少量的數(shù)據(jù)中學(xué)習(xí)更多知識(shí)將會(huì)開啟其他可能性，使我們能夠向AI傳授其缺乏的技能，并且更易傳遞我們的期望和偏好，以更精確地控制其行為。雖然經(jīng)過訓(xùn)練后的語言模型可以快速學(xué)習(xí)知識(shí)，但還有更多的機(jī)會(huì)可以利用。

擴(kuò)展的對(duì)象更重要

Q：2017年，《Attention Is All You Need》一文提出了自注意機(jī)制和Transformer模型。那么GPT項(xiàng)目的研發(fā)是如何開始的？

A：在OpenAI早期，我們的工作重心是“預(yù)測下一件事就是你所需的一切（predicting the next thing is all you need）”。當(dāng)時(shí)，我們想利用有限的神經(jīng)網(wǎng)絡(luò)去預(yù)測下一個(gè)單詞、像素，在我們看來預(yù)測就是壓縮（compression）。我們想知道預(yù)測下一個(gè)單詞能發(fā)展到什么程度，想知道預(yù)測能否解決無監(jiān)督學(xué)習(xí)。在GPT之前，無監(jiān)督學(xué)習(xí)就是機(jī)器學(xué)習(xí)的最高目標(biāo)，是大家心目中的圣杯。

雖然現(xiàn)在人們已經(jīng)徹底掌握了無監(jiān)督學(xué)習(xí)，它已不再是人們關(guān)注的焦點(diǎn)，但它曾經(jīng)確實(shí)是機(jī)器學(xué)習(xí)的最高目標(biāo)，是一大難點(diǎn)。當(dāng)時(shí)，我對(duì)這方面的研究非常感興趣，因?yàn)?strong>足夠好的預(yù)測可以幫助我們進(jìn)行無監(jiān)督學(xué)習(xí)，理想狀態(tài)是實(shí)現(xiàn)全部數(shù)據(jù)集的無監(jiān)督學(xué)習(xí)。

當(dāng)時(shí)，我們使用的是遞歸神經(jīng)網(wǎng)絡(luò)（RNN），但它無法勝任上述任務(wù)?！禔ttention Is All You Need》論文發(fā)表以后，我們很快意識(shí)到Transformer可以解決當(dāng)前神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的長程依賴（long-term dependencies）的局限問題。

這其實(shí)是技術(shù)問題，但我們立刻切換到Transformer。就這樣，初期GPT開始萌芽、發(fā)展起來，有了Transformer，GPT運(yùn)行越來越順利，變得越來越大，隨后我們意識(shí)到，可以讓它一直不斷擴(kuò)大，就這樣最終發(fā)展到了GPT-3，并走到了現(xiàn)在這個(gè)階段。

Q：Richard Sutton（強(qiáng)化學(xué)習(xí)先驅(qū)）一直強(qiáng)調(diào)“擴(kuò)展（scale）是我們所需要的一切”，而不需要新的算法。這一觀點(diǎn)是否對(duì)你有影響或者是你們想到一塊兒去了？

A：他的想法并沒有影響到我。盡管Rich的《慘痛教訓(xùn)（The Bitter Lesson）》一文非常有說服力，我們也很樂意看到其他人的類似想法，但我認(rèn)為，這篇文章的觀點(diǎn)其實(shí)有點(diǎn)夸大其詞，或者至少人們從中得出的觀點(diǎn)“不管做什么，擴(kuò)展就對(duì)了”是夸張的說法。這種說法是不正確的。

我們需要擴(kuò)展一些可以從中受益的特定事物。深度學(xué)習(xí)讓我們首次實(shí)現(xiàn)了對(duì)擴(kuò)展的有效利用，并從中獲得了回報(bào)，這是深度學(xué)習(xí)的一大突破。在此之前，大型計(jì)算機(jī)集群的作用是什么？可能僅限于天氣模擬、物理模擬、電影制作等等，除此之外沒有任何真實(shí)的需求。

事實(shí)上，深度神經(jīng)網(wǎng)絡(luò)越大、訓(xùn)練數(shù)據(jù)越多，運(yùn)行的效果就越好，這是第一個(gè)有趣的擴(kuò)展案例。將來我們需要擴(kuò)展的事物可能會(huì)出現(xiàn)變化，這種變化也許更有利于擴(kuò)展，但現(xiàn)在我們還不知道變化的規(guī)模，在搞清楚它的規(guī)模之后，你可能又會(huì)驚訝于它的變化之微小。

總之，擴(kuò)展的對(duì)象十分重要?，F(xiàn)在，我們只是找到了一個(gè)能夠獲得回報(bào)的擴(kuò)展對(duì)象。

Q：聽你說過，需要更快的處理器才能進(jìn)一步擴(kuò)展模型。模型擴(kuò)展（scaling of models）似乎是無止境的，但訓(xùn)練這些模型所需的計(jì)算能力已經(jīng)接近極限，或者至少達(dá)到了社會(huì)公認(rèn)的極限。

A：我記不太清你提及的具體評(píng)論，但在處理器方面，越快越好的邏輯不言而喻，我們確實(shí)需要更快、更多的處理器。不過，隨著計(jì)算能力的需求不斷提高，對(duì)計(jì)算資源的投入成本也在持續(xù)上升。

問題的關(guān)鍵不在于成本是否高昂，而在于我們能否通過投入成本得到超過其本身的價(jià)值。如果你投入了巨大的成本但沒有獲得任何價(jià)值，那么這樣的代價(jià)肯定不值得。但是，如果你獲得了非常有用、極具價(jià)值的東西，能夠解決許多問題，那付出的成本就是值得的。

大型語言模型的局限性

Q：目前，大型語言模型的局限性在于，它們所擁有的知識(shí)只限于它們所訓(xùn)練過的語種，而大多數(shù)人類知識(shí)都是非語言性的。它們的目標(biāo)是滿足prompt的統(tǒng)計(jì)一致性（statistical consistency），而對(duì)語言所涉及的現(xiàn)實(shí)沒有基本的理解。

A：其實(shí)，很難確定什么是語言模型的局限性。比如，兩年前人們曾對(duì)當(dāng)時(shí)的局限性高談闊論，但現(xiàn)在的局限性跟當(dāng)時(shí)相比又完全不同。因此相比于談?wù)摼窒扌裕瑢⒆⒁饬Ψ旁诋?dāng)下的發(fā)展更為重要，畢竟誰又能保證目前的局限性還會(huì)在兩年后仍制約著語言模型的發(fā)展呢？至少我沒這個(gè)自信。

另一方面，有人認(rèn)為模型只是在學(xué)習(xí)統(tǒng)計(jì)規(guī)律，因此它們不知道世界的本質(zhì)究竟是什么。但我認(rèn)為，學(xué)習(xí)統(tǒng)計(jì)規(guī)律比我們眼睛看到的更重要。之所以現(xiàn)在才有這個(gè)觀點(diǎn)，是因?yàn)槲覀冞€沒有（至少大多數(shù)人沒有）真正在神經(jīng)網(wǎng)絡(luò)上花費(fèi)很多時(shí)間，而神經(jīng)網(wǎng)絡(luò)在一定程度上是統(tǒng)計(jì)學(xué)。

什么是統(tǒng)計(jì)模型？其實(shí)只是擬合一些參數(shù)，比如真實(shí)發(fā)生的事情。預(yù)測也是一種統(tǒng)計(jì)現(xiàn)象，不過需要了解產(chǎn)生數(shù)據(jù)的真正底層過程才能更多地對(duì)數(shù)據(jù)進(jìn)行壓縮，進(jìn)而完成預(yù)測。在這個(gè)過程中，你需要更多地了解這個(gè)產(chǎn)生數(shù)據(jù)的世界。

隨著生成模型變得越來越好，理解程度也會(huì)越來越高，它們對(duì)整個(gè)世界的了解會(huì)讓我們?yōu)橹痼@。而其中諸多精妙之處，卻不止存在于現(xiàn)世，那是一個(gè)透過文本鏡頭才能看到的世界。

它們了解到的世界是文字鏡頭映射出來的世界：學(xué)習(xí)互聯(lián)網(wǎng)上人類生成的各類文本。但這些文本其實(shí)也表達(dá)了整個(gè)世界。

一個(gè)很有意義和啟發(fā)性的例子是，Sydney是由ChatGPT支持的Bing衍生出的一種模式，當(dāng)用戶對(duì)Sydney說，Google是比Bing更好的搜索引擎時(shí)，Sydney就會(huì)變得好斗、咄咄逼人。

那么，我們該如何看待這種現(xiàn)象？這又意味著什么？有人會(huì)說，它只是在預(yù)測人類在這種情況下會(huì)怎么做。沒錯(cuò)，人類確實(shí)會(huì)這么做，但這也許意味著用心理學(xué)語言開始理解神經(jīng)網(wǎng)絡(luò)的行為。

Q：事實(shí)上，神經(jīng)網(wǎng)絡(luò)有時(shí)會(huì)產(chǎn)生“幻覺”，而語言模型在學(xué)習(xí)世界、思想、概念等方面的表現(xiàn)要好得多，但輸出方面卻不盡人意，當(dāng)我向ChatGPT詢問關(guān)于我的個(gè)人信息時(shí)，它識(shí)別出我是一名記者，但它卻給我冠上了很多沒有獲得過的榮譽(yù)。在你們未來的研究中，是否有措施來解決這個(gè)問題？

A：關(guān)于這一過程需要理解的是：在預(yù)訓(xùn)練階段，我們只是訓(xùn)練語言模型，希望學(xué)習(xí)關(guān)于這個(gè)世界的一切；在人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）階段，我們關(guān)注的是輸出結(jié)果。如果輸出不合適或者不合理時(shí)，就會(huì)停止這樣的輸出。模型很快就能學(xué)會(huì)生成恰當(dāng)?shù)妮敵觥?/p>

現(xiàn)在的問題在于輸出水平，其實(shí)預(yù)訓(xùn)練階段的情況并非如此。神經(jīng)網(wǎng)絡(luò)確實(shí)有編造回答的傾向，即使是ChatGPT也會(huì)時(shí)不時(shí)的胡亂編造，這極大地限制了模型的實(shí)用性。我希望能通過改進(jìn)強(qiáng)化學(xué)習(xí)反饋步驟來阻止神經(jīng)網(wǎng)絡(luò)產(chǎn)生“幻覺”。

此時(shí)你可能會(huì)問，它們真的會(huì)學(xué)習(xí)嗎？我的答案是：讓我們拭目以待。

Q：如果我告訴ChatGPT，它的回答有誤，那么這是在對(duì)其進(jìn)行訓(xùn)練，還是內(nèi)部會(huì)給它一些懲罰或者獎(jiǎng)勵(lì)，以便下次回答得更加準(zhǔn)確。

A：我們現(xiàn)在的做法是雇傭人工訓(xùn)練員來教神經(jīng)網(wǎng)絡(luò)（比如ChatGPT）如何表現(xiàn)。到目前為止，他們指定所需行為的方式略有不同。但事實(shí)上，你所描述的就是正確的訓(xùn)練方式：只需與它互動(dòng)，它會(huì)從你的反應(yīng)中推斷自己的回答是否讓你滿意。

因此，輸出結(jié)果不好，ChatGPT下次就應(yīng)該做些不同的事情。雖然“幻覺”是一個(gè)很大的問題，但這種方法完全可以解決這些問題。

Q：Yann LeCun（圖靈獎(jiǎng)得主，CNN網(wǎng)絡(luò)發(fā)明者）認(rèn)為，大型語言模型所缺失的是一種非語言的基礎(chǔ)世界模型（underlying world model），語言模型的構(gòu)建可以對(duì)其進(jìn)行參考。我想聽聽你對(duì)此的看法，以及你是否在這方面有所探索。

A：我看過他的提議，其中有許多想法，并且與當(dāng)前技術(shù)范式可能存在一些細(xì)微差異，但在我看來，這些差異并不是非常顯著。

首先，對(duì)于一個(gè)系統(tǒng)來說，擁有多模態(tài)的理解是可取的，這樣可以使其從多方位（不僅僅從文本）來了解世界、了解人類以及與之相關(guān)的情況，如此一來，系統(tǒng)也能更好地理解它應(yīng)該解決的任務(wù)，滿足人類的需求。

在這方面，我們已經(jīng)做了相當(dāng)多的工作，比如Clip和Dall-E，它們都朝著多模態(tài)方向發(fā)展。這并不是一個(gè)非此即彼的情況，有人說如果沒有視覺，不從視頻中理解世界，就不能處理這方面的工作。

但我想說的是：有些東西從圖像和圖表中學(xué)習(xí)起來要容易得多，但我們?nèi)匀豢梢酝ㄟ^文本來進(jìn)行學(xué)習(xí)，只是學(xué)習(xí)速度要慢一點(diǎn)。

以顏色舉例。雖然我們不能從文本中學(xué)習(xí)顏色的概念，但每個(gè)神經(jīng)網(wǎng)絡(luò)都通過“嵌入（embeddings）”表示單詞、句子和概念，這些embeddings也就是高維向量，可以知道什么與什么類似，神經(jīng)網(wǎng)絡(luò)如何看待這個(gè)概念或那個(gè)概念。所以機(jī)器可以通過嵌入向量來判斷顏色，紫色比紅色更接近藍(lán)色，但比橙色更接近紅色，如果有視覺感知，顏色之間的差異一眼就可看出，但僅從文本來分辨，可能需要更長的時(shí)間，也許你知道怎么交流，已經(jīng)了解了單詞和語法，但也需要一段時(shí)間才能真正理解顏色。

因此，多模態(tài)非必要，但絕對(duì)有用。雖然這是一個(gè)很好的發(fā)展方向，但我并不認(rèn)為必須在當(dāng)前方案和多模態(tài)中二選一。

Yann LeCun的論文中提到：最大的挑戰(zhàn)之一是，預(yù)測具有不確定性的高維向量。我們需要采取特定方法來解決這個(gè)問題。我發(fā)現(xiàn)，其實(shí)當(dāng)前的自回歸Transformers已經(jīng)具有該屬性，但論文中沒有承認(rèn)這一點(diǎn)。

舉兩個(gè)例子。一是給定某書中的一頁，預(yù)測下一頁。這有很多種情況，是一個(gè)非常復(fù)雜的高維空間，但自回歸Transformers能處理得很好。對(duì)于圖像處理也是如此。比如OpenAI在研發(fā)iGPT時(shí)，將Transformer應(yīng)用于像素預(yù)測，能以非常復(fù)雜和微妙的方式生成圖像，效果非常好。它有很不錯(cuò)的無監(jiān)督表示學(xué)習(xí)能力。

Dall-E 1的情況也是一樣。因此，論文中強(qiáng)調(diào)當(dāng)前方法無法預(yù)測高維分布的部分是錯(cuò)誤的，那絕對(duì)可以勝任。

Q：現(xiàn)在有一種觀點(diǎn)：安排一批人類訓(xùn)練員與大型語言模型（如ChatGPT）一起工作，并通過強(qiáng)化學(xué)習(xí)對(duì)其進(jìn)行指導(dǎo)。僅從直覺來看，這并不能有效教會(huì)模型理解潛在現(xiàn)實(shí)（underlying reality）。

A：我不同意這個(gè)說法。首先，我們的預(yù)訓(xùn)練模型已經(jīng)掌握了關(guān)于潛在現(xiàn)實(shí)的必要知識(shí)，并對(duì)語言及其產(chǎn)生過程有了深入了解。

也許我需要再次強(qiáng)調(diào)一點(diǎn)。在大型語言模型中，學(xué)習(xí)到的文本數(shù)據(jù)是對(duì)真實(shí)世界進(jìn)程（real-world processes）的壓縮表示，其中包含有關(guān)人類思想、感受，以及人類所處環(huán)境和人際互動(dòng)等方面的信息。

一個(gè)人可能處于不同情境，而這些情境所涉及的信息是壓縮進(jìn)程的一部分，并由神經(jīng)網(wǎng)絡(luò)表示，以生成新的文本內(nèi)容。語言模型越好，生成模型的表現(xiàn)越好，保真度越高，就能更好捕捉這個(gè)進(jìn)程。要想構(gòu)建一個(gè)高質(zhì)量的系統(tǒng)，只需遵循“如果方法有效，則繼續(xù)使用”的策略。

那些指導(dǎo)模型學(xué)習(xí)的訓(xùn)練員團(tuán)隊(duì)本身也在利用AI來輔助他們的工作。這些工具能夠高效地完成大量任務(wù)，但仍需要人類進(jìn)行監(jiān)督和評(píng)估，以確保結(jié)果的高可靠性，這與人類的教育過程沒什么不同。

我們會(huì)積極尋求方法來提高模型的效率和準(zhǔn)確性，以構(gòu)建表現(xiàn)良好的語言模型。為了確保模型能夠識(shí)別幻覺（hallucination），需要進(jìn)行額外的訓(xùn)練。一旦模型掌握了該技能，就可以將其用于處理業(yè)務(wù)需求了。而強(qiáng)化學(xué)習(xí)人類訓(xùn)練員或者其他類似的方法能夠教會(huì)模型辨識(shí)幻覺。雖然目前還沒有確切的結(jié)論，但我們很快就會(huì)找到答案。

Q：你近期關(guān)注的研究方向是什么？

A：提高模型的可靠性和可控性，加快模型從少量數(shù)據(jù)中學(xué)習(xí)知識(shí)的速度，并降低對(duì)人工指導(dǎo)的依賴，避免出現(xiàn)“幻覺”。我認(rèn)為這一系列問題密不可分。此外，還需要注意這些問題所涉及的時(shí)間跨度。

AI對(duì)社會(huì)管理的影響

Q：你談過AI給民主帶來的影響。若是擁有充足的數(shù)據(jù)和足夠大的模型，就可以用這些數(shù)據(jù)來訓(xùn)練模型以獲得讓所有人都滿意的最優(yōu)決策。你覺得這會(huì)幫助人類進(jìn)行社會(huì)管理嗎？

A：我們還無法預(yù)測政府將如何利用這種技術(shù)來獲取各種建議，不過在民主問題上，未來可能會(huì)出現(xiàn)這樣一種情況：由于神經(jīng)網(wǎng)絡(luò)無處不在且對(duì)社會(huì)產(chǎn)生巨大影響，我們將不得不建立某種民主流程，讓公民向神經(jīng)網(wǎng)絡(luò)提供信息，包括他們希望的事務(wù)狀態(tài)、行為方式等。

這可能是一種高效的民主形式，即我們可以從每個(gè)公民身上獲取更多的信息并進(jìn)行匯總，然后指定這些系統(tǒng)如何采取行動(dòng)。當(dāng)然，這會(huì)引發(fā)許多問題。

當(dāng)前的模型還有很多提升空間，未來，特別是在訓(xùn)練和使用模型方面會(huì)發(fā)生一些變化，從而使模型能夠更好地解決這類問題。

Q：按你所說，每個(gè)人都有機(jī)會(huì)輸入數(shù)據(jù)，然而這也牽涉到世界模型的問題。你是否認(rèn)為AI系統(tǒng)最終可以變得足夠強(qiáng)大，能夠理解某種情境并分析所有的變量？

A：分析所有變量意味著需要綜合考慮情境中的所有因素，確定重要變量，并進(jìn)行深入研究。這個(gè)過程類似于讀書，我可以選擇讀一百本書，也可以仔細(xì)閱讀一本書，這樣就可以獲得更多。這種方法在一定程度上是值得推崇的，但也許在某種程度上，理解所有事情是基本不可能的。

舉個(gè)更簡單的例子：當(dāng)社會(huì)或公司面臨復(fù)雜情況時(shí)，即使對(duì)于中等規(guī)模的公司來說，處理大量數(shù)據(jù)和分析信息的任務(wù)也超出了個(gè)人的能力范圍。然而，通過正確地構(gòu)建AI系統(tǒng)，就可以在各種情境下獲得極大的幫助。

其他人都在看

GPT-4，大增長時(shí)代的序幕

深度學(xué)習(xí)崛起十年：“開掛”的OpenAI革新者

OpenAI創(chuàng)始人：GPT-4的研究起源和構(gòu)建心法

ChatGPT作者Schulman：我們成功的秘密武器

比快更快，開源Stable Diffusion刷新作圖速度

OneEmbedding:單卡訓(xùn)練TB級(jí)推薦模型不是夢

GLM訓(xùn)練加速：性能最高提升3倍，顯存節(jié)省1/3

歡迎Star、試用OneFlow:github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/

關(guān)鍵詞：

GPT-4創(chuàng)造者：第二次改變AI浪潮的方向-當(dāng)前資訊

本周資訊推薦

Windows11的Android模擬器沒有響應(yīng)是哪里的問題？Win11安卓模擬器沒有響應(yīng)修復(fù)方法

Windows11系統(tǒng)里面運(yùn)行Android應(yīng)用程序的要求有哪些？Win11運(yùn)行安卓的配置要求

cmd里面使用wmic命令無效是什么情況？使用wmic查找產(chǎn)品密鑰時(shí)未找到怎么辦？

Windows11沙盒沒有互聯(lián)網(wǎng)連接修復(fù)方法 windows沙盒連接網(wǎng)絡(luò)失敗怎么辦？

Windows11無法識(shí)別NVMe固態(tài)硬盤是什么問題？NVMeSSD硬盤無法識(shí)別解決方法

熱點(diǎn)資訊

天津最好的肺結(jié)節(jié)醫(yī)院-天津國泰醫(yī)院

甲子園是什么（甲子園是什么意思） -環(huán)球熱門

小米線刷包（MIUI官方ROM倉庫）相關(guān)內(nèi)容簡介

H2是什么意思（女生對(duì)你說H2是什么意思？） -即時(shí)

年會(huì)節(jié)目推薦（14個(gè)精彩有趣的公司年會(huì)節(jié)目） -快播

GPT-4創(chuàng)造者：第二次改變AI浪潮的方向-當(dāng)前資訊

圖片推薦

要聞

本周資訊推薦

熱點(diǎn)資訊