關(guān)于人工智能與人類的未來是我們每個人都要面對和思考的問題。
近日,人工智能教父杰弗里·辛頓教授在牛津大學(xué)的年度Romanes講座上發(fā)表公開演講,并提出了一個挑戰(zhàn)性問題:“數(shù)字智能將取代生物智能嗎?”,他的回答幾乎是肯定的。
演講中,辛頓從哲學(xué)的角度對AI的未來走向提出了一些嚴(yán)肅且重要的思考,他強(qiáng)調(diào)了在人工智能發(fā)展的同時,我們需要考慮倫理、社會和經(jīng)濟(jì)等多方面的影響,確保技術(shù)的進(jìn)步能夠造福人類。
為了讓大家更好地了解辛頓的觀點(diǎn),本文將辛頓此次演講的精彩內(nèi)容進(jìn)行重構(gòu)呈現(xiàn)。
精彩觀點(diǎn):
我開始思考我所稱之為“有限計(jì)算”的概念,即利用非常低功耗的模擬計(jì)算來消除硬件和軟件之間的差別。
過去我一直認(rèn)為我們離超級智能還有很長很長的路要走,最近我突然開始相信我們現(xiàn)在擁有的數(shù)字模型已經(jīng)非常接近于大腦的水平,并且將變得比大腦更好。
大模型才是人類認(rèn)識自己的最佳模型。
大語言模型的錯誤不是“幻覺”,更應(yīng)被稱為“虛構(gòu)”。
在未來的20年內(nèi),有50%的概率,數(shù)字計(jì)算會比我們更聰明,很可能在未來的一百年內(nèi),它會比我們?nèi)祟惵斆鞯枚唷?/p>
01、人工智能的兩大研究范式
自20世紀(jì)50年代以來,關(guān)于人工智能,有兩種研究范式。
邏輯啟發(fā)式方法認(rèn)為智能的本質(zhì)是推理,這是通過使用符號規(guī)則來操作符號表達(dá)式來實(shí)現(xiàn)的。他們認(rèn)為人工智能不要急著去學(xué)習(xí),當(dāng)我還是個學(xué)生的時候,有人告訴我不要研究學(xué)習(xí),在我們理解了如何表示事物之后,學(xué)習(xí)就很簡單了。
生物啟發(fā)式方法則大不相同,它認(rèn)為智能的本質(zhì)是學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中的連接強(qiáng)度,不用急著去推理,在學(xué)習(xí)完成后,推理自然就解決了。
現(xiàn)在我將解釋什么是人工神經(jīng)網(wǎng)絡(luò)。一種簡單的神經(jīng)網(wǎng)絡(luò)有輸入神經(jīng)元和輸出神經(jīng)元。以圖像識別網(wǎng)絡(luò)為例,輸入神經(jīng)元可以代表圖像中像素的灰度值,輸出神經(jīng)元可以代表圖像中物體的類別,比如狗或貓。然后就是中間層的神經(jīng)元,有時被稱為隱藏神經(jīng)元,它們學(xué)會檢測和識別這些事物相關(guān)的特征。
比如可能有一層神經(jīng)元,能識別兩條邊以細(xì)角度相交可能是一只鳥的喙,也可能不是,或者一些邊形成一個小圓圈。然后可能有一層神經(jīng)元,能識別這可能是一只鳥的頭部。最后,可能有一個輸出神經(jīng)元,識別出整體很可能是一只鳥。最后,可能會有一層輸出神經(jīng)元說,如果我找到鳥的頭部、鳥的腳、鳥的翅膀,那么這很可能是一只鳥。這些就是要學(xué)習(xí)的東西。
神經(jīng)元連接上有權(quán)重值,問題是誰來設(shè)定這些權(quán)重?有一種做法顯然是可行的,但需要很長時間:你的權(quán)重一開始是隨機(jī)的,然后你隨機(jī)挑選一個權(quán)重,稍微改變它,看看網(wǎng)絡(luò)是否運(yùn)行得更好。
你必須在很多不同的情況下嘗試,以評估它是否真的有所改善,看看將這個權(quán)重稍微增加一點(diǎn)或減少一點(diǎn),是否會有所幫助。如果增加它情況變得更糟,你就減少它,反之亦然。
這就是突變的方法,這種方式在進(jìn)化中是很合理的,因?yàn)閺幕蛐偷奖憩F(xiàn)型的過程非常復(fù)雜,且充滿了隨機(jī)的外部事件。
但對于神經(jīng)網(wǎng)絡(luò)來說,這是瘋狂的。因?yàn)槲覀冊谏窠?jīng)網(wǎng)絡(luò)中要進(jìn)行大量的計(jì)算。我們不是測量改變權(quán)重會如何影響事物,而是測量實(shí)際效果值和網(wǎng)絡(luò)預(yù)測值之間的誤差。這就是所謂的反向傳播,也就是你通過網(wǎng)絡(luò)反向發(fā)送信息,這些信息是關(guān)于你得到的和你想要的之間的差異,以此調(diào)節(jié)網(wǎng)絡(luò)權(quán)重。此時,你要調(diào)整網(wǎng)絡(luò)中的每個權(quán)重,不管是將其稍微減少還是增加一點(diǎn),目的是為了讓結(jié)果更接近你想要的。這比突變方法更高效,效率是網(wǎng)絡(luò)中權(quán)重的數(shù)量的倍數(shù)。所以如果你的網(wǎng)絡(luò)中有一萬億個權(quán)重,它的效率就是一萬億倍。
神經(jīng)網(wǎng)絡(luò)經(jīng)常被用于識別圖像中的對象?,F(xiàn)在,神經(jīng)網(wǎng)絡(luò)可以針對一個圖片,產(chǎn)生一個對于圖片的描述作為輸出。多年來,人們嘗試用符號方法做到這一點(diǎn),但連接近都沒有,這是一個困難的任務(wù)。
我們知道生物系統(tǒng)是通過一系列層次化的特征探測器來實(shí)現(xiàn)這一功能的,因此對神經(jīng)網(wǎng)絡(luò)進(jìn)行這樣的訓(xùn)練是有意義的。
2012年,我的兩位學(xué)生Ilya Sutskever和Alex Krizhevsky,在我的一點(diǎn)幫助下,展示了可以通過這種方式制作一個非常好的神經(jīng)網(wǎng)絡(luò),在有一百萬張訓(xùn)練圖片時,可以識別一千種不同類型的對象。而在那之前,我們沒有足夠的訓(xùn)練圖像樣本。
Ilya很有遠(yuǎn)見,他知道這個神經(jīng)網(wǎng)絡(luò)會在ImageNet競賽中獲勝。他是對的,他們贏得相當(dāng)炸裂,他們的神經(jīng)網(wǎng)絡(luò)只有16%的錯誤率,而最好的傳統(tǒng)計(jì)算機(jī)視覺系統(tǒng)的錯誤率超過了25%。
然后,科學(xué)界發(fā)生了一件非常奇怪的事情。通常在科學(xué)界中,如果有兩個競爭的學(xué)派,當(dāng)你取得一點(diǎn)進(jìn)展時,另一個學(xué)派會說你的成果是垃圾。但在這個案例中,由于差距足夠大,使得最好的研究者Jitendra Malik和Andrew Zisserman轉(zhuǎn)換了他們的研究方向來做這個,Andrew還給我發(fā)來郵件說,“這太神奇了。”然后改變了他們的研究方向,還做得比我們更好。
02、神經(jīng)網(wǎng)絡(luò)的語言和視覺奇跡
在語言處理方面,很多堅(jiān)信符號主義人工智能的研究人員認(rèn)為神經(jīng)網(wǎng)絡(luò)的特征層級無法處理語言問題。很多語言學(xué)家也持這樣的態(tài)度。
Noam Chomsky曾說服他的追隨者相信語言是天賦而非習(xí)得的?;仡檨砜?,這種說法其實(shí)是完全荒謬的。如果你能說服人們說一些明顯錯誤的話,那么你就把他們變成了你的信徒。我認(rèn)為Chomsky曾經(jīng)做出了驚人的貢獻(xiàn),但他的時代已經(jīng)過去了。
所以,一個沒有先天知識的大型神經(jīng)網(wǎng)絡(luò)僅僅通過觀察數(shù)據(jù)就能實(shí)際學(xué)習(xí)語言的語法和語義,曾被統(tǒng)計(jì)學(xué)家和認(rèn)知科學(xué)家認(rèn)為是完全瘋狂的想法。曾經(jīng)有統(tǒng)計(jì)學(xué)家向我解釋,大模型有100個參數(shù)就可以了,訓(xùn)練一百萬個參數(shù)的想法是愚蠢的,但現(xiàn)在,我們正在訓(xùn)練的參數(shù)達(dá)到了一萬億個。
我現(xiàn)在要談?wù)撘幌挛以?985年做的一些工作。那是第一個用反向傳播訓(xùn)練的語言模型,你完全可以認(rèn)為它是現(xiàn)在這些大模型的祖先。我會進(jìn)行詳細(xì)地解釋,因?yàn)樗浅P《液唵?,你能理解它是如何工作的。一旦你理解了它的工作原理,就能洞察在更大模型中正在發(fā)生的事情。
關(guān)于詞義有兩種非常不同的理論。
一種是結(jié)構(gòu)主義理論,認(rèn)為一個詞的意義取決于它與其他詞的關(guān)系。符號人工智能非常相信這種方法。在這種方法中,你會有一個關(guān)系圖,其中有單詞的節(jié)點(diǎn)和關(guān)系的弧線,通過這種方式來捕捉詞的意義,這個學(xué)派認(rèn)為必須有一些這樣的結(jié)構(gòu)存在。
第二種理論是心理學(xué)理論,從20世紀(jì)30年代甚至更早之前就在心理學(xué)中存在了,這種理論認(rèn)為,一個詞的意義是一大堆特征。比如“dog”這個詞的意義包括它是有生命的,它是一個捕食者等等。但是他們沒有說特征從哪里來,或者特征到底是什么。
這兩種意義理論聽起來完全不同。我想要向你展示的是如何將這兩種意義理論統(tǒng)一起來。在1985年,我的一個簡單模型做到了這一點(diǎn),它有超過一千個權(quán)重。
基本思想是我們學(xué)習(xí)每個單詞的語義特征以及單詞的特征如何相互作用,以便預(yù)測下一個單詞的特征。所以它是下一個單詞的預(yù)測,就像現(xiàn)在的語言模型在微調(diào)時所做的一樣。但是最重要的內(nèi)容就是這些特征的交互,并不會有任何顯式的關(guān)系圖。它是一個生成模型,知識存在于你賦予符號的特征中,以及這些特征的交互中。
這里是兩個家族譜系的關(guān)系圖,我們來看看符號學(xué)派和神經(jīng)網(wǎng)絡(luò)怎么來處理它們。
你可以用一組三元組來表達(dá)相同的信息。比如你可以說Colin有父親James和Colin有母親Victoria,從中你可以推斷出在這個美好而簡單的20世紀(jì)50年代的世界中,James有妻子Victoria。還有其他一些你可以推斷出的東西。問題是,如果我只給你一些三元組,你如何得到規(guī)則,符號人工智能想要做的就是派生出這樣的規(guī)則形式。如果X有母親Y、Y有丈夫Z,那么X有父親Z。
我所做的是,用一個神經(jīng)網(wǎng)絡(luò),通過特征交互的方式,讓它能學(xué)習(xí)到相同的信息。對于那些從不違反的非常離散的規(guī)則,神經(jīng)網(wǎng)絡(luò)可能不是最好的方法。事實(shí)上,符號學(xué)派的人嘗試用其他方法來做這件事。但是,如果你不要求規(guī)則總是那么穩(wěn)定和適用,神經(jīng)網(wǎng)絡(luò)的優(yōu)勢就體現(xiàn)出來了。
問題在于,神經(jīng)網(wǎng)絡(luò)能否通過反向傳播來捕捉符號學(xué)派從規(guī)則中捕獲的知識?
神經(jīng)網(wǎng)絡(luò)是這樣運(yùn)作的:有一個代表人的符號輸入,一個代表關(guān)系的符號輸出。這些符號通過一些連接轉(zhuǎn)換為一個特征向量,這些特征是由網(wǎng)絡(luò)學(xué)習(xí)的。所以我們有了一個人的特征和關(guān)系的特征,這些特征相互作用,預(yù)測出關(guān)系人的特征,然后找到一個最匹配該特征的人,這個人就是要輸出的人。
這個網(wǎng)絡(luò)有趣的地方在于,它學(xué)到了有用的東西。當(dāng)時的神經(jīng)元是6個特征,如今這些向量是300或者1000的長度。這是在一臺機(jī)器人完成的,這臺機(jī)器需要12.5微秒來進(jìn)行浮點(diǎn)數(shù)乘法,所以它學(xué)會了像國籍這樣的特征。比如,你知道第一個人是英格蘭人,你就知道輸出也會是英格蘭人,所以國籍是一個非常有用的特征。它還學(xué)會了人的代際特征,通過關(guān)系它就知道另一個人所處的世代。
所以它學(xué)習(xí)了領(lǐng)域中所有顯而易見的特征,它學(xué)會了如何使這些特征相互作用,以便它能夠進(jìn)行輸出。我給它展示了符號字符串,它創(chuàng)建了這樣的特征,這些特征之間的相互作用可以生成這些符號字符串,但它并沒有存儲符號字符串。就像GPT-4一樣,它不會在長期記憶中存儲任何單詞序列單詞,它將它們?nèi)哭D(zhuǎn)化為權(quán)重,從中可以重新生成序列。所以這是一個特別簡單的例子,你可以理解它做了什么。
我們今天擁有的大語言模型(LLM),我認(rèn)為它們是微小語言模型的后代,它們有更多的輸入詞,比如一百萬個單詞片段,它們使用更多層的神經(jīng)元,比如幾十層。它們使用更復(fù)雜的相互作用,它們不僅僅是一個特征影響另一個特征。它們會匹配兩個特征向量,然后如果它們相似,一個向量會對另一個向量產(chǎn)生很大的影響,但如果它們不同,影響就不大,諸如此類。
所以這涉及到更為復(fù)雜的相互作用,但它們遵循的是相同的基本框架,同樣的基本理念,即讓我們將簡單的字符串轉(zhuǎn)化為單詞片段的特征以及這些特征向量之間的相互作用。這一點(diǎn)在這些模型中是相同的。
要理解它們的工作原理,就困難得多了。許多人,特別是來自喬姆斯基學(xué)派的人,爭辯說它們并不是真正的智能,它們只是一種被美化的“自動補(bǔ)全”功能,使用統(tǒng)計(jì)規(guī)律將人創(chuàng)造的文本片段拼貼在一起。
當(dāng)人們說它只是自動補(bǔ)全時,他們是基于一個錯誤觀念,因?yàn)檫@并不是LLM預(yù)測下一個單詞的方式。當(dāng)單詞轉(zhuǎn)化為特征時,它們使這些特征相互作用,從這些特征相互作用中,它們預(yù)測下一個單詞的特征。
我想要強(qiáng)調(diào)的是,由于這些數(shù)以百萬計(jì)的特征和數(shù)以億計(jì)的相互作用,LLM是有理解能力的。這是LLM真正做的事情,它們是在用數(shù)據(jù)擬合一個模型,直到最近,統(tǒng)計(jì)學(xué)家還沒認(rèn)真思考這種模型。這是一種奇怪的模型,它非常大,它有大量的參數(shù),它試圖通過特征以及特征如何交互來理解這些離散符號串。但它確實(shí)是一個模型。
有一件事要記住,如果你問,那么我們?nèi)祟愂侨绾卫斫獾哪?大模型是我們關(guān)于理解的最佳模型。所以并不是這些AI系統(tǒng)正在以一種奇怪的方式理解,然后大腦以另一種方式理解,其實(shí)二者是相通的——我們對大腦如何理解的最好模型,就是通過特征和特征之間的相互作用來理解的。最初,我們這個小型語言模型就是作為人們理解的模型設(shè)計(jì)的。所以,我強(qiáng)烈認(rèn)為:大模型確實(shí)是有理解力的。
現(xiàn)在人們討論的另一個話題是,GPT-4有“幻覺”問題。對于語言模型而言,實(shí)際上更應(yīng)該稱為“虛構(gòu)”,它們只是編造東西。心理學(xué)家并不怎么說這些,因?yàn)樾睦韺W(xué)家知道人們也經(jīng)常編造東西。任何研究記憶的人都知道,從巴特利特在20世紀(jì)30年代開始,人們實(shí)際上就像這些大型語言模型一樣,他們只是編造東西。對我們來說,真實(shí)記憶和虛假記憶之間沒有明確的界線。如果某件事最近發(fā)生的,并且它與你理解的事情相符,你可能會大致正確地記住它。如果某件事是很久以前發(fā)生的,或者是比較奇怪的事,你不能正確地記住,而且你經(jīng)常會非常自信地認(rèn)為你的記憶是正確的,但你錯了。這很難證明。
有一個可以證明的例子是John Dean的記憶。John Dean在水門事件中作證?;仡櫰饋?,很明顯他當(dāng)時是在試圖說實(shí)話。但他說的很多事情都是錯的。他會混淆誰在哪個會議上,他會把某個人的話歸于其他人,而實(shí)際上并不完全是那樣。他完全混淆了不同的場景。但從錄音中可以看出,他對白宮正在發(fā)生的事情有所了解。他只是編造內(nèi)容,但是聽起來是合理的,所以他所說的是對他而言聽起來不錯的東西。
LLM還可以進(jìn)行推理。我在多倫多有一個朋友是符號AI學(xué)派的人,但他非常誠實(shí)。所以他對大模型能夠工作感到困惑,他向我提出了一個問題,我把這個問題變得更難一些,并在GPT-4能上網(wǎng)查東西之前向它提問,當(dāng)時它只是一堆在2021年被固定的權(quán)重,所有的知識都存在特征交互的強(qiáng)度中。
新的問題是:“我的所有房間被粉刷成藍(lán)色或白色或黃色,黃色的油漆在一年內(nèi)會褪色變白。我想讓所有房間在兩年內(nèi)都變成白色。我應(yīng)該做什么,為什么?”朋友認(rèn)為它不會正確解答。
下面是GPT-4回答的內(nèi)容,它完全說對了。
首先,它說,假設(shè)藍(lán)色的油漆不會褪色成白色,也許藍(lán)色的油漆也會褪色,但因?yàn)辄S色的油漆會褪色成白色,所以假設(shè)它不會褪色。那么白色的房間你不需要粉刷,黃色的房間你也不需要粉刷,因?yàn)樗鼈儠谝荒陜?nèi)褪色成白色。而藍(lán)色的房間你需要粉刷成白色。有一次我嘗試過,它說你需要將藍(lán)色的房間涂成黃色,因?yàn)樗庾R到它們會褪成白色。這更像是數(shù)學(xué)家將問題簡化為一個先前問題的解決方法。
03、數(shù)字智能將超越生物智能
最后,我想談?wù)勎以?023年初的一個頓悟。我一直以為我們離超級智能還有很長很長的路要走,我過去常告訴人們可能需要50到100年,甚至可能是30到100年。這還很遙遠(yuǎn),我們現(xiàn)在不需要擔(dān)心它。
我還認(rèn)為,讓我們的模型更像大腦會使它們變得更好。我認(rèn)為大腦比我們現(xiàn)有的人工智能要好得多,如果我們能夠使人工智能更像大腦,比如說,通過設(shè)置三個時間尺度來做到這點(diǎn),目前我們擁有的大多數(shù)模型只有兩個時間尺度。一個是權(quán)重變化,速度很慢,另一個是單詞輸入,速度很快,它改變的是神經(jīng)活動。大腦擁有的時間尺度比這要多,大腦可以快速地變化權(quán)重并將其快速地衰減掉,這可能就是大腦處理大量短期記憶的方式。
而我們的模型中沒有這一點(diǎn),這是技術(shù)原因?qū)е碌?,這與矩陣和矩陣的乘法運(yùn)算有關(guān)。我仍然相信,如果我們將這些特性融入我們的模型中,它們將變得更好。
但是,由于我在之前兩年所從事的工作,我突然開始相信我們現(xiàn)在擁有的數(shù)字模型已經(jīng)非常接近于大腦的水平,并且將變得比大腦更好。
現(xiàn)在我將解釋我為什么相信這一點(diǎn)。
數(shù)字計(jì)算是很棒的,你可以在不同的計(jì)算機(jī)上運(yùn)行相同的程序,在不同的硬件上運(yùn)行相同的神經(jīng)網(wǎng)絡(luò)。你所需要做的就是保存權(quán)重,這意味著一旦你有了一些不會消失的權(quán)重,它們就是永生的。即便硬件損壞,只要你有權(quán)重,你可以制造更多的硬件并運(yùn)行相同的神經(jīng)網(wǎng)絡(luò)。為了做到這一點(diǎn),我們要以非常高的功率運(yùn)行晶體管,使其以數(shù)字方式運(yùn)行,并且我們必須有能夠精確執(zhí)行指令的硬件,當(dāng)我們精確地告訴計(jì)算機(jī)如何執(zhí)行任務(wù)時,它們做的很棒。
但是現(xiàn)在我們有了另一種讓計(jì)算機(jī)執(zhí)行任務(wù)的方式,我們現(xiàn)在有可能利用硬件所具備的豐富的模擬特性,以更低的能量完成計(jì)算。大語言模型在訓(xùn)練時使用的是兆瓦級的能量,而我們?nèi)祟惔竽X只使用30瓦的能量。由于我們知道如何訓(xùn)練,也許我們可以使用模擬硬件,雖然每個硬件都有些許差異,但我們可以訓(xùn)練它利用其特殊的特性,以便它按我們的要求執(zhí)行任務(wù)。
這樣它就能夠根據(jù)輸入產(chǎn)生正確的輸出。如果我們這樣做,我們就可以放棄硬件和軟件必須分離的觀念。我們可以有只在特定硬件上工作的權(quán)重,從而使能量效率更高。
所以我開始思考我所稱之為“有限計(jì)算”的概念,即利用非常低功耗的模擬計(jì)算來消除硬件和軟件之間的差別。
你可以以電導(dǎo)形式存儲數(shù)萬億個權(quán)重,并以此進(jìn)行并行計(jì)算。而且,你也不需要使用非常可靠的硬件,你不需要在指令級別上讓硬件嚴(yán)格按照你的指示執(zhí)行任務(wù)。你可以培育一些“黏糊糊”的硬件,然后你只需要學(xué)會如何讓它們做正確的事情。所以你應(yīng)該能夠更便宜地使用硬件,甚至可以對神經(jīng)元進(jìn)行一些基因工程,使其由回收的神經(jīng)元構(gòu)成。
我想給你舉一個例子,說明這樣做為什么會更高效。在神經(jīng)網(wǎng)絡(luò)中,我們一直在進(jìn)行的操作是將神經(jīng)活動的向量與權(quán)重矩陣相乘,以獲得下一層的神經(jīng)活動向量,或者至少獲得下一層的輸入。因此,提高向量矩陣乘法的效率,是我們要關(guān)注的事。在數(shù)字計(jì)算機(jī)中,我們有這些晶體管,它們被驅(qū)動到非常高的功率,以表示32位數(shù)中的bits。當(dāng)我們執(zhí)行兩個32位數(shù)的乘法時,如果你想要快速完成乘法運(yùn)算,就需要大量執(zhí)行這些數(shù)字操作。
有一種更簡單的方法,就是將神經(jīng)活動表示為電壓,將權(quán)重表示為電導(dǎo),電壓乘以電導(dǎo)就是單位時間內(nèi)的電荷,然后電荷會自然相加。因此,你可以通過將一些電壓送給一些電導(dǎo)來完成向量矩陣乘法運(yùn)算,而下一層中每個神經(jīng)元接收到的輸入將是該向量與這些權(quán)重的乘積。這非常好,它的能效要高得多。你已經(jīng)可以買到執(zhí)行這種操作的芯片了,但每次執(zhí)行時都會有略微的不同。而且,這種方法很難做非線性的計(jì)算。
所以有幾個關(guān)于有限計(jì)算的大問題。其中之一是很難使用反向傳播算法,因?yàn)槟阏诶媚硞€特定硬件的特異模擬屬性,硬件不知道它自己的屬性,所以就很難使用反向傳播。相比之下,使用調(diào)整權(quán)重的強(qiáng)化學(xué)習(xí)算法要容易得多,但它們非常低效。
對于小型網(wǎng)絡(luò),我們已經(jīng)提出了一些與反向傳播算法效率基本相當(dāng)?shù)姆椒?,只是略差一些而已。這些方法尚未擴(kuò)展到更大的規(guī)模,我也不知道是否能夠做到。但不管怎樣,反向傳播是正確的做法。對于大型、深度網(wǎng)絡(luò),我不確定我們是否能找到與反向傳播同樣有效的解決方案,模擬系統(tǒng)中的學(xué)習(xí)算法可能不會像我們在大型語言模型中所擁有的算法那樣好。
有限計(jì)算的另一個重要問題是,如果軟件與硬件不可分割,當(dāng)系統(tǒng)學(xué)習(xí)完畢后,如果硬件損壞,所有的知識就會失去。從這個意義上說,它是有限的。那么,如何將這些知識傳輸給另一個有限系統(tǒng)呢?你可以讓舊系統(tǒng)進(jìn)行講解,新系統(tǒng)通過調(diào)整其大腦中的權(quán)重來學(xué)習(xí),這就是所謂的“蒸餾”。你嘗試讓學(xué)生模型模仿教師模型的輸出,這是可行的。但效率不高。
你們可能已經(jīng)注意到,大學(xué)并不那么高效。教授將知識傳授給學(xué)生是非常困難的。一個句子包含了幾百位的信息,使用蒸餾方法,即使你完全吸收,你也只能傳達(dá)幾百位的信息。
但是,對于大模型,如果你看一群大模型代理,它們都有完全相同的神經(jīng)網(wǎng)絡(luò)和完全相同的權(quán)重,它們是數(shù)字化的,它們以完全相同的方式使用這些權(quán)重,這一千個不同的代理都去互聯(lián)網(wǎng)上查看不同的內(nèi)容并學(xué)習(xí)東西,現(xiàn)在你希望每個代理都知道其他代理學(xué)到了什么。你可以通過平均梯度或平均權(quán)重來實(shí)現(xiàn)這一點(diǎn),這樣你就可以將一個代理學(xué)到的東西大規(guī)模地傳達(dá)給所有其他代理。
當(dāng)你分享權(quán)重、分享梯度時,你要傳遞的是一萬億個數(shù)字,不是幾百位的信息。因此,大模型在傳遞信息方面比人類溝通要強(qiáng)得太多了,這是它們超越我們的地方。它們在同一模型的多個副本之間的通信上要比我們好得多,這就是為什么GPT-4比人類知識更豐富,它不是由一個模型實(shí)現(xiàn)的,而是由不同硬件上運(yùn)行的大量相同模型的副本實(shí)現(xiàn)的。
我的結(jié)論是,數(shù)字計(jì)算需要大量能量,這一點(diǎn)不會變,我們只能通過硬件的特性實(shí)現(xiàn)進(jìn)化,使得能量消耗降低。但一旦你掌握了它,代理之間的共享就變得非常容易,GPT-4的權(quán)重只有人類的2%左右,但卻擁有比人類多上千倍的知識。這相當(dāng)令人沮喪。生物計(jì)算在進(jìn)化方面非常出色,因?yàn)樗枰苌俚哪芰俊5业慕Y(jié)論是數(shù)字計(jì)算更優(yōu)秀。
因此,我認(rèn)為,很明顯,在未來的20年內(nèi),有50%的概率,數(shù)字計(jì)算會比我們更聰明,很可能在未來的一百年內(nèi),它會比我們聰明得多,我們需要思考如何應(yīng)對這個問題。很少有例子表明更聰明的事物受到不太聰明的事物的控制,雖然確實(shí)有這樣的例子,比如母親被嬰兒控制。但是很少有其他例子。有些人認(rèn)為我們可以使人工智能變得善良,但如果它們相互競爭,我認(rèn)為它們會開始像黑猩猩一樣行事。我不確定你能否讓它們保持善良,如果它們變得非常聰明并且有了自我保護(hù)的意識,它們可能會認(rèn)為自己比我們?nèi)祟惛匾?/p>
相關(guān)參考:
https://www.ox.ac.uk/news/2024-02-20-romanes-lecture-godfather-ai-speaks-about-risks-artificial-intelligence
《AI教父Hinton最近對人工智能的7個觀點(diǎn)》,衛(wèi)sir說
*素材來源于網(wǎng)絡(luò)
(來源:世界人工智能大會)