【達人聊產業】BEYOND ChatGPT ! 大型語言模型 AI 全集中解析 Ft. 台大李宏毅教授 [財報狗 podcast S2E214]

本集節目由 Hahow 好學校 贊助播出。

Hahow 好學校,全台最大線上課程學習平台 ,累積千堂影音課程,超過 80 萬會員在此學習。

致力在 AI 領域上開立更多課程, 即日起推出一系列 AI 新課程及免費直播,將 AI 打造成屬於你的武器。

現在到 →  https://lihi3.cc/Zr9JC 領取折扣券, 或輸入狗狗粉絲專屬優惠碼【sd2023】, 單堂 92 折,兩堂 86 折優惠,全領域課程皆適用。

#Hahow好學校

ChatGPT 的熱潮引爆。本集節目邀請到我們最近的偶像,台灣 AI 領域的權威人物、台大電機副教授——李宏毅老師,與大家分享究竟 Open AI 領先同業的關鍵是什麼?語言模型技術下一個世代又會是什麼?台灣目前在此賽道扮演的角色?本集內容相當 Hardcore, 我們將最近研究累積的滿坑滿谷的問題,藉由本次訪談來解惑!

你可以在以下平台訂閱收聽:



這邊是一些訪談精華片段

AI 的現況

06:09 ChatGPT 引起社會熱烈討論,但這並非 AI 突然的大幅躍進。

10:56 目前大公司的 LLM 皆是使用既有技術,本質上並無差異。OpenAI 目前較突出的原因是它知道大量的應用場景。

AI 還能進步多少?

07:11 多數研究單位都沒有能力自行訓練模型,短期內自然語言處理進入了高原期,多數研究將會圍繞在如何更好的使用既有模型。

18:18 未來會有更進步的模型推出,但大多數參與者已經沒有能力推出。

22:37 目前的 LLM 使用了遠超人類能閱讀的資料,但成果卻與人類成果相差不大。未來將聚焦如何提升 AI 的訓練效率,這需要仰賴新的演算法變革。

25:19 資料量、參數量、訓練方式是三個訓練 AI 的重要面向。

27:35 超大的 LLM 展現出來的效果可能不如參數量較小但更多資料量的模型。

訓練資料量的瓶頸將導致 AI 產業出現變革

32:38 資料量出現瓶頸,AI 的進步需要仰賴新的演算法出現。

34:40 未來 LLM 賽道上的算力軍備競賽將會轉變,專注在訓練效率上的提升。

36:38 ChatGPT 都是建立在過往的既有技術,今天 AI 有如此成果與近代硬體上算力的增加,以及社會對 AI 的信心提升,更願意參與有關。

AI 產業與供應鏈將來會有哪些轉變?

42:03 目前的 AI Training 是建立在 GPU 上,短期內 ASIC 仍很難獲得廣泛使用。

46:29 LLM 使用非常大的資料訓練才跑出與人類相仿的成果,GPU 可能不會是最終的解法。未來能夠提出解方的企業應該要能同時整合軟硬體。

48:32 未來個人使用 AI 的成本將透過使用 ChaptGPT 與其 API 變得非常低,但有些政府與公司有隱私等疑慮,這可以用預訓練好的模型如 LLaMA 投入。

58:27 研究指出 AI Training 時使用少量的標注資料,對於模型成果將有顯著提升。所以在通用的應用上可以透過 AI 進行資料標注,而企業若能在特定需求的單點資料標注優於 AI,將產生機會。

封閉 VS 開源

1:01:38 未來封閉、開源的應用將同時存在。

台灣目前 AI 賽道上的策略是什麼?

1:06:12 政府與企業仍有自有模型的需求,對於政府主導 AI 計畫,並授權給其他企業做使用樂觀其成。

面對 AI 快速發展,該如何進行管制?

1:13:31 從政府角度目前沒有立即解方,但從技術上,由於目前的模型像是黑盒子,我們無法知道他有什麼能力與漏洞,所以缺乏了自動檢測 LLM 有什麼漏洞、特定偏見的技術。

訂閱財報狗新聞: https://statementdog.substack.com/

Podcast 業務合作聯絡信箱: business@statementdog.com

財報狗社群

本集逐字稿

威宇:歡迎收聽財報狗 Podcast,我是主持人威宇。在我旁邊的是財報狗的投資總監 Sky。

Sky哈囉大家好。

威宇:這一集是達人聊產業單元,在這個單元裡,我們邀請各個產業的專家跟我們分享整個產業的概況還有未來趨勢。今天的來賓是我最近的偶像,因為我最近在研究 AI,不管在哪一個方面,我都認為了解 AI 可能是現在最重要的工作或事情。

身為個人,你要如何使用 AI 幫助自己的工作,身為財報狗的產品經理,我們要如何使用 AI 的 API 打造更好的產品;身為投資人,要了解 AI 帶來的產業變革。想要了解這些資訊,我覺得不只全台灣,全部的中文教學都沒有一個人講得比今天這個人好,這是我最近的偶像,台大電機的副教授李宏毅老師,老師你好。

李宏毅:威宇你好,Sky 你好,各位觀眾朋友大家好。

威宇:可不可以先請李老師介紹一下你的背景,以及現在在教的東西主要是什麼?

李宏毅:大家好,我是李宏毅,我現在是台大電機系的副教授。我在台大開了機器學習這門課,我主要的專長是研究語音處理和自然語言處理,講的通俗一點是如何讓機器聽得懂人話,所以包括最近最熱門的 ChatGPT 相關技術,其實也算我研究領域的範圍之一。

我在台大開機器學習這門課,它是一個入門的課程,教大家 AI 相關的入門的技術。有滿多同學來聽這門課,這學期大概有五六百人修課。

威宇:這應該是最多人聽的課之一,有五六百人,台大的教室塞的下來嗎?

李宏毅:因為我的課程可以線上聽,所以實際上來教室的不會那麼多,而且五六百人並不是最多的一次。2021 年時我收了 1,400 個人,現在因為覺得超過千人的大班我不一定能夠 Manage 得很好,所以現在收人還是有個上限。

威宇:如果想要聽老師的課,老師都有把課程上傳到 YouTube,那些是全部嗎?還是大部分?

李宏毅:大部分幾乎都有上傳。

威宇:你看 YouTube 上面那些很硬的課程,也都有幾十萬人觀看,大家非常想學習。

Sky我有貢獻幾個觀看數。

李宏毅:謝謝。

Sky不懂的只好找老師幫我解惑,不然我真的不懂。

AI 的現況

威宇:比較基礎的東西,像 ChatGPT 它背後的原理是什麼,其實老師在他的 YouTube 上面都有非常詳細的說明,大家可以自己去看,今天我們直接聊比較困難一點點的東西。

我的第一個問題應該是很多人現在的感受,為什麼在去年年底 ChatGPT 起來之後,突然間每個人都要講 AI,每個人都要講大型語言模型,我們突然要學很多東西?包含 Sam Altman 他們推出 GDP-4 時,他們的 Paper 裡面提到,有一群專家在預測未來的影響時,他們給的建議是延遲半年再推出來,因為人類社會還沒有準備好面對這樣的變革。為什麼這次的變革是突如其來的巨大轉變?而不是一個漸進的過程?

AI 還能進步多少?

李宏毅:我必須要說,從我的觀點來看,我並不覺得這是一個突如其來的轉變,我並不認為這是 AI 突然開竅了、變得非常聰明,在我看來這仍然是一個漸進的過程。

現在 ChatGPT 展示的技術其實都是早就已經有的技術。所以我們來回溯一下這個歷史,多數人見識到 ChatGPT 的威力可能都是在今年年初,ChatGPT 上線的時間是去年,2022 年 11 月 30 日。其實我在它上線幾天後我測試了一下,那時候的 ChatGPT 顯然跟今天用的版本不在同一個能力的量級上面。

那時候我在 YouTube Channel 裡面還可以 Demo,我問它某一個英文單字裡面有幾個字母,它沒辦法給我正確的答案,但現在它恐怕已經不會犯類似的錯誤。我在 12 月初的時候問它一些數學問題,它也沒辦法給正確答案,但它現在數學的能力也已經和幾個月前的 ChatGPT 不一樣了,所以 ChatGPT 其實是一直在進步的。

今天去玩 12 月的那個版本,你可能會覺得沒有什麼。那在更早之前呢?更早之前 OpenAI 已經釋出一個叫做 Davinci 的模型,Davinci 的模型玩起來跟今天的 ChatGPT 也有 87% 像,它其實也可以做很多的事情,比如幫你改文章、幫你寫作文、幫你寫 E-mail,這些事情 Davinci 也都可以做到,只是那時候沒有那麼多人玩。

在 Davinci 更之前有 GPT-3,在 GPT-3 更之前有 GPT-2,GPT-2 剛出來的時候我也玩了一下,它也有很多現在讓你覺得 Language Model 非常驚人的功能。比如你問它一個問題,它也可以給你答案,你給它一篇文章叫它幫你抽一些關鍵字,它有時候也可以做對。所以在我看來,這並不是一個突然出現的技術,這是一個漸變的過程。

不過這些模型確實越來越強,強到進入大眾的視野。其實在我看來,我覺得最大的差別是 ChatGPT 的平台可以免費試用,它有一個非常清晰明瞭易懂的介面,不管對 AI 有沒有理解,每一個人連上去都可以玩一下,我覺得這是 ChatGPT 現在能夠進入大眾視野最大的關鍵。像 GPT-3 你要用它,要先註冊還要付錢,大家不去玩,不去玩就沒有人告訴你這個模型有多厲害,所以紅不起來。

威宇:的確,因為其實以我們公司來講,我們大概在去年的 6 月或 7 月開始使用 Davinci 做一些電話會議法說會,把這些很長的逐字稿摘要秀在網站上,當時我們想到的應用就是這樣。但是當 ChatGPT 出來以後,開始很多人關注它,去研究它可以怎麼應用,有很多的應用其實可能是在 2020 年初時就能夠有,但是大家是等到 ChatGPT 爆紅以後,認真研究才想到更多的應用機會。

李宏毅:因為像這種大型的語言模型,它在學習的時候到底學到了什麼東西,我們人類是不知道的,這些開發者也不知道。所以為什麼 ChatGPT 現在有這麼多的功能,我覺得很大一部分是歸功於全世界的人都在想辦法看看 ChatGPT 可以做什麼。一開始 OpenAI 可能都沒有想到 ChatGPT 可以有這麼多的功能,但是現在全世界的人都在幫 ChatGPT 找工作,所以不怕它找不到工作。

威宇:這個滿有趣的,因為剛剛提到 OpenAI 一開始也沒想到,現在大家都在使用 ChatGPT,其實很多大公司很緊張,Google、Meta 都很緊張,我想問一下老師,你自己覺得以技術的角度來講,現在到底哪一間公司在語言模型這一塊是最強的?

李宏毅:我認為從技術的角度來看,可能各個大公司並沒有本質上的差異,語言模型裡面用的這些技術都是學界、業界已知的技術,但是為什麼 OpenAI 看起來好像比其他公司再稍微領先一步呢?

其實我覺得最關鍵的差異來自於 OpenAI 面對大型語言模型時所採取的策略。怎麼說呢?OpenAI 其實並不希望大型的語言模型被釋出,像 Google 它曾經在 2018 年時有過大型的語言模型,但今天看起來並沒有那麼大型。Google 訓練了這個 BERT 系列模型,BERT 系列模型是開源的,全世界的人都可以載下來做自己的應用,所以從 Google 的角度來看,它根本不知道大家拿那些大型語言模型做什麼的事情。

但是 OpenAI 採取的策略是,當初它 2019 年釋出 GPT-2 的時候,它就不想開源,不把最大的模型拿出來,但是各處的鄉民跟網民、各學界很多人都一直抱怨,所以最後迫於壓力它也釋出了 GPT-2,但是到 GPT-3,它真的就不釋出了。但它不釋出有很多的理由,比如這個模型太大了,反正釋出你也跑不動,或者是為了防止世界被破壞、為了守護世界的和平,這個模型能力太大了,必須由 OpenAI 來統一管控,這個不能夠給你們隨便玩。

所以它多了一個平台,它有一個平台是你要用它的語言模型,你得連上那個平台以後去用,所以它完全知道大家拿那個大型語言模型做什麼事情。我們每個人可以想像得到大型語言模型應用都是有侷限的,我們可能只想得到一兩個應用,可是 OpenAI 搜集了全世界的人用大型語言模型的方式,所以它相較於 Google 更清楚你會怎麼用這些大型語言模型,所以我覺得這是 OpenAI 相較於其他公司,今天看起來稍微領先一步的一個關鍵。

威宇:他們對最後的應用場景可能是更理解的。

李宏毅:這個應用場景的理解其實是非常重要的。因為如果我們看 OpenAI 過去所釋出的論文,在釋出 ChatGPT 之前,他們有一篇文章叫 InstructGPT,InstructGPT 這個模型裡面的技術跟 ChatGPT 應該是有 87% 像。

在 InstructGPT 裡面他們提到一個非常關鍵的技術,他們把自己的模型跟 Google  的大型語言模型比較,他們的模型有人類老師提供資料做微調,Google 的模型也有人類老師提供資料做微調。但 InstructGPT 比 Google 當時的模型叫做 Flag 還要強上一大截,他們拿去做使用者評測的時候強上一大截,為什麼呢?

在論文裡面提到,因為他們有使用到 Customer 的資料,在他們的資料裡面有很多是 Customer 的提問,Customer 的提問有什麼重要的地方呢?我們一般在訓練語言模型時,就算是要微調它、讓它解某一些任務時,那些 Researcher 訂出來的那些問題、提出來的那些問題往往都很無聊,通常都是那種問答的問題,比如世界上最高的山是哪一座?答案是喜馬拉雅山。

正常人在用語言模型的時候,你通常不會問這種問題,你通常不是拿這種語言模型問這麼簡單的問題。OpenAI 發現一般人在用這些語言模型時,通常會問更開放性的問題,比如給我激發工作熱忱的五個方法,或給我十個跟 ChatGPT 有關的笑話,這是一般人會問的問題。知道一般人會問什麼,讓你的模型根據一般人的喜好、一般人覺得重要的應用去調整,我覺得這個其實是 OpenAI 成功的關鍵,而這是其他大公司目前都還沒有的。

威宇:其實我覺得這是一個很有趣的想法,因為如果知道 OpenAI 他們的背景,他們的執行長 Sam Altman 上一份工作是什麼?是 Y Combinator 的 CEO。

Sky創投。

威宇:其實 Y Combinator 跟其他創投最不一樣的是 Talk To Users,他們叫公司裡的人每個禮拜都要盡可能地跟使用者訪談,你一定要了解使用者到底用你的產品做什麼,他們喜歡什麼,他們是怎麼用的。我覺得剛剛老師講的好像是他們透過了某些技術,所以他們更了解使用者在幹嘛。

李宏毅:沒錯。

威宇:現在已經到 GPT-4 了,GPT-4 的 Paper 裡面也看到,它去考各種不同的測驗,應該可以很肯定地說它可以考進全台灣所有的大學,台大電機系是考不上的,可是考上台大應該是沒問題的。

它已經到這個程度了,甚至我們最近有看到越來越多的初步研究,或者是嘗試想要把這種語言模型當作是一個指揮的中樞嗎?像 AutoGPT 或者是微軟的 JARVIS ,他們就是想要讓機器判斷要做什麼工作,你去列個任務列表,你去把任務交給不同的 AI 再去執行。這很可怕,你會想說原來 GPT-4 已經到這個程度了,未來大型模型它還能夠進步多少?還是也許某種程度上已經跟 CV 視覺的 AI 一樣。

SkyComputer Vision。

威宇:感覺 Computer Vision 已經到了一個程度,好像已經有一點點進入高原期。

李宏毅:真的嗎?你這樣講做 CV 的人恐怕不會同意啦。

Sky等一下打電話被罵怎麼辦?

威宇:你看 Midjourney 這個東西在生成上面好像有起來,可是我覺得在辨識這邊沒有看到,我本來講這個很有信心,可是最近 Meta 又出了 Segment Anything。

Sky我之前看到很多人提到它的資料集有隱私的問題,因為那個人臉某一些地方可以做得很好的這種資料集。

威宇:我想知道語言模型的 AI 未來還能夠進步多少?或者我們講接下來的三年,三年它還會進步多少?還是現在可能是一個高原期?

李宏毅:我想分兩個面向來談。在短期之內,我確實同意自然語言處理進入了某一個高原期,因為對多數的團隊而言,除了最大的團隊、除了大公司以外,多數的研究團隊都沒有能力自己訓練那麼大的模型。所以多數的研究接下來都會圍繞著這些已有的大型語言模型展開,比如研究怎麼真正發揮 ChatGPT 的力量,比如你每次問完問題說個謝謝,它會不會變得比較強,你到時候會看到滿坑滿谷的這類研究,我可以把它稱之為大型語言模型心理學。

讓我們來了解一下大型語言模型在想什麼,怎麼樣才能夠發揮它真正的力量?比如有人發現,如果你每次開頭跟它講你是一個聰明的模型,這樣它其實會做得比較差。不要說它是聰明的,有一個文章開頭寫,不要說你是一個聰明的模型,它反而做得比較好,所以這種研究之後會很多,之後會有很多這類型的研究。

可是其實 GPT-4 真的已經完美了嗎?在考試的成績上它似乎很強,但是因為我們並不知道 GPT-4 實際上使用的資料,它也許是做了大量的考古題之後,它才在某些考試的能力上特別強。

我舉一個例子,其實你非常容易發現 GPT-4 有很多弱點,我想要用 ChatGPT 做一個餐廳訂位系統,我用 GPT-4 來做,你告訴它我輸入餐廳的資訊,告訴它現在每一天已經有多少訂位,再告訴它我們餐廳每天最多接受 10 個訂位,如果超過 10 個訂位的話,就沒辦法訂位,只是這麼一個簡單的任務。

但是某一天已經有 9 個人訂位,又有一個人要再訂 2 個人的位子,它不會拒絕你,它還是會幫你訂位。所以我覺得它解數學問題的能力似乎很厲害,但是 9 加 2 等於 11,超過 10 不能訂位這件事情,我不管怎麼 Prompt 它都不知道,所以我覺得還是找得到一些它不懂的事情。

雖然它在考試上很強,但是你還是可以找到 GPT-4 會犯一些人類不會犯的錯誤。所以從這個觀點來看,GPT-4 其實還有進步的空間。我們還會看到 GPT-4 變得越來越強,比如有 GPT-5、GPT-6、GPT-7,但這可能已經不是多數的團隊可以做的研究。另外再想得更長遠一點,比如我們考慮一個 5 年 10 年後,現在的語言模式它對於人類的語言還有什麼不瞭解的地方,我覺得它有一個面向是現在幾乎還沒有看到研究的,就是語音版的 GPT-4。

我所謂的語音版並不是把一句話辨識成文字,把文字丟到 GPT-4 裡面它給你一個答案,你再語音合成出來,我指的不是這樣。現在跟機器互動的模式都是一問一答,像用對講機一樣,你按鈕按下去說你好放開不講話,你的聲音就送出去了。

但是人跟人在對話的時候,我們用的是一個更自然的方式,當我在講話的時候,剛才威宇會不斷地說嗯,代表你有聽到,機器現在是做不到這件事情的,未來能不能夠讓我們跟 GPT-4 互動時好像進入一個 Google Meet 一樣,你講話時 GPT-4 也會不斷地嗯表示我在聽,如果你講了一個笑話它也會笑一下,如果你停下來,它會判斷這個話題是講完了嗎?該換我講了嗎?還是跟我對話的人只是想要喘口氣他還會再繼續講,這個是機器今天還做不到的事情。

我覺得這是另外一個讓機器更了解人類的語言,讓機器更像人的一個面向。我們也許在 5 年或 10 年後會看到在這個面向有突破,這個就是下一個世代的 ChatGPT 會有的樣子。

威宇:我的天,這個有點太快了,這個真的是讓各種企業壓力很大。

Sky 因為他們語音的資料比較少,以目前他們 Training 的這些東西來看。

李宏毅:如果就語音的面向而言,像 OpenAI 也有釋出了一個 API 叫 Whisper,Whisper 是用 50 萬個小時的有標註的語音訊號來訓練,所以 OpenAI 也有非常大量的語音訊號。但他們做的就是語音辨識,把聲音訊號轉成文字,他們沒有試圖讓機器做出更自然的互動。

其實 Meta 最近有一個 Paper 就是試圖讓機器做出更自然的互動,從夠多的人類對話中,像是 Podcast、對話等等,讓機器學習人跟人是怎麼互動的。他們的模型確實有做到你在跟它講話時,你停下來它會知道輪到它講了,或是你停頓時它會說嗯。

Sky聽起來像是它沒有被對話的資料 Training,它可能是一直在辨識這個語音在講什麼東西,所以導致它沒有這樣的能力。

李宏毅:但是這會是下一個世代的 ChatGPT 會有的功能。

Sky這個資料量可能會更多。

威宇:老師剛才有提到 GPT-4 目前有一些可以看到的限制,比方像它在面臨 Constraint 時,就算它數學能力很好,但它好像不會去辨識 Constraint,這是好解的嗎?還是它就是有一個技術的門檻要等著突破?

李宏毅:這個問題並沒有那麼容易解決,我認為 OpenAI 現在的策略是讓大家不斷的玩這個模型,不斷地取得 Feedback。取得這些使用者的回饋以後,就可以拿這些資料不斷的精進它的模型,這個是現在 OpenAI 很有可能採取的策略。

但是我相信再過幾年應該還會有新的技術上的變革,因為現在機器學習的方式、學習的效率跟人類都不在同一個量級上。你想想看 GPT-3 用了多少的訓練資料,它用了 300 個 Billion Token 的訓練資料,300 個 Billion 是 3,000 億,大家可以把 Token 想成是中文的一個字。人類要怎麼樣才能看 3,000 億個 Token 呢?你要活 100 歲,你活著的所有時間、每一秒你都要看 100 個 Token,才有可能看到 3,000 億個 Token。

所以機器在學習的效率跟人類根本就不在同一個量級上,我們人類看的資料遠比機器少。因為 ChatGPT 確實很強,所以它可能跟人類其實也不相上下,但是人類的訓練的資料是遠比 ChatGPT 少的,是遠比 GPT-3 少的。至於未來機器要怎麼做到這件事情我還沒有很好的想法,但是未來我們會看到新的突破。我覺得今天我們看到這些用大型語言模型來解自然語言處理的任務,可能不是一個最終的答案。

威宇:昨天我在誠品看書,我看一看就有一點點煩。

Sky你覺得為什麼要看是不是?

威宇:AI 進步得那麼快,你可以輕而易舉的隨便丟一本書給它,叫它摘要,叫它產生一些激發頭腦的 QA,為什麼我看書還是那麼慢?你會覺得真的遠遠追不上,那到底要怎麼辦?

Sky你現在知道了,趕快上去電它一下。

威宇:剛剛老師有提到,像 GPT-3 用了幾個 Token,GPT-4 用了幾個 Token,或者參數的量是幾個 Billion。我這邊想先科普一個東西,參數的量跟資料量是等義的嗎?還是其實沒有?其實這麼多的資料量,我也可以生出更多的參數量?

李宏毅:參數量跟資料量它們是完全不同的兩個概念。當我們講參數量的時候,我用比較擬人化的講法,參數量可以想成是模型的腦容量,代表它天生有多聰明,腦容量大比較聰明,腦容量小比較沒那麼聰明。

資料量是指它後天閱讀了多少的文字、它看了多少的書,所以今天一個小模型在看很多書的情況下,可能會贏過一個大模型,它腦比較大、天資比較聰明、但書看比較少的情況。

威宇:所以我們現在已經知道 Train 一個模型會跟這兩個東西有關,一個是資料量一個是參數量,其實還有一個東西是訓練方式,因為我最近有看到 Meta 有一篇論文,它說自己用了更好的訓練方式,可以讓比較小的參數量也能夠有很好的表現。

這三個到底哪一個是目前比較著重的地方?因為像 Stanford 在月初也有一個論文,他們在講現在業界其實是超過學界,學界都是在想辦法降低它們的能耗,或者想辦法降低算力達到差不多或者是 90% 的水準,可是最好的一定都在業界。我想知道在資料量參數量跟訓練模型上,對於目前最先進的業界 AI,他們研究的是哪一塊?學界可能又是在哪一塊呢?

李宏毅:這三件事情都很重要,所以我們不太容易回答到底這三者哪一者比較重要。但是我們先來看資料量跟參數量,也就是腦容量跟後天需要學的東西,到底這兩者之間有什麼樣的關係?腦容量當然是越大越好,至於資料量的話,如果有好資料的話也是越多越好。

但是我們其實不能夠讓資料無限地增加,也不能夠讓參數量也就是機器的腦無限增大,為什麼?因為我們有運算資源的上限,不是只有學界有運算資源的上限,業界也有運算資源的上限。所以在運算資源固定的前提之下,能夠做的是在資料量跟參數量中間取得一個平衡,至於這個平衡在哪裡?這個 DeepMind 研究過,他們有一篇文章是暴搜很多各種不同參數量跟資料量的組合,得到一個他們覺得參數量跟資料量最好的比例配方。

根據那個配方,其實他們還得到一個有趣的結論,GPT-3 太大了,像 GPT-3 這麼大的模型它需要看更多的資料。如果只有訓練 GPT-3 那麼多的算力,你應該訓練一個比較小的模型,讓它看更多的資料。所以 DeepMind 就釋出了一個新的模型叫做 Chinchilla,這個模型比 GPT-3 還小,大約只有 GPT-3 的大約 1/3,它的參數是 70 個 Billion。結果跟其它模型跟之前比較大的模型比一比,發現 Chinchilla 其實是比較好的,因為 Chinchilla 看了更多的資料,相較於那些大模型。

我覺得這一個思潮是被其他研究人員所採納而相信的。舉例來說,像 Meta 最近釋出了它的語言模型叫做 LLaMA,LLaMA 的模型等級沒有 GPT-3 大,為什麼?它開頭就引用 DeepMind 的文章,它覺得也沒有必要訓練更大的模型,以今天這些大公司手上有的算力情況下,與其訓練一個更大的模型,讓機器看更多的資料可能是更有效的,所以 LLaMA 也是選擇讓機器看更多的資料。

像之前 GPT-3 是看 300 個 Billion 的 Token,LLaMA 它是看 1.4 個 Trillion 的 Token 這麼多,是 GPT-3 的 10 倍以上,所以在資料跟模型的大小間還是有一個平衡的。剛才也有講到訓練的方式,訓練的方式是完全另外一個面向,你可以在固定的運算資源情況下改變訓練的方式,以得到更好的結果。

但是如果看今天這些訓練的演算法,目前還沒有看到非常決定性的差異,今天的演算法都是大同小異,都是叫機器去文字接龍,雖然都是叫機器去做文字接龍,你怎麼取得資料其實也會有滿大的影響。

像你剛才講到 Stanford,Stanford 也有自己類似 ChatGPT 的模型叫做 Alpaca,Alpaca 是怎麼訓練出來的呢?他們就是以 ChatGPT 作為老師訓練它的模型,你要先產生一堆問題去問 ChatGPT,但是你自己也不知道要問什麼問題,所以他們的做法是先想幾個問題的 Template,叫 ChatGPT 產生更多類似的問題,再把這些問題拿去問 ChatGPT,得到 ChatGPT 的答案。

他們其實沒有搜集很多問題,他們只搜集大概 5 萬個問題跟答案而已,就這麼少。他們拿這一些資料再去教 Alpaca,但 Alpaca 還是有 Pre-Train,它的基底是用 LLaMA 的 7B 模型,剛才講 Meta 釋出 LLaMA 系列,Alpaca 是用 LLaMA 系列的 7B 模型,再加上用 ChatGPT 當老師,想辦法模仿 ChatGPT 的能力。他們發現其實不用太多的資料,就可以讓模型講話講得非常像它的老師。

Sky真的很有趣,因為我剛剛正想要請教這個問題,老師剛剛提到 DeepMind 在去年 4 月發表的論文,裡面有提到 Optimal Large LLM 的 Training,因為我們剛好看到網路上有人分享,所以覺得都很好奇,因為大家一般都會覺得越大越好,對硬體會無限上綱,但以老師的觀點來看的話,如果綜合這些實證研究,看起來中間是有個平衡點的。

李宏毅:但之所以有這個平衡點是在算力有限的情況下,如果的算力其實是無限的,就可以讓模型要多大有多大,資料要多少有多少,但是因為今天的算力是有限的,所以需要得到一個平衡。

Sky了解。

訓練資料量的瓶頸將導致 AI 產業出現變革

威宇:我要提另外一個限制,因為剛剛是在談我們資料量跟模型的大小,模型指的是參數量,這幾個之間的大小要有平衡,如果我只衝一個不衝另外一個,感覺起來不太好。像過去可能一直在衝資料量,或者我的算力就是不夠,參數也不用到那麼多。

我們知道未來的硬體 GPU 一定是越來越便宜,或者是相同的價格性能越來越好,有沒有可能某一天會變成資料量是瓶頸,因為我最近在推特上面看到滿多人在分享一篇論文,這篇論文它講在 Train 模型時,高品質的文字會比低品質的文字好,或者是低品質的文字加再多,到最後的邊際效益就是遞減,最後甚至是零,塞再多的 PTT 留言都沒有用,這就是低品質的文字,酸民文字沒有用。

文章提到現在這些公司他們拿資料的速度越來越快,大概到 2026 年就會把我們人類所有的高品質文字全部拿完,這是不是等於資料量可能碰到瓶頸?造成參數量語言模型再大也沒有用,只能停在那邊?

李宏毅:我覺得下一步是要開發全新的演算法。因為現在這些資料量已經多到超越人類在學習時需要的資料量,可是人類是可以做的跟機器一樣好的,那機器有沒有辦法用人類看過的資料就得到差不多的結果?

今天我們看到的研究成果其實是瘋狂的疊資源,巨大模型、巨大資料,看看誰手上的算力比較多,誰做出來就會比較好。但是像你說的,有一天我們終將達到比如資料的瓶頸,這時候就是思考新演算法的時候,有沒有更有效的方法讓機器在更短的時間內學會人類的語言。

威宇:我覺得這是一個有趣的問題。因為一旦往這條路走,大家現在瘋狂看好 GPU 的這個想法是不是會不太一樣?因為以後大家可能對 GPU 沒有那麼急迫?

Sky因為過去大家的算法很有趣,我們簡單講就是軍備競賽,我有越多的 GPU、越多的算力,理論上模型越強,我可以開發越大的模型。現在有兩個限制,一個是如果往研究新演算法的方向走,這個會瞬間消失。

威宇:因為 GPU 的需求都是外插的,可是也許未來我們是在開發新的演算法,對 GPU 的要求不會到這麼高,其實外插推估變成有錯的。

李宏毅:我覺得未來如果要繼續走相關的研究,假設有人要辦一個公平的評比,來評比全世界的 Large Language
Model 的 Performance,我會覺得在訓練它時需要的運算量也應該是評比的基準之一,好像我們在打拳擊的時候,你看我重量級跟輕量級是分開的。

Sky量級。

李宏毅:對,要分量級。要分運算資源的量級,用一樣運算資源量級的模型放在一起比,我覺得這樣的好處是可以促使大家去思考有沒有新的作法。

因為我覺得現在做研究的人都變得比較懶惰,現在只要比誰最先買到最多的 GPU 誰就可以做出比較好的結果,現在基本上不怎麼思考新的演算法,現在都是疊資源。像你剛才講的,再這樣下去是會有一個瓶頸,所以未來我覺得如果要促進這個技術的發展,以後如果要評比語言模型應該要把算力考慮進去。

Sky以前可以 Show me the money。

威宇:現在核心的技術其實在於供應鏈管理,看誰跟廠商比較好。

Sky誰可以拿到比較多的 GPU 贊助誰就贏了。我比較好奇是在 2010 年或是 2000 年的時候,因為我有看一些教科書,但我不知道這個資訊到底正不正確,想請教老師像 AI 這項運算,當初是有人發明嗎?或是有人找到可以把這樣的演算法應用在 GPU 上面,所以才讓它有長足的發展。

不然我看這類型的研究其實很早就開始,大概是 1950 年 1960 年的時候,就有人做這種類似深度學習的研究,但看起來比較長足的發展是在 2000 年之後,像是有特殊的運算方式、平行運算的方式,這些發展是不是跟硬體有關係,因為有人發明了這樣的東西,硬體也有相應的配合,所以才讓我們整個的算力起飛,進而帶動 AI 的發展。

李宏毅:其實我很大一部分同意,算力的增加是今天 AI 做的越來越好的一個關鍵。因為如果我們今天回頭來看,ChatGPT 用的語言模型跟過去的語言模型有沒有本質上的差異?可能非常的少。如果我們來看看 ChatGPT 它用的 Network 架構叫 Transformer,Transformer 是 2017 年就已經提出來的東西。

如果我們不看 Network 架構,光看用類神經網路的概念來做語言模型,這個概念這是 2003 年就有的。所以這都不是全新的東西,想要使用一個語言模型做很多的事情,這也是一直都有的概念,但是一直要到有夠多的運算資源可以堆出像 GPT-3 和 ChatGPT 這樣大模型時,這個夢想才算是真的被實踐出來,所以我會認為,算力的提升確實是今天 Deep Learning 可以做得好的一個關鍵。

但其實也有其他的關鍵,舉例來說,雖然技術上同樣是 Deep Learning,本質上的演算法沒有什麼差別,但是還是有很多比較小的改進,比如最佳化的方法有一點不同,Network 的架構有一些不同,神經元的 Activation Function 有一點不同,這些都是有差別的。

而且還有一個我覺得滿關鍵的差別是一般文獻不會講到的,我覺得是人類的信心不一樣。這是什麼意思呢?舉例來講,訓練 Deep Network 也不能算是全新的概念,在我還是學生的時候就跟一個學弟說,我們來訓練 Deep Network,因為那時候我們都只用一層的 Network,我想說我們能不能疊個三層看看會怎麼樣,那時候疊了三層,結果也沒比較差,但也沒有比較好。但是訓練要一週,所以誰都不想做第二次,最後不了了之。

但是如果今天疊了三層發現結果不好,因為今天模型訓練比較快,所以你可以快速的調參數,另外一方面你會覺得三層應該要 Work,疊多層應該會比較好怎麼會比較不好呢?你會繼續的做下去。所以我覺得人類對於深度學習對於類神經網路信仰的提升其實也是成功的一個關鍵。如果今天你會覺得把 Network 疊深一點結果應該比較好,你會花更多的力氣嘗試,不會隨隨便便放棄,我覺得其實也是成功的一個關鍵,雖然一般人不會提到這件事情。

威宇:這個信心跟 AlphaGo 有多大的關係?

李宏毅:我覺得是要看那個領域。因為像我主要是做語音,在語音辨識中,Deep Learning 也是很早就發跡的領域,最早是有 Hinton 在 Benchmark Corpus 上面做,那個 Benchmark Corpus 叫作 TIMIT,在上面展現了很好的結果。

一般的傳奇的故事應該是說 TIMIT 上得到非常好的結果,大家都驚呆了,所以發現 Deep Learning 很強。其實真實的故事不是這個樣子,Hinton 那篇 Paper 發表在 ICASSP-2010,當時我還有去,那一篇 Paper 根本就沒有人在意。

Sky大家看不懂啊。

李宏毅:不是看不懂的問題,是做出來的結果不好。雖然他做在 TIMIT 上面但是它的 Performance 並不是 State-of-the-Art,State-of-the-Art 是指在這個 Corpus 上最好的結果。

通常要是在 Corpus 上辨識正確率最高的,大家才會覺得這是個厲害的方法,那篇 Paper 其實不是。但是當時微軟的鄧力發現這一篇 Paper 很厲害,怎麼個厲害法呢?就是語音領域有各式各樣的 Tip,有各式各樣的絕招可以讓你做得很好,Hinton 不是語音領域的人,他不知道這些絕招,在沒用這些絕招的情況下,居然有人可以做到這個層級,雖然他不是最好的,顯然這個方法有很大的潛力。

所以當時鄧力邀請 Hinton 去微軟一起參與語音的研究,發表很強的結果,這時候全世界就知道原來 Deep Learning 可以做到這個地步,大家就開始想要去使用 Deep Learning 的技術。大家一開始使用 Deep Learning 的技術時,其實也沒有很順利。我聽到太多故事說,我們試著復現 Hinton 的結果,卻怎麼做都做不出來,這個數據到底有什麼問題,我們怎麼做都做不出來。

因此要花很多的時間去調參數,訓練這個類神經網路有很多的秘訣,蒐集各式各樣的秘訣。過了一兩年以後,世界各地的團隊也都用 Deep Learning 做出很好的結果,Deep Learning 才在語音領域風行起來。

可是這個信心來自於你已經看到 Hinton 跟 Microsoft 可以做到這樣子,我們照理也應該要做得到,所以會想要花更大的資源、更用心的投入把結果做出來。但在前人沒有做出來之前你會覺得 Deep Learning 不 Work。像我學生的時候,我跟一個學弟把 Network 多疊幾層,結果沒有比較好,我們覺得算了反正這個應該是沒用的方法。

威宇:這樣微軟的鄧力也是非常地厲害,他從細節裡面發現他是很有潛力的。

李宏毅:對,那也是一個非常厲害的觀察。

AI 產業與供應鏈將來會有哪些轉變?

威宇:接下來我們還是想要來聊一下,之後這個產業它可能對供應鏈上面產生什麼樣的影響,其實主要可能會跟硬體有關係。

我們現在在講 AI Training,基本上大家講的都還是在講 GPU,GPU 就是 NVIDIA 的天下,如果你不喜歡 NVIDIA 就買 AMD,不管怎麼樣 Intel 都不會太開心啦。所以其實我在前兩年一直有看到 Intel 他們想要積極的切入這一塊,他們也不斷地在跟各個大學去合作發表 Paper,其實只要針對演算法做一點調整,CPU 去訓練 AI 的效率會比 GPU 高個 4 到 15 倍不等。

老師是怎麼看這一塊?接下來還會是一般通用的 GPU 天下嗎。還是也許有些地方會開始用 CPU?或者用特定的專用晶片 ASIC?接下來大家到底在硬體上面會怎麼配置呢?

李宏毅:我覺得這要分成短期跟長期來談。如果就短期而言,接下來的一兩年,我們都知道因為 ASIC 是專門為了類神經網路而設計的 Chip,使用 ASIC 一定可以跑得比 GPU 還要快,但是這樣的方法不一定能夠造成流行,為什麼它不一定能夠造成流行呢?

因為我覺得今天 GPU 的成功並不僅僅是 GPU 本身,而是它圍繞著 GPU 所構成的生態系,舉例來講,大家最常用的 Deep Learning 框架 PyTorch,它很好地支援了 GPU,或可以反過來說 GPU 很好地支援了 PyTorch 這個框架,當大家都用 PyTorch 就跟著要用 GPU,如果有人發明一個新的 ASIC 它沒有好好支援 PyTorch,誰都不想用,很難說服別人去使用這個新的 ASIC。

所以我覺得短時間而言,如果要開發 ASIC,它的整個生態系也都要建起來才有機會成功。但是因為這些 Deep Learning 的 Framework 已經發展了非常長的時間,我記得在 2015 年或 2016 年時,Deep Learning Framework 有一個比較動盪的時期,那時候有人統計過,每三週就出一個新的 Deep Learning Framework,那時候是一個 Deep Learning Framework 的戰國時代。

不過這個時間點已經過去了,現在大家用的 Framework 都比較單一,要嘛用 TensorFlow,要嘛用 PyTorch,再推出一個新的 Framework 可能接受度就沒有那麼高。比如 Google 出了一個新的 Framework 叫 JAX,它想要取代 PyTorch 的地位,可是沒有那麼容易,因為很少聽到有人用 JAX,也很難說服別人用 JAX,沒有那麼大的誘因去嘗試一個新的 Deep Learning Framework。

所以我覺得短時間內我們可能很難看到有某一個 ASIC 非常通用,除非它支援一個非常方便的 Deep Learning Framework,大家都想用那個 Framework,覺得它比 PyTorch 還要好很多。

但是就長時間而言,我又相信 GPU 不會是最終的 Solution,因為我們想想看今天這些模型的大小,像是 GPT-3 很大有 1,700 億的參數,但我們再想想人腦,人腦的神經元的數目也差不多是 1,000 億個,所以人腦的神經元數目跟 GPT-3 的參數量差不多。

再從另外一個角度來想,這個神經元跟參數量比較不能夠類比,參數量比較像是人腦中神經元跟神經元之間的連結,如果我們今天看人腦神經元間的連結,它是神經元數目的再一千倍,今天沒有任何 Deep Learning 的模型可以跑到這麼大,我看過最大的模型就是幾個 T 的參數,跟人腦的神經元間的連結仍然不在同一個量級上。

當然這個比喻是非常粗糙的,因為畢竟人腦跟類神經網路它也不是用同一種方式運作。所以這個類神經網路的參數就對應到神經元間的連結,這個比喻可能有點粗糙,但是人腦有非常強大的運算能力,它可能是比今天這些類神經網路都還要強的。但是人腦吃的運算資源,遠比今天的 GPT-3 等等還要再更少,所以顯然用 GPU 來跑這些模型不是一個最終的 Solution。我們需要一個新的 Solution,只是短時間內可能沒有看到非常強的東西可以真正取代 GPU。

威宇:了解,所以最有可能提出來的人是誰?

李宏毅:老實我現在還沒有辦法告訴你,但是我覺得最有可能提出來的人不會是只 Focus 在硬體的廠商,他一定是能夠把硬體跟下游的應用通通都串起來的人,他有一個 ASIC,TPU 也可以算是一種新的運算方式。

但也不能只有那個 ASIC,他要有能力寫自己的 Framework,不管他是找別人合作還是自己廠商就有這個能力,他要能寫一個 Framework,要說服大家來用這個 Framework,所以他要在這些 Framework 上做非常強的 Demo,比如說訓練一個超越 GPT-4 的模型,跟大家說你看我這個 Framework 可以做這些,大家覺得太棒了都跑去用他的 Framework,那個 ASIC 才賣得出去。

威宇:聽起來 Google、Apple、微軟、Meta 都有點機會。

李宏毅:對,但是我覺得要改變人的使用習慣其實也沒有那麼容易。就像 Google 大力推 JAX,但 JAX 還沒有看到取代 Pytorch 的趨勢。

威宇:了解,再來是關於我們未來使用 AI 的 Cost,各種的成本,因為我們知道現在其實最主要的花費其實是用在 Training,當 Training 完一個 Model 像 GPT-3 或 GPT-4 以後,大家使用這些東西 Cost 相對便宜非常多。

老師知道以現在來看,這邊的比重大概是多少嗎?因為像我們剛剛提到的,如果未來真的進到一個高原期,大家可能不會再去衝算力以增加模型的能力,這交給那些大公司自己想辦法處理,大家變成單純的使用 GPT-4,一直去接 GPT-4 的 API,或者是我拿 LLaMA 做點 Fine-Tune,我也不 Training,反正我只使用、我不用 Train,那個時候會不會我們所需要的成本,不管是電或者是算力都會少非常多?

李宏毅:我覺得會。現在你要使用 AI 的技術或自己 Build 一個 AI 的 Application 的成本變得異常低,尤其是對個人而言,你 Build 一個 AI 的 Application 直接 Call ChatGPT 就好了,你只要下合適的 Prompt 就可以讓 ChatGPT 做你想要做的事情,所以這是就個人而言。

我覺得今天在 Inference 上,這也不只是 Inference,像你已經有一個現成的模型在那邊,你要花多少額外的算力去 Build 你的 Application 其實取決於你的應用。以個人而言,假設你沒有特別有隱私問題的資料,你直接 Call ChatGPT 一定是最省成本的;但是對有一些公司來講,比如台積電一定不想要它的機密外洩,政府部門也不方便把政府的機密公文放到網路上給 OpenAI 看。

你看 OpenAI 現在每天都在搜集大家的資料,全世界的秘密都被它看光了。對於很多公司或者是政府來說,它不一定能夠接受用線上的模型,所以怎麼辦?他們可能還是需要自己的模型,但 Build 自己的模型成本大概有多高呢?就取決於你多願意投入這一項 Application。

成本最低的像 Alpaca 做的事,一個 Pre-Trained 好的模型在那邊,我們用 LLaMA 就好,你也不要自己 Pre-Trained,你有一些自己的資料,拿自己的資料去微調這個模型,這是一般我覺得中小企業甚至個人都有辦法做得到的事情。其實 LLaMA 也有計算過的自己的 Cost,我忘記詳細的數字,如果用 AWS 可能只要 500 美金,這個是一般人可能都付得起的價格,你就可以 Fine-Tune 出你的模型。

但是假設你的應用是更加特別的,可能要自己做 Pre-Trained。舉例來說,LLaMA 的中文其實不好,它的訓練資料裡沒有太多中文,假設你的應用是這個模型一定要非常會講中文,你可能還是要自己再 Pre-Trained 一下。這個概念叫 Continuous Pre-Trained,是指 Meta 已經幫你 Pre-Trained 到一個地步,你沒有必要從頭再 Trained。

現在已經有這麼多現成的模型,從一無所有開始 Pre-Trained 也沒什麼道理,但是要做 Continuous Pre-Trained,也許多給它看一些中文。或者假設今天公司內部用的程式語言是一種非常特別的程式語言,是 LLaMA 沒有看過的程式語言,你可能也需要把這些程式語言餵給 LLaMA 再做 Pre-Trained。

所以取決於你的應用,也有可能需要自己做 Continuous Pre-Trained,要做 Continuous Pre-Trained 的成本可能會非常的高,但成本到底有多高,其實取決於你想要模型在 Continuous
Pre-Trained 的時候看多少 Data,因為需要的算力跟要看的 Data 是成正比的。

威宇:老師有辦法知道類似像 ChatGPT 它 Pre-Trained 跟 Inference 這邊的成本比嗎?

李宏毅:我必須老實說,我不知道。因為從 2020 年 OpenAI 釋出 GPT-3 以後,接下來他們做的事情都是秘密,所以我們甚至不知道 ChatGPT 用的模型是GPT-3 Fine-Tune 出來的嗎?大家都說是 GPT-3.5 對不對?是 GPT-3.5 Fine-Tune 出來的。但是真的是這樣嗎?它是跟 GPT-3.5 一樣大的模型嗎?它是一個 170 多 B 的模型嗎?

其實 ChatGPT 現在的收費其實比 GPT-3 還要便宜,會不會它其實是一個比較小的模型?因為如果看 InstructGPT 的 Paper,它其實有告訴你大的模型沒有人類老師教,跟小的模型引入大量人類老師提供的 Data,其實小的模型是可以打贏大的模型。

有沒有可能我們現在用的 ChatGPT 只是一個比較小的模型,它只是是由比較多老師提供資料,所以它可以贏過 GPT-3,現在的 GPT-4 搞不好是 GPT-3 加上同樣老師的教學也說不定,但這都是猜測。從 2020 年以後,就不知道 OpenAI 實際上是怎麼做的了。

威宇:如果是 LLaMA 呢?

如果是 LLaMA 的話,它有好幾個不同的版本,最大版本 Pre-Training 的量跟 DeepMind 的 Gopher 和 Chinchilla 是一樣的,總之都不是我們可以想像的量級。

但是如果是拿它最小的模型,比如 7B 的模型要自己 Fine-Tune,如果根據 Alpaca 的 Blog 的說法,應該是 8 張 A100 就有辦法自己 Fine-Tune 它,所以這是自己在 AWS 上面有可能租到的運算資源。所以對個人而言,要 Fine-Tune 這個模型是有機會可以做到的。Fine-Tune 完以後,可能沒有那麼容易把 7B 這麼大的模型跑起來,需要比較好的 GPU 才能跑起來,所以一般人可能也沒有那麼容易把它跑起來。希望這樣有回答到你的問題。

威宇:Sky 有什麼想要追問的嗎?這是你最好奇的東西。

威宇:我對產業上的應用很好奇,一方面大家都在提,而且也有滿多錢投資在這個領域上面。我好奇的是有滿多商業上比較 Vertical 的應用,它不像 ChatGPT 或是 GPT ,大家去問它問題然後希望它回答。在產業上的應用可能是我做一個什麼東西,可以辨別出它長什麼樣子,我可能跟機器講,你要再做一個同樣的東西,類似這樣的概念。我好奇這樣的成本會很高嗎?

李宏毅:所以你等於是要 Language Model 可以看圖。

Sky對,可以有比較多的用途。我很好奇未來會不會有這樣的狀況。

李宏毅:我覺得這是短時間內會看到的趨勢,如果只是讓機器讀文字當作輸入然後輸出文字,你可以把 GPT-4 想成已經達到某一個高原,所以其他人可能很難彎道超車。所以現在你會發現滿坑滿谷的人想要彎道超車的方式是做 Multimodal,希望做到 Input 不是只有文字,要再加個影像,要再加個語音,輸出有各種不同的模態,要可以輸出影像,要可以輸出語音。

所以你會發現接下來會有滿坑滿谷的多模態版本 ChatGPT 被提出來。但是它跟我剛才講的語音版本 ChatGPT 還是不太一樣,我會相信下一個世代要做一個完全不一樣的 ChatGPT,它不能是一問一答的模式,它要用更靈活的方式來跟人進行互動。

我現在看到的多模態模型,基本上都還是一問一答的模式,你輸入一張圖片它可以決定要回你一段聲音,回你一段文字,還是回你另外一張圖片。會有很多研究把一問一答的模式,擴展到不只是輸入文字,還有其他模態的資料,所以這是現在正在進行的東西。像 GPT-4 其實也號稱有讀圖片的功能,只是那個功能並沒有釋出給大家玩而已。

Sky有看到 Demo,畫一個網站的圖叫它弄。

李宏毅:Demo 的時候有,Demo 有這個功能。

Sky我不確定是它是人工智慧還是工人智慧。

威宇:文心一言也說他們有。

Sky文心一言都是叫大家準備好,我們要好好地為國爭光。

因為我很好奇資料量的讀取。我在猜,現在的狀態是多模態資料或者是資料越多越好,而且如果大家還有算力是軍備競賽的想法,對一個要模型發展的人而言,我能夠抓到越多的資料越好,能存越多的資料越好。所以我自己在想,對硬體來說,存越多的資料、越多的硬體好像越好,因為不管怎麼樣都會對模型的 Improve 有更大的效果,這是我個人的猜測。

李宏毅:短時間內的狀況確實是這樣。因為比如說以影像的應用而言,他們用的資料量也是非常地驚人,因為通常在訓練這種影像的模型時,要達到 State-of-the-Art 的結果,有一個公開的 Dataset 裡面有 50 億張圖片。

這些是從網路上爬的,裡面啥都有,基本上像是你知道的名人川普等等裡面也都有,所以這是為什麼那些影像繪圖的模型都知道川普長什麼樣子,因為它確實已經看過很多張川普的照片。所以今天要把每一個應用做好,比如影像要做好,生成要做好,也是要 50 億張圖。未來要把 Multimodality 做好,可能也需要更多文字跟影像混雜在一起的狀況,機器需要看過更多這種狀況。

這種狀況其實在技術上可能沒有那麼難搜集,因為如果去爬網頁,網頁裡面往往有文字也有圖,這已經告訴機器文字跟圖混合在一起的時候可能會是什麼樣子,所以這是一種可能可以使用的訓練資料。但是回到你剛才說的,現在這個時代有越多的運算資源可以跑越多的資料,可能越有機會得到越好的結果。

Sky因為有一些新創的投資是先去收集很多資料,我再幫很多資料標註一下,再把這個東西賣給別人這樣子。我有看到一些這樣的投資,但我不知道我了解的是不是正確,所以剛剛也請教一下老師這部分。

李宏毅:我要先講一下,像現在這種大型語言模型 ChatGPT 在訓練時其實是分成兩個階段。第一個階段是靠著沒有標註的資料來學習,沒有標註的資料在網路上真的是要多少有多少,像我們剛才講的很大資料量,300 個 Billion Token、1.4 個 Trillion Token,指的都是這種沒有標註的資料。

至於標註的資料,其實標註的資料也非常關鍵,因為在 InstructGPT 那篇 Paper 裡面,他們用的標註資料其實很少,大概數萬筆而已。他們用數萬筆的標註資料就可以得到這種畫龍點睛的效果,等於讓模型一瞬間突然就開竅,能力變得很強。所以這種類型的標註資料,尤其如果你的標註資料跟應用非常有關、非常接近的話,這種標註資料也會非常珍貴。

所以我會覺得就一個數據標註公司而言,也許它真正需要提供的,是這種高品質的跟現在要處理的應用直接相關的標註資料,像這種資料就會非常的珍貴。

威宇:可是以標註來講,像是我們其實也有在 Train 一些東西,我們會直接讓 ChatGPT 幫我們標註。

李宏毅:這就是現在另外一個面向,如果 ChatGPT 能幫你標註的話,今天大家就用 ChatGPT 標註。像我剛才講的,Alpaca 等於是拿 ChatGPT 來標註,它先有問題,問題的答案是 ChatGPT 生成,甚至連問題都是 ChatGPT 幫它想的。所以今天如果是一個 General 的應用,假設你有某一個應用是 ChatGPT 已經可以做得夠好的,就用 ChatGPT 來幫你標註,以 ChatGPT 為師。什麼時候要自己標註呢?假設你想要在某一個應用上單點比 ChatGPT 好,假設你想得到這樣子的應用,你可能會需要自己標註的資料。

威宇:最後在這個模型上,因為我覺得現在有一個鄙視鏈,AI 鄙視鏈,會用 ChatGPT 的人鄙視不會用的人,串 API 的人鄙視只使用網頁版的人,拿 LLaMA 去做 Fine-Tune 的人鄙視串 API 的人,自己建模型的人又鄙視微調 LLaMA 的人。

李宏毅:很好玩,該怎麼說,可以想像。

封閉 VS 開源

威宇:像我剛剛提到,很多人會說你們以為自己在建模型?哪是,你們只是在 Fine-Tune LLaMA而已,這種情況在未來的比重高嗎?現在在 AI 裡面有一個滿重要的平台叫做 Hugging Face,大家都會把自己的模型丟到 Hugging Face,Hugging Face 有很多開源的東西。

像 Google 的 Flan-UL2 也有丟到 Hugging Face。 Hugging Face 會說在未來這些東西都是 Open Source,大家可以到我們的平台上面,看你要下載還是要打 API 都可以。我滿好奇的是,老師覺得未來這個東西會是像 OpenAI 一樣是封閉的?

或者像 Google 的 PaLM-E 一樣也還沒有開源,未來會不會是這樣封閉的狀況,像是那幾間巨頭公司,我們只能使用它們的 API,我們沒有模型只打 API。還是會像 Hugging Face一樣,它會是開源的,會有很多人下載模型到自己的 Server,或者使用 Hugging Face 它們開源模型的 API?

李宏毅:我覺得兩者會同時存在,舉例來說,現在這些大型語言模型好像作業系統,作業系統裡面有 Windows 但也有 Linux,所以以後會有使用 OpenAI 的模型一群人,好像 Windows 的使用者,另外有一群人使用 Open Source,他們之間搞不好也會形成一個鄙視鏈。

威宇:老師覺得哪一邊會比較大?

李宏毅:這個不好說,你可以看看今天用 Windows 的人比較多還是用 Linux 的人比較多?你會發現多數人可能還是會想要用一個比較現成的東西,這取決於你的需求。

對多數人來說,假設只是要做一個應用,今天真正的目標是要把應用做出來,如果有一個現成的平台在那裡,你可能會用那個現成平台,別人連算力都幫你 Host 了。但是假設有自己特殊的需求,不能夠使用線上的平台,你可能會選擇使用自己的模型,從 Hugging Face 那邊 Download 一個模型下來進行 Fine-Tune。我覺得未來會有這兩種不同的路線。

威宇:這讓我想到我前幾天看到一段話,我不太確定是 OpenAI 的技術長還是 Sam Altman 講的,他說 OpenAI 比較開放。我覺得這滿有趣的,好像每個人對開放都有不同的定義。因為 Google 在開放 Flan-UL2 的模型時,主要負責人在推特上面寫我們才是真正開放的公司,你看我們把 Pre-Trained 完的模型都丟上來,聽起來這樣很合理,因為他們把整個 Code 全部丟上來,感覺很開放。可是 OpenAI 的那個人說,我們才是比較開放的。

李宏毅:為什麼?他的論點是什麼?我不知道他的論點。

威宇:他的論點是我們從一開始就非常積極的提供各種 API 給大家用,我們真的是讓更多的開發者能夠使用,而不是丟一個模型,很多公司的工程師根本沒有辦法使用,因為他可能連部署模型都不會,因為他們是不同領域的工程師。我們今天積極的開發各種好用的 API 讓大家使用,所以我們才是真的在接觸更多人的公司。

李宏毅:我可以理解這個觀點,所謂的 Open 其實有兩個不同的面向。在我們資通訊領域,我們通常覺得所謂的 Open 是你要把程式碼跟模型都釋出來,這樣才是 Open。

但是我了解你剛才說的意思,對一般大眾而言,雖然釋出一個模型,可是大家根本沒有辦法把模型架起來,你並沒有用到它,所以也許從這個角度來看還不夠 Open。今天釋出一個 API 讓大家都能用,是另外一個面向的 Open。我可以了解你的意思,但是我沒有額外的 Comment。

Sky我可以理解。

威宇:一個 Open 各自表述,兩種 Open。

Sky這個很敏感。

台灣目前 AI 賽道上的策略是什麼?

威宇:前幾個禮拜我在台科大分享我最近看的一些 AI 的東西,底下有個觀眾提了一個滿有趣的問題,當時我回答不太出來,我的答案是說沒辦法,我這邊想要來聽一下老師的回答。現在 AI 可以是一個新一代的技術革命,台灣在這次的變動中我們有哪些環節可以扮演關鍵的角色嗎?

李宏毅:我突然倒抽一口氣,這個問題非常困難。

威宇:我當時的說法是,除了台積電其它不要想。老師覺得呢?在哪一個環節?因為我覺得某種程度上,台灣當然在半導體產業中,我們從垂直的一間公司做完到晶圓代工,這樣的分割台灣有抓到這一波,台積電張忠謀先生有抓到這一波,IDM 到晶圓代工 Foundry。

我覺得接下來有幾波,其實並沒有很好的梗,像我們講軟體或者是很多線上化的地方,其實台灣好像比較沒有扮演這麼關鍵的角色,相較於台積電或者鴻海,它們在世界都扮演非常關鍵角色。在這次的 AI 轉型,目前我覺得還沒有定型,因為大家都還在發展中,還沒有一個定局。台灣在哪些領域有機會去扮演什麼樣的關鍵角色?

李宏毅:我必須要先講一下,我知道很多人會問這個問題,可能是因為看到了科技部有一個台版 ChatGPT 的計劃。雖然我並不代表國科會的任何人,也不代表國科會,但我可以幫忙澄清一下,那個計劃並不叫做台版 ChatGPT,那個計劃有一個正式的名稱叫做 TAIDE,Trustworthy AI Dialogue Engine。

我覺得從國科會的角度來看,復現一個類似 ChatGPT 的東西也不是我們現在該做的事,因為 ChatGPT 已經在那邊,它是一個商品。我認為從政府的角度能夠做的事情是,有很多的應用不能夠使用 ChatGPT,比如政府單位不能使用 ChatGPT,台積電可能本身也不適合用 ChatGPT,雖然大家都已經知道 ChatGPT 這麼厲害,但是不是每個人都可以享有它帶來的便利。

如果有一個政府主導的 Project,這個政府主導的 Project 可以保證現在用的資料是沒有問題的,沒有特別的 Bias 或沒有特別的 Toxic,沒有人放了奇怪的、有害的資料在裡面。這個模型是可以公開授權給台灣的企業用,每個企業可以自己載 Model 到自己的 Local 端去做事情,甚至是大家相信政府 Maintain 這個平台的能力,認為相較於讓 OpenAI 看到自己的資料,給政府看到比較好一點。

大家願意相信政府 Maintain 的 Service,我覺得政府要自建一個大型語言模型的服務,不管是提供給某些特別的企業用,還是讓這些企業把模型載下來自己用,我覺得都是樂觀其成,對台灣本身也有幫助。

但我知道從另外一個面向而言,有人會問以技術層面來說呢?有沒有什麼技術層面是可以超越 OpenAI 彎道超車的?我必須說,以現在這個時間點我還看不出來,按照現在這個趨勢,就是誰堆的 GPU 最多誰就贏了,我們台灣並沒有那麼大的算力,但我必須要說,其實台灣也不是沒有算力,我們其實有國網中心的算力跟台智雲的算力,我知道這當然不能夠跟 OpenAI 現有的算力放在同一個量級上相比,但我們是有的,而不是一無所有。

這個真的要感謝科技部在多年前建置國網中心,買了一系列的 GPU 運算資源,如果當年沒有買的話,現在真的是什麼都沒有,還好當年有買。大家可能會覺得現在看起來不太夠,但是如果當年沒買,現在真的是一無所有,現在至少還有一些算力。

但我知道憑著現在的算力,按照現有的做法要真的超越 ChatGPT 可能是非常困難的,所以也許能做的事情是專注在某一些應用上,對於不能使用 ChatGPT 的人,政府可以提供他們能夠安心使用的服務,這是政府可以做的事。另外一方面我會覺得假設真的要彎道超車的話,這邊有一個非常悲觀的想法,聽眾朋友聽聽就好,我講的不一定是對的。

我會覺得以文字輸入文字輸出這一局而言,應該結束了,應該已經到達某一個高原,短時間內不是現有的學研機構可以去超越的。如果真的要再做什麼事,想要做一個石破天驚的事情,那就要想想看下一代的 ChatGPT 到底應該長什麼樣子,有什麼是跟現在截然不同的。

我相信每個人都有不同的答案,我剛才也講了一個我自己的答案,我自己的答案是語音版的 ChatGPT,它的溝通會像你在 Google Meet 跟另外一個人講話一樣,這是我想像得到下一個世代的 ChatGPT,大家可以想想看你覺得現在 ChatGPT 還有什麼不足的地方,下一個世代應該長什麼樣子。

威宇:其實剛剛老師還有講到一個東西,接下來 GPU 顯然並不是一個最佳解,長期來看並不是一個最佳解。如果今天有一個新的架構出來要取代 GPU 的話,它還要提供一些 Framework,才有辦法讓一些開發人員想要使用新的硬體、新的架構。

其實讓我想到台灣政府在過去對於新創或者各種的創業,他們一直在強調台灣要軟硬整合。因為台灣其實不太喜歡純軟體公司,他們一直覺得硬體是台灣的優勢,所以政府在各種補助上一定要軟硬整合。這個新的 Framework,它既牽扯到硬體,又有開發者的 Framework,是不是也是一個軟硬整合的東西。

李宏毅:我必須說聽起來是,但是這個問題我真的沒有很好的答案,不好意思。你可能會希望我說,有這些軟硬整合的技術,台灣未來可以在 ASIC 上彎道超車,對於這個我真的沒有什麼 Comment,這點超過我的知識可以回答的問題。

威宇:我的希望是你講台灣不可能。

李宏毅:為什麼我們要想台灣不可能?我們要多講一些樂觀的話。

Sky這樣可能會被打。

威宇:因為我當時的回答是我覺得很難,我覺得真的非常困難,尤其是當各國都在關注的這個題目。

李宏毅:但我覺得如果我們現在真的要做一個引領世界潮流的東西,就要想一個沒有人在做的、大家覺得做不到的事情。因為想想看當年的 OpenAI,他們也不是今天才做 ChatGPT 的,這個佈局是從 2018 年就開始了。

他們一直想要做一個類似 ChatGPT 的東西,你可以看到從 GPT-2 到 GPT-3,他們的目標一直都是一樣的,想要做一個通用的語言模型,什麼事都辦得到。但是在 2020 年,大家也覺得 OpenAI 走的是一個錯的路,在浪費時間 Train 一個大型但沒什麼用的模型,但是今天它卻這麼成功。所以我覺得假設現在有人想要走出一條新的路,他就要想想看有什麼事是你講出來別人會覺得這個應該辦不到。

面對 AI 快速發展,該如何進行管制?

威宇:講完對於人類未來的積極開展,接下來我們要談一些防堵的措施。因為我覺得現在不管是對 AI 多樂觀的人,他們都同意還是必須要有一點點限制,包含 Elon Musk 帶了一大票人說,我們要暫停開發半年。我有看到楊立昆跟 Andrew Ng 他們在前幾天的直播說,你不要想這個,這個也不好什麼的。

可是就算是他們,或者我們講 OpenAI 的 Sam Altman,他們都同意政府要趕快進來做點管制。可是到底是管制哪個範圍?是管制研發?管制應用?或者對於要怎麼管制,每個人都有不同的看法。對於這個東西我滿好奇的,到底要怎麼管制它呢?老師對於這件事有想法嗎?或者是你覺得這個東西它不能不管嗎?

因為你可以想像,對詐騙來講現在好像是天堂般的時代,要做詐騙太容易了。我們到底要怎麼樣管制 AI 的東西,讓它們對人類社會不要有太大的危害?

李宏毅:我覺得從政府的角度,我可能沒有什麼答案可以講,但是我可以從技術的角度討論這個問題,因為現在的這些模型它是一個黑盒子,我們根本搞不清楚這些模型有什麼樣的能力,甚至有什麼樣的漏洞。

比如我們都知道 ChatGPT 有一個開發者模式,你可以把說服它把它催眠成一個開發者,接下來它會講不該講的話。雖然平常 ChatGPT 是一個非常正經政治正確的模型,它會避免講任何腥羶色的話題,但是進入開發者模式以後,它就會開始亂講話。我相信開發者模式並不是 OpenAI 刻意留的漏洞,只是當初在訓練的時候看過大量資料,大量資料裡面也許有一些資料會讓機器學會開發者模式。

我覺得我們現在缺少的技術,是如何自動檢測這些大型語言模型的技術,我們未來有沒有什麼自動的方法,是你可以設計一堆問題去問大型語言模型,問完以後你就知道它有沒有什麼特別的偏見,它有沒有什麼漏洞,或它會不會在什麼時候講不該講的話,或者是你會不會講什麼句子突然激怒它,讓它突然暴怒講出一些髒話,可是現在並沒有這樣的技術。

我可以想像未來這樣的技術可能也是用 AI 自動達成的,也就是去訓練一個類似 ChatGPT 的語言模型,這個語言模型的工作是對另外一個語言模型提問,比如它的任務是你想辦法說一些話,去激怒另外一個語言模型,看看你有沒有辦法讓它說出一句髒話。如果今天線上的模型、要檢測的模型不小心說出髒話,你會知道這個模型在某些狀況會講髒話,你就有辦法解決這個問題,我覺得這是未來需要開發的一個關鍵技術。

威宇:所以現在這個時候其實要靠廠商的自律。

李宏毅:現在這個階段我不太確定政府可以做什麼事情,因為除非政府強制要求模型的訓練資料都必須要公開透明,可是現在這件事情顯然是有些困難的。像是沒有人知道 OpenAI 到底用了什麼樣的資料,沒有人知道裡面到底有什麼東西。

但是我在想未來我們需要的是一個自動檢測的方法,有沒有辦法自動了解這個模型它有什麼樣的能力?它有什麼樣的漏洞?它有什麼樣的 Bias?或者是有沒有什麼 Toxic 的 Data?我覺得這是整個未來可以研究的方向。

威宇:了解,最後 Sky 還有什麼問題想問的嗎?

Sky我比較好奇的是,剛剛剛有提到像是 OpenAI 或是其他公司,都是從 2018 年開始佈局。因為看過去的資料,2018 年其實有點像是 Al 的創業潮,或者資金湧入的時期。

我比較好奇的是,這個時間有什麼特殊的點嗎?因為我覺得像自駕車那些,好像也是 2018 年開始比較受大家討論。但是我不知道我的推測對不對,不知道老師你這邊有什麼看法嗎?其實也不是說到 2018 年才特別高。應該是說,為什麼會在 2018 年突然衝起來?是因為有什麼特別技術的演變嗎?然後一路延續到現在。

李宏毅:感謝 Sky 的問題。我必須說,我覺得 2018 年並不是衝的特別高的,是 2018 年 OpenAI 釋出了第一代的 GPT,那個時候有沒有造成 Hype?沒有,沒人在意。那個時候 BERT 看起來還比 GPT 第一代流行非常多,那時候大家在討論的都是 BERT 這個模型,GPT 的聲量被壓得非常小。

但是 BERT 跟 GPT 走了一個不太一樣的路線,BERT 想走的路線是我幫你訓練好這個模型,你拿回家看你自己要做什麼自己去改裝它,變成只有專業的人士知道要怎麼改裝它,一般人不知道怎麼用。我不知道 OpenAI 是一開始就有這個規劃,還是因為 BERT 已經把所有的風頭都搶過去,所以他們決定要做一個截然不同的東西。

所以他們的目標一直是要做一個通用的模型,你拿回去以後不用改裝直接就可以用,在 2018 年、2019 年時會覺得這根本是不切實際的想法,BERT 的想法比較實用。我當時會覺得 OpenAI 只是找不到題目做,因為風頭都被 BERT 占去。如果它今天也釋出一個模型,也是讓人拿回家以後改造一下使用,不就跟 BERT 一樣?大家會覺得這沒有什麼了不起的,所以他們要走出一個前人都沒有走過的路。

其實像是這種有一個模型什麼事都可以做的概念,也不是 2018 年才有的。我記得最早在 2015 年的時候,我讀到一篇 Richard Socher 寫的文章,標題是 Ask Me Anything,它的概念其實跟今天的 ChatGPT 一樣,他希望有一個模型可以讓你問什麼問題它都能回答,所有 NLP 的問題都是一問一答。這在 2015 年看起來是不切實際的想法,但現在看起來這不就是 ChatGPT 嗎?

Sky所以這個歷史淵源實在很有趣。

威宇:老師剛才還有提到 Google 跟 OpenAI 走不同的方向,最近 Facebook 不是有一張圖嗎?他們把它分為 Encoder 跟 Decoder,OpenAI 都在走 Decoder 的路線,Google 就是走 Encoder 的路線。當然現在有中間的,他們的 PaLM-E 看起來是中間的東西。所以老師覺得現在 OpenAI 的程式看起來比較強,真的是因為他們選對路嗎?還是這兩條路之間有截然不同的差異嗎?還是像一開始提到的,其實都沒什麼差?

李宏毅:我先確定一下,因為我沒有看過你說的那張圖,你指的 Encoder 跟 Decoder 是比喻還是是真實的模型?

威宇:應該是方法上面的差別。

李宏毅:我了解你的意思,因為當初 Google 訓練的 BERT 只有 Encoder 沒有 Decoder,所以給 BERT 一個句子之後,它可以讀得懂,但它沒有辦法給你一個回應。如果你想要它回應,要自己加個外掛,它才能夠講話。

我覺得會這樣訓練很大的理由是,如果加了 Decoder 訓練的成本會高很多,所以當年先訓練一個 Encoder,只訓練 Encoder 會比訓練 Decoder 還要快很多。其實後來 Meta 也有一個版本是既有 Encoder 也有 Decoder 的,叫做 BART。OpenAI 一直訓練一個只有 Decoder 的模型,其實我並不知道假設把有 Encoder 也有 Decoder 的模型,跟只有 Decoder 的模型兩者放在一起做公平的評比,到底誰會比較強,我並沒有看到文獻做過這樣子的比較。

因為雖然現在的 Paper 有很多,有的用 Encoder 和 Decoder,有的也用 Decoder,但並不是在同樣公平的基準下面比較,比如比較一樣資料量下面訓練所得到的結果,所以我現在很難跟你說哪一種方法一定會比較好。

威宇:也許還是要看看 Google ,最近要更新演算法,聽說新上來的可能會是目前最強的。它應該是結合 Encoder 跟 Decoder 一起用的版本。

李宏毅:那個是 Encoder 和 Decoder 一起用的版本嗎?這我就不知道了。所以你有這樣的情報嗎?

威宇:PaLM-E 應該是 Encoder 跟 Decoder 一起。

李宏毅:所以你覺得最新版的是 Based on PaLM-E,它是有 Encoder 也有 Decoder,可以看看有 Encoder 和 Decoder 之後,會不會非常的不一樣。

威宇:沒錯,可是目前有人可以用到 PaLM-E 嗎?我不是很確定,可是目前看起來我覺得大家最喜歡的好像還是 GPT-4。了解。像我們在看 AutoGPT 或者是 BabyAGI 這種 Project,看起來它們的中樞都還是用 GPT-4,還是認為它是最厲害的。

李宏毅:我覺得大家也不一定認為它是最厲害,而是它最容易被 Access 到,它有一個好的 API,付錢你就可以 Call 它,它最容易開始使用,所以你就會選擇用這個模型。

威宇:了解。今天的問題大概先到這邊。非常感謝老師的解惑,今天是來上課的。

Sky學習了一個多小時,太感動了,面對面的學習,好久沒有上課了。

威宇:真的非常感謝老師的分享,我也會把老師關於 GPT 的教學還有 YouTube 放在資訊欄,如果想要重新了解底層的原理到底是什麼,都可以去這個 YouTube 看,我真的覺得這應該是台灣被引用過最多次的教學連結,就是這個。非常感謝大家,我們今天就到這邊,下集再見,拜拜。

作者:財報狗

財報狗為專注於投資資訊平台與社群,提供您上市櫃公司投資數據、選股、教學與討論,幫助您自行作更好的投資決策

財報狗網站:
statementdog.com
臉書粉絲團:
www.facebook.com/statementdog

Hi,歡迎使用財報狗查詢股票資訊

如果對網站功能或投資方法還有問題,歡迎到這裡詢問,我們會盡量回答您