衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

爆了!GPT-4模型架構、訓練成本、數據集信息都被扒出來了

CVer ? 來源:機器之心 ? 2023-07-12 14:16 ? 次閱讀

一直以來,大家都對 GPT-4 的模型架構、基礎設施、訓練數據集、成本等信息非常好奇。

奈何 OpenAI 嘴太嚴,很長時間以來,大家也都只是猜測這些數據。

不久之前,「天才黑客」喬治?霍茲(George Hotz)在接受一家名為 Latent Space 的 AI 技術播客采訪時透露出一個小道消息,稱 GPT-4 是由 8 個混合專家模型組成的集成系統,每個專家模型都有 2200 億個參數(比 GPT-3 的 1750 億參數量略多一些),并且這些模型經過了針對不同數據和任務分布的訓練。

雖然此消息無法驗證,但其流傳度非常高,也被部分業內人士認為非常合理。

最近,更多的消息似乎被泄露了出來。

今日,SemiAnalysis 發布了一篇付費訂閱的內容,「揭秘」了有關 GPT-4 的更多信息。

62a83668-2073-11ee-962d-dac502259ad0.png

文章稱,他們從許多來源收集了大量有關 GPT-4 的信息,包括模型架構、訓練基礎設施、推理基礎設施、參數量、訓練數據集組成、token 量、層數、并行策略、多模態視覺適應、不同工程權衡背后的思維過程、獨特的實現技術以及如何減輕與巨型模型推理有關的瓶頸等。

作者表示,GPT-4 最有趣的方面是理解 OpenAI 為什么做出某些架構決策。

此外,文章還介紹了 A100 上 GPT-4 的訓練和推理成本,以及如何拓展到下一代模型架構 H100 。

我們根據 Deep Trading(一家算法交易公司)創始人 Yam Peleg 的推文(目前已刪除),整理了以下關于 GPT-4 的數據信息。感興趣的讀者可以細致研究下。

62c6c88a-2073-11ee-962d-dac502259ad0.png

不過請注意,這并非官方確認的數據,大家自行判斷其準確性。

62de8ec0-2073-11ee-962d-dac502259ad0.png

1、參數量:GPT-4 的大小是 GPT-3 的 10 倍以上。文章認為它 120 層網絡中總共有 1.8 萬億個參數。

2、確實是混合專家模型。OpenAI 能夠通過使用混合專家(MoE)模型來保持合理成本。他們在模型中使用了 16 個專家模型,每個專家模型大約有 111B 個參數。這些專家模型中的 2 個被路由到每個前向傳遞。

3、MoE 路由:盡管文獻中對于選擇將每個 token 路由到哪個專家模型的高級路由算法進行了大量討論,但據稱 OpenAI 在當前的 GPT-4 模型中采用了相當簡單的路由方式。該模型大約使用了 550 億個共享參數來進行注意力計算。

62f0bb4a-2073-11ee-962d-dac502259ad0.png

4、推理:每次前向傳遞的推理(生成 1 個 token)僅利用約 2800 億個參數和約 560 TFLOP 的計算量。相比之下,純密集模型每次前向傳遞需要大約 1.8 萬億個參數和約 3700 TFLOP 的計算量。

5、數據集:GPT-4 的訓練數據集包含約 13 萬億個 token。這些 token 是重復計算之后的結果,多個 epoch 中的 token 都計算在內。

Epoch 數量:針對基于文本的數據進行了 2 個 epoch 的訓練,而針對基于代碼的數據進行了 4 個 epoch 的訓練。此外,還有來自 ScaleAI 和內部的數百萬行的指令微調數據。

6、GPT-4 32K:在預訓練階段,GPT-4 使用了 8k 的上下文長度(seqlen)。而 32k 序列長度版本的 GPT-4 是在預訓練后對 8k 版本進行微調而得到的。

636c0728-2073-11ee-962d-dac502259ad0.png

7、Batch Size:在計算集群上,幾天時間里,batch size 逐漸增加,最后,OpenAI 使用 batch size 達到了 6000 萬!當然,由于不是每個專家模型都能看到所有 token,因此這僅僅是每個專家模型處理 750 萬個 token 的 batch size。

真實的 batch size:將這個數字除以序列長度(seq len)即可得到真實的 batch size。請不要再使用這種誤導性的數字了。

8、并行策略:為了在所有 A100 GPU 上進行并行計算,他們采用了 8 路張量并行,因為這是 NVLink 的極限。除此之外,他們還采用了 15 路流水線并行。(很可能使用了 ZeRo Stage 1,也可能使用了塊級的 FSDP)。

641a88f2-2073-11ee-962d-dac502259ad0.png

9、訓練成本:OpenAI 在 GPT-4 的訓練中使用了大約 2.15e25 的 FLOPS,使用了約 25,000 個 A100 GPU,訓練了 90 到 100 天,利用率(MFU)約為 32% 至 36%。這種極低的利用率部分是由于大量的故障導致需要重新啟動檢查點。

如果他們在云端的每個 A100 GPU 的成本大約為每小時 1 美元,那么僅此次訓練的成本將達到約 6300 萬美元。(而如今,如果使用約 8192 個 H100 GPU 進行預訓練,用時將降到 55 天左右,成本為 2150 萬美元,每個 H100 GPU 的計費標準為每小時 2 美元。)

10、使用專家混合模型時的 tradeoff:在使用專家混合模型時存在多方面 tradeoff。

例如,在推理過程中處理 MoE 非常困難,因為并非模型的每個部分都在每個 token 生成時被利用。這意味著在某些部分被使用時,其他部分可能處于閑置狀態。在為用戶提供服務時,這會嚴重影響資源利用率。研究人員已經證明使用 64 到 128 個專家比使用 16 個專家能夠實現更好的損失(loss),但這僅僅是研究的結果。

選擇較少的專家模型有多個原因。OpenAI 選擇 16 個專家模型的一大原因是:在許多任務中,更多的專家模型很難泛化,也可能更難收斂。

由于進行了如此大規模的訓練,OpenAI 選擇在專家模型數量上更加保守。

643928ac-2073-11ee-962d-dac502259ad0.png

11、推理成本:GPT-4 的推理成本是 1750 億參數的 Davinci 模型的 3 倍。這主要是因為 GPT-4 需要更大規模的集群,并且達到的利用率要低得多。

據估計,在用 128 個 A100 GPU 進行推理的情況下,8k 版本 GPT-4 推理的成本為每 1,000 個 token 0.0049 美分。如果使用 128 個 H100 GPU 進行推理,同樣的 8k 版本 GPT-4 推理成本為每 1,000 個 token 0.0021 美分。值得注意的是,這些估計假設了高利用率和保持較高的 batch size。

12、Multi-Query Attention:OpenAI 和其他機構一樣,也在使用 Multi-Query Attention(MQA)。由于使用 MQA 只需要一個注意力頭(head),并且可以顯著減少用于 KV 緩存的內存容量。即便如此,32k 序列長度的 GPT-4 也絕對無法在 40GB 的 A100 GPU 上運行,而 8k 序列長度的模型則受到了最大 batch size 的限制。

64c135f8-2073-11ee-962d-dac502259ad0.png

13、連續 batching:OpenAI 實現了可變 batch size 和連續 batching。這樣做是為了允許一定程度的最大延遲,并優化推理成本。

14、視覺多模態:它是一個獨立于文本編碼器的視覺編碼器,二者之間存在交叉注意力。該架構類似于 Flamingo。這在 GPT-4 的 1.8 萬億個參數之上增加了更多參數。在純文本的預訓練之后,它又經過了另外約 2 萬億個 token 的微調。

對于視覺模型,OpenAI 本來希望從零開始訓練,但由于其尚未成熟,所以他們決定先從文本開始訓練來降低風險。

這種視覺能力的主要目的之一是使自主智能體能夠閱讀網頁并轉錄圖像和視頻中的內容。

他們訓練的一部分數據是聯合數據(包括渲染的 LaTeX / 文本)、網頁的截屏、YouTube 視頻(采樣幀),并使用 Whisper 對其進行運行以獲取轉錄文本。

6572b53a-2073-11ee-962d-dac502259ad0.png

15、推測式解碼(Speculative Decoding):OpenAI 可能在 GPT-4 的推理過程中使用了推測式解碼技術(不確定是否 100%)。這種方法是使用一個更小更快的模型提前解碼多個 token,并將它們作為單個 batch 輸入到一個大型的預測模型(oracle model)中。

如果小型模型對其預測是正確的,大型模型將會同意,我們可以在單個 batch 中解碼多個 token。

但是,如果大型模型拒絕了草稿模型預測的 token,那么 batch 中剩余的部分將被丟棄,然后我們將繼續使用大型模型進行解碼。

有些陰謀論指出,新的 GPT-4 質量已經下降,這可能只是因為他們讓推測式解碼模型(speculative decoding model)將概率較低的序列傳遞給預測模型,從而導致了這種誤解。

65a0d032-2073-11ee-962d-dac502259ad0.png

16、推理架構:推理運行在由 128 個 GPU 組成的集群上。在不同地點的多個數據中心存在多個這樣的集群。推理過程采用 8 路張量并行(tensor parallelism)和 16 路流水線并行(pipeline parallelism)。每個由 8 個 GPU 組成的節點僅具有約 1300 億個參數。

該模型有 120 層,因此適合于 15 個不同的節點。可能第一個節點的層數較少,因為它還需要計算嵌入。

根據這些數字,如果 OpenAI 試圖按照 chinchilla 的最佳指標進行訓練,他們應該使用的 token 數量是現在的兩倍。這表明他們在獲取高質量數據方面遇到了困難。

最后想說的是,這應該是迄今為止關于 GPT-4 最為詳細的數據揭秘。目前還不能求證是否真實,但也值得大家研究下。正如原文作者所說,「有趣的方面是理解 OpenAI 為什么做出某些架構決策。」

關于 GPT-4 的這些架構信息,你怎么看?

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3305

    瀏覽量

    49218
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24831
  • OpenAI
    +關注

    關注

    9

    文章

    1132

    瀏覽量

    6696

原文標題:爆了!GPT-4模型架構、訓練成本、數據集信息都被扒出來了...

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    采用FP8混合精度,DeepSeek V3訓練成本僅557.6萬美元!

    模型需要花費約4684.8萬美元。然而,隨著技術的進步,這一成本正在迅速降低。DeepSeek V3的出現,標志著訓練成本的大幅下降,其訓練成本僅為557.6萬美元,相較于之前的
    的頭像 發表于 01-13 11:12 ?350次閱讀

    OpenAI GPT-5開發滯后:訓練成本高昂

    已經對GPT-5進行了至少兩輪大規模訓練,希望通過海量數據資源來優化模型效能。然而,首次訓練的實際運行結果并未達到預期標準,導致更大規模的
    的頭像 發表于 12-23 11:04 ?313次閱讀

    Llama 3 與 GPT-4 比較

    沿。 一、技術架構 Llama 3和GPT-4都是基于深度學習的自然語言處理(NLP)模型,但它們的設計理念和技術細節有所不同。 Llama 3 采用了一種創新的混合架構,結合
    的頭像 發表于 10-27 14:17 ?540次閱讀

    AI大模型訓練成本飆升,未來三年或達千億美元

    Anthropic的首席執行官Dario Amodei在知名Podcast節目《In Good Company》中,就這一話題發表深刻見解,揭示AI大模型訓練成本即將面臨的巨大挑戰
    的頭像 發表于 07-11 15:06 ?667次閱讀

    OpenAI推出新模型CriticGPT,用GPT-4自我糾錯

    基于GPT-4模型——CriticGPT,這款模型專為捕獲ChatGPT代碼輸出中的錯誤而設計,其獨特的作用在于,讓人們能夠用GPT-4來查找GP
    的頭像 發表于 06-29 09:55 ?598次閱讀

    谷歌Gemini Ultra模型訓練成本近2億美元

    斯坦福大學與研究巨頭Epoch AI聯合揭示云計算時代下AI模型訓練成本的飛速增長。最新研究結果顯示,AI巨頭OpenAI的GPT-4訓練成本
    的頭像 發表于 06-07 09:36 ?650次閱讀

    GPT-4人工智能模型預測公司未來盈利勝過人類分析師

    據悉,本次研究中,研究人員僅向GPT-4提供匿名的財務數據,包括資產負債表和損益表,并要求其預測未來盈利增長。盡管未獲得其他信息GPT-4
    的頭像 發表于 05-27 16:41 ?660次閱讀

    OpenAI全新GPT-4o能力炸場!速度快/成本低,能讀懂人類情緒

    ”的意思。GPT-4o文本、推理、編碼能力達到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的兩倍,但成本僅為
    的頭像 發表于 05-15 00:15 ?7905次閱讀

    阿里云發布通義千問2.5大模型,多項能力超越GPT-4

    阿里云隆重推出了通義千問 2.5 版,宣稱其“技術進步,全面超越GPT-4”,尤其是在中文環境中的多種任務(如文本理解、文本生成、知識問答及生活建議、臨時聊天及對話以及安全風險評估)方面表現出色,超越GPT-4
    的頭像 發表于 05-09 14:17 ?1034次閱讀

    商湯科技發布5.0多模態大模型,綜合能力全面對標GPT-4 Turbo

    商湯科技發布5.0多模態大模型,綜合能力全面對標GPT-4 Turbo 4月23日,商湯科技董事長兼CEO徐立在2024商湯技術交流日上發布行業首個云、端、邊全棧大
    的頭像 發表于 04-24 16:49 ?1179次閱讀

    OpenAI推出Vision模型GPT-4 Turbo,融合文本與圖像理解

    據悉,此模型沿用GPT-4 Turbo系列特有的12.8萬token窗口規模及截至2023年12月的知識庫架構,其創新亮點則是強大的視覺理解功能。
    的頭像 發表于 04-10 10:49 ?447次閱讀

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級至GPT-4取得顯著進步,如今再次更新至性能卓越的GPT-4 Turbo
    的頭像 發表于 03-13 13:42 ?777次閱讀

    全球最強大模型易主,GPT-4被超越

    近日,AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型,其中包括最強版Claude 3 Opus。據該公司稱,Claude 3系列在推理、數學、編碼、多語言理解和視覺方面全面超越包括GPT-4在內的所
    的頭像 發表于 03-05 09:58 ?704次閱讀

    Anthropic推出Claude 3系列模型,全面超越GPT-4,樹立AI新標桿

    近日,AI領域的領軍企業Anthropic震撼發布全新的Claude 3系列模型,該系列模型在多模態和語言能力等關鍵領域展現出卓越性能,成功擊敗此前被廣泛認為是全球最強AI
    的頭像 發表于 03-05 09:49 ?741次閱讀

    全球最強大模型易主:GPT-4被超越,Claude 3系列嶄露頭角

    近日,人工智能領域迎來了一場革命性的突破。Anthropic公司發布全新的Claude 3系列模型,該系列模型在多模態和語言能力等關鍵指標上展現出卓越性能,成功超越
    的頭像 發表于 03-05 09:42 ?708次閱讀
    百家乐平台| 百家乐官网小音箱| 大世界百家乐赌场娱乐网规则| 百家乐官网散台| 大发888娱乐游戏博彩| 麻将百家乐官网筹码| 凯旋门娱乐场| 怎样玩百家乐的玩法技巧和规则| 赌博技巧| 大发888游乐场下载| 视频百家乐攻略| 百家乐官网超级市场| 大石桥市| 金沙| 威尼斯人娱乐城地址lm0| 百家乐赢钱战略| 百家乐官网赌场论坛在线| 总统线上娱乐城| 棋牌游戏赚钱| 九州百家乐的玩法技巧和规则 | 百家乐官网赌博赌博平台| 三江| 现金百家乐游戏| 百家乐官网局部| 百家乐官网游戏网站| 开江县| 赌博堕天录漫画| kk娱乐城开户| 大发888黄金版| 大发888注册送58| 电子百家乐规则| 尊龙百家乐赌场娱乐网规则| 百家乐5式直缆投注法| 亚洲百家乐新全讯网| 网上百家乐官网解密| 百家乐官网微笑玩| 做生意门店风水知识| 做生意开店铺风水大全| 金锁玉关24山砂水断| 个体老板做生意的风水| 来博百家乐现金网|