衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

百川的大模型KnowHow介紹

深度學習自然語言處理 ? 來源:李rumor ? 2023-09-18 10:28 ? 次閱讀

來自:李rumor

大模型是一個實驗工程,涉及數據清洗、底層框架、算法策略等多個工序,每個環節都有很多坑,因此知道如何避坑和技術選型非常重要,可以節省很多算力和時間。

近期百川智能發布了Baichuan2的7B和13B版本,可能不少卷友被刷屏慣了沒有仔細看,他們在放出模型的同時也給了一份技術報告,里面干貨滿滿,因此我自來水一波,帶大家一起看看百川積累的KnowHow。同時也有一些我沒完全懂的地方,希望拋磚引玉,可以一起在評論區討論。

Pre-train

數據

數據多樣性

從不同的來源獲取數據,最好建立一個類目體系,可以提升對整體數據分布的把控,方便后續增減。

進行聚類和去重,可以通過LSH局部敏感或者稠密向量作為聚類特征,LSH更快一些,但向量可以更好地編碼語義。但這里有個問題是需要卡閾值,去重過猛會影響多樣性降低泛化能力。因此百川選擇的做法是去除一部分,并對剩余的樣本打分,作為預訓練時采樣的權重。

整體去重的流程如下(這里我沒太懂的是為何把Document去重放在最后一步,如果放在前面的環節應該可以顯著減少句子和段落的數據量):

51a60930-52f0-11ee-a25d-92fbcf53809c.png

數據質量

采用句子級別的分類器進行過濾,這個是業內常用做法了,但具體用什么數據訓練,用什么標準標注沒有細說。

對于內容安全,用規則和模型洗掉有害內容,還額外找了一些正向價值觀的數據源,提升采樣概率。

模型結構

Tokenizer

Tokenizer的難點是平衡壓縮比和詞表尺寸,比如頻繁出現的幾個中文是可以用1個token表示的,這樣inference時就會很快,但合并的話這幾個中文字單獨的embedding訓練可能就不充分,跟其他字組合時語義表示會不夠好。

因此百川使用BPE,選擇了比較折中的12萬大小,同時披露了以下細節:

對原始數據不做任何歸一化

把數字完全拆開,可以更好理解數值數據

為了代碼數據,專門增加空格token

覆蓋率在0.9999,只有少量fall back(一種避免OOV的方法,在碰到unknown中文時會變成utf8的byte token)

位置編碼

由于有外推的需求,最近位置編碼有很多新的工作,比較火的當屬RoPE和ALiBi,這里百川都用了,因為他們實驗發現位置編碼并沒有顯著影響模型表現,同時進行了速度優化:

RoPE + Flash Attention

ALiBi + xFormers

激活函數

采用了表現更好的SwiGLU,由于SwiGLU有三個矩陣,引入了更多參數,因此百川縮小了FFN層的尺寸(4->8/3再處理成128的倍數)。

Normalisations

對Transformer的輸入采用LayerNorm,對warm-up更魯棒

采用了RMSNorm的實現,指計算輸入特征的方差,提升計算效率

混合精度

采用BF16,因為其具有更大的范圍,可以讓訓練更穩定,但對于位置編碼、優化器等,采用全精度。

提升穩定性

NormHead:對輸出的表示進行歸一化。首先低頻token的模會在訓練中變小,進行歸一化后可以提升穩定性。另外百川通過對輸出表示聚類,發現cosine距離可以將相似語義的聚到一起而L2距離不行,歸一化可以消除最終計算logits時點乘中L2的影響。從實驗結果可以明顯發現loss收斂更好更穩定。

Max-z loss:在訓練過程中,百川發現模型的logits都很大,這樣就會對解碼時的超參數魯棒性較低,因此增加max-z loss拉低logits的值。

注:對于預訓練的優化解讀跳過了Infra的部分,不是那么懂。。

Alignment

SFT

數據質量:采用抽檢的方式進行質量把控,抽一批數據檢查,不合格全部退回。

數據數量:100k(目前開源SFT數據還是挺多的,不知道百川出于什么考慮

Reward Model

Prompt多樣性:構造了一個200+細分類目的數據體系,盡可能覆蓋用戶需求,同時提升每類prompt多樣性,從而提升泛化能力

Response多樣性:用不同尺寸和階段的百川模型生成答案,不使用其他開源模型(經驗證無法提升RM準確率)

PPO

預先對critic模型進行了warmup

為提升RL穩定性,進行梯度裁剪

安全

由于模型開源,百川在內容安全上非常細致,包括:

聘請10位專業審核人員構建了100+安全類目

用50人的標注團隊構建了200K攻擊指令

對于攻擊指令,生產多樣性很大的回答

總結

Baichuan2的效果比第一版提升了很多,在推理任務上效果翻倍,是目前開源模型中過了最多中文語料的模型。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4630

    瀏覽量

    93355
  • 開源
    +關注

    關注

    3

    文章

    3402

    瀏覽量

    42712
  • 函數
    +關注

    關注

    3

    文章

    4346

    瀏覽量

    62971
  • 大模型
    +關注

    關注

    2

    文章

    2545

    瀏覽量

    3165

原文標題:總結

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    白海科技與百川智能順勢而為、攜手共進,助力領域大模型應用快速落地

    (2023年08月08日,中國北京訊)近日,AI基礎軟件服務商白海科技與國內領先的AGI服務企業百川智能宣布達成戰略合作協議。這次合作旨在加速大語言模型在各行各業的應用,并為客戶提供智能高效
    的頭像 發表于 08-08 14:23 ?1140次閱讀

    百川ESD產品簡介 2017版

    百川ESD產品簡介
    發表于 10-09 16:26 ?0次下載

    海基新能源再獲百川股份資金加持

    海基新能源為百川股份參股公司,此次增資前,百川股份合計持股26.55%。百川股份表示,本次增資有利于擴大海基新能源鋰電項目產能規模,滿足其未來發展對資金的需求。
    的頭像 發表于 12-28 10:11 ?3735次閱讀

    百川智能獲阿里騰訊小米等3億美元投資

    百川智能推出了4款開源baichuan-7b/13b、baichuan 2-7b/13b的免費商用產品和baichuan-53b、baichuan 2-53b的閉源大模型,平均每28天推出一次新的大模型
    的頭像 發表于 10-17 10:15 ?794次閱讀

    百川智能發布Baichuan2 Turbo系列API,或將替代行業大模型

    在當天的媒體溝通會上,百川智能創始人、CEO王小百川智能聯合創始人、聯席總裁洪濤,百川智能技術聯創陳煒鵬及百川智能商用業務部總經理李劍共
    的頭像 發表于 12-20 16:54 ?1037次閱讀

    搜索出生的百川智能大模型RAG爬坑之路總結

    今天對百川的RAG方法進行解讀,百川智能具有深厚的搜索背景,來看看他們是怎么爬RAG的坑的吧~
    的頭像 發表于 01-05 15:02 ?1580次閱讀
    搜索出生的<b class='flag-5'>百川</b>智能大<b class='flag-5'>模型</b>RAG爬坑之路總結

    百川智能發布超千億大模型Baichuan 3

    百川智能近日發布了超千億參數的大語言模型Baichuan 3,引發了業界的廣泛關注。這款模型在多個權威通用能力評測中表現卓越,展現了其強大的語義理解和生成能力。
    的頭像 發表于 01-31 14:58 ?924次閱讀

    數勢聯動百川,發布首批大模型聯合解決方案,推動中國大模型價值落地

    近日,行業領先的數據智能產品提供商北京數勢云創科技有限公司(以下簡稱“數勢科技”)和國內通用大模型廠商北京百川智能科技有限公司(以下簡稱“百川”)聯合發布大模型數據分析垂直領域應用解決
    的頭像 發表于 02-28 11:40 ?531次閱讀
    數勢聯動<b class='flag-5'>百川</b>,發布首批大<b class='flag-5'>模型</b>聯合解決方案,推動中國大<b class='flag-5'>模型</b>價值落地

    百川智能發布Baichuan 4大模型及首款AI助手“小應”

    百川智能近日發布了其新一代基座大模型Baichuan 4,并同步推出了首款AI助手“小應”。這款AI助手是在Baichuan 4強大能力的基礎上,結合先進的搜索技術精心打造而成。
    的頭像 發表于 05-23 14:15 ?675次閱讀

    亞馬遜云科技接入百川智能和零一萬物基礎模型

    近日,亞馬遜云科技在中國峰會上宣布,兩大中文基礎模型——百川智能的Baichuan2-7B和零一萬物的Yi-1.5 6B/9B/34B,即將或已正式登陸中國區域的SageMaker JumpStart。這一舉措為中國企業提供了豐富的模型
    的頭像 發表于 06-04 11:53 ?620次閱讀

    百川智能完成50億元A輪融資

    近日,國內領先的醫療AI大模型企業——百川智能,正式宣布完成了高達50億元人民幣的A輪融資,這一里程碑式的融資不僅彰顯了市場對其技術實力與未來發展潛力的高度認可,也為公司的后續發展奠定了堅實的資金基礎。
    的頭像 發表于 07-26 16:42 ?510次閱讀

    模型廠商“輸血”不斷,百川智能完成50億元A輪融資!

    有重磅消息曝出:知名大模型公司百川智能已經成功收獲了價值50億元的A輪融資。由此,我們不禁感嘆,大模型廠商們的“輸血”和“續命”之戰,還在激烈的上演著。
    的頭像 發表于 07-31 14:47 ?679次閱讀
    大<b class='flag-5'>模型</b>廠商“輸血”不斷,<b class='flag-5'>百川</b>智能完成50億元A輪融資!

    百川智能發布一站式大模型商業化解決方案

    近日,百川智能正式推出了一站式大模型商業化解決方案,旨在為企業提供更加全面、高效的大模型應用服務。該解決方案以1+3產品矩陣為核心,包括全鏈路優質通用訓練數據、Baichuan4-Turbo和Baichuan4-Air兩款
    的頭像 發表于 11-01 18:01 ?918次閱讀

    百川智能發布Baichuan4-Finance金融大模型

    近日,百川智能正式推出了其全鏈路領域增強的金融大模型——Baichuan4-Finance。這一創新產品的發布,標志著百川智能在金融智能化領域邁出了重要一步。 Baichuan4-Finance
    的頭像 發表于 12-25 10:11 ?267次閱讀

    百川智能發布全場景深度思考模型Baichuan-M1-preview

    1月24日,百川智能正式發布了全場景深度思考模型Baichuan-M1-preview。 Baichuan-M1-preview同時具備語言、視覺和搜索三大領域推理能力的模型。在數學、代碼等權威評測
    的頭像 發表于 01-24 14:40 ?657次閱讀
    蓝山县| 威尼斯人娱乐网上百家乐的玩法技巧和规则 | 大新县| 怎么看百家乐路单| 百家乐官网足球投注网哪个平台网址测速最好 | 大发888官网z46| 百家乐是否违法| 网上百家乐官网真实吗| 威尼斯人娱乐场钓鱼网站| 缅甸百家乐官网的玩法技巧和规则| 东方夏威夷娱乐| 正品百家乐电话| 试玩百家乐官网游戏机| 赌博网站| 迪士尼百家乐的玩法技巧和规则| 至尊百家乐官网赌场娱乐网规则 | 多台百家乐的玩法技巧和规则| 百家乐官网技巧-百家乐官网开户指定代理网址 | 澳门百家乐官网公试打法| 大发888是真的吗| 打百家乐的技巧| 百家乐官网平注法是什么| 大发888中文版| 百家乐de概率| 威尼斯人娱乐场55556| 土豪百家乐官网的玩法技巧和规则 | 百家乐平台信誉| 百家乐官网生活馆拖鞋| 皇冠现金网娱乐城| 百家乐计划工具| 皇冠百家乐皇冠网| 百家乐官网群html| 澳门赌场老板| 百家乐是娱乐场最不公平的游戏 | 大发扑克网站| 喜来登百家乐的玩法技巧和规则| 租房做生意如何注意风水问题| 玩百家乐官网高手支招篇| 金都娱乐城| 全讯网vc8888.com| 澳门赌百家乐心法|