衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA AI Foundation Models:使用生產就緒型 LLM 構建自定義企業聊天機器人和智能副駕

NVIDIA英偉達企業解決方案 ? 來源:未知 ? 2023-11-17 21:35 ? 次閱讀
wKgZomVXbTKAGJfHAAW1azkbVqE901.png

大語言模型(LLM)正在徹底變革數據科學,帶來自然語言理解、AI機器學習的高級功能。為洞悉特定領域而定制的自定義 LLM 在企業應用中越來越受到青睞。

NVIDIA Nemotron-3 8B系列基礎模型是一套功能強大的全新工具,可用于為企業構建生產就緒生成式 AI 應用,從而推動從客服 AI 聊天機器人到尖端 AI 產品的各種創新。

這些新的基礎模型現已加入NVIDIA NeMo。這個端到端框架用于構建、自定義和部署專為企業定制的 LLM。企業現在可以使用這些工具快速且經濟高效地大規模開發 AI 應用。這些應用可在云端、數據中心以及 Windows PC 和筆記本電腦上運行。

Nemotron-3 8B 系列現已在 Azure AI Model 目錄、HuggingFace 和NVIDIA NGC 目錄上的NVIDIA AI Foundation Model中心提供。該系列包含基本模型、聊天模型和問答(Q&A)模型,可解決各種下游任務。表 1 列出了該系列的所有模型。

wKgZomVXbTKAaCMEAAD20aBXqnc614.jpg

表 1. Nemotron-3 8B 系列基礎模型支持多種 LLM 用例

設計用于生產的基礎模型

基礎模型是強大的構建模塊,它減少了構建實用的自定義應用所需的時間和資源。然而,企業機構必須確保這些模型符合其具體需求。

NVIDIA AI Foundation Models 基于來源可靠的數據集訓練而成,集合了無數聲音和體驗。嚴格監控確保了數據的真實性,并符合不斷變化發展的法律規定。任何出現的數據問題都會迅速得到解決,確保企業的 AI 應用既符合法律規范,又能保護用戶隱私。這些模型既能吸收公開數據集,也能兼容專有數據集。

Nemotron-3-8B 基本模型

Nemotron-3-8B 基本模型是一種用于生成類人文本或代碼的緊湊型高性能模型。該模型的 MMLU 5 樣本平均值為 54.4。該基本模型還精通 53 種語言,包括英語、德語、俄語、西班牙語、法語、日語、中文、意大利語和荷蘭語,因此能滿足跨國企業對多語言能力的需求。該基本模型還經過 37 種不同編碼語言的訓練。

Nemotron-3-8B 聊天模型

該套件還添加了 Nemotron-3-8B 聊天模型,用于 LLM 驅動的聊天機器人交互。Nemotron-3-8B 聊天模型有三個版本,每個版本均針對特定用戶的獨特調整而設計:

  • 監督微調(SFT)

  • 人類反饋強化學習(RLHF)

  • NVIDIA SteerLM(https://blogs.nvidia.com/blog/2023/10/11/customize-ai-models-steerlm/

Nemotron-3-8B-SFT 模型是指令微調的第一步,我們在此基礎上建立了 RLHF 模型,該模型是 8B 類別中 MT-Bench 分數最高的模型(MT-Bench 是最常用的聊天質量指標)。用戶可以從使用 8B-chat-RLHF 開始,以獲得最佳的即時聊天互動效果。但對于希望與最終用戶的偏好保持一致的企業,可以在使用 SFT 模型的同時,應用自己的 RLHF。

最后,最新的對齊方法 SteerLM 為訓練和自定義推理 LLM 提供了新的靈活性。借助 SteerLM,用戶可以定義其所需的所有屬性,并將其嵌入單個模型中,然后就可以在該模型運行時為特定用例選擇其所需的組合。

這種方法支持持續的改進周期。自定義模型響應可以作為未來訓練的數據,從而將模型的實用性提升到新的水平。

Nemotron-3-8B 問答模型

Nemotron-3-8B-QA 模型是一個問答(QA)模型,該模型在大量數據基礎上針對目標用例進行微調。

Nemotron-3-8B-QA 模型的性能一流,在 Natural Questions 數據集(https://ai.google.com/research/NaturalQuestions/)上實現了 41.99% 的零樣本 F1 分數。該指標用于衡量生成的答案與問答中真實答案的相似程度。

Nemotron-3-8B-QA 模型已與其他參數規模更大的先進語言模型進行了對比測試。測試是在 NVIDIA 創建的數據集以及 Natural Questions 和 Doc2Dial 數據集上進行的。結果表明,該模型具有良好的性能。

使用 NVIDIA NeMo 框架

構建自定義 LLM

NVIDIA NeMo 通過為多種模型架構提供端到端功能和容器化方案,簡化了構建自定義企業生成式 AI 模型的路徑。借助 Nemotron-3-8B 系列模型,開發者就可以使用 NVIDIA 提供的預訓練模型,這些模型可以輕松適應特定用例。

快速模型部署

使用 NeMo 框架時,無需收集數據或設置基礎架構。NeMo 精簡了這一過程。開發者可以自定義現有模型,并將其快速部署到生產中。

最佳模型性能

此外,它還與NVIDIA TensorRT-LLM開源庫和NVIDIA Triton 推理服務器無縫集成,前者可優化模型性能,后者可加速推理服務流程。這種工具組合實現了最先進的準確性、低延遲和高吞吐量。

數據隱私和安全

NeMo 可實現安全、高效的大規模部署,并符合相關安全法規規定。例如,如果數據隱私是業務的關鍵問題,就可以使用NeMo Guardrails在不影響性能或可靠性的情況下安全存儲客戶數據。

總之,使用 NeMo 框架構建自定義 LLM 是在不犧牲質量或安全標準的情況下、快速創建企業 AI 應用的有效方法。它為開發者提供了自定義靈活性,同時提供了大規模快速部署所需的強大工具。

開始使用 Nemotron-3-8B

您可以使用 NeMo 框架在 Nemotron-3-8B 模型上輕松運行推理,該框架充分利用 TensorRT-LLM 開源庫,可在NVIDIA GPU上為高效和輕松的 LLM 推理提供高級優化。它內置了對各種優化技術的支持,包括:

  • KV caching

  • Efficient Attention modules (including MQA, GQA, and Paged Attention)

  • In-flight (or continuous) batching

  • 支持低精度(INT8/FP8)量化以及其他優化

NeMo 框架推理容器包含在 NeMo 模型(如 Nemotron-3-8B 系列)上應用 TensorRT-LLM 優化所需的所有腳本和依賴項,并將它們托管在 Triton 推理服務器上。部署完成后,它可以開放一個端點,供您發送推理查詢。

在 Azure ML 上的部署步驟

Nemotron-3-8B 系列模型可在 Azure ML 模型目錄中獲得,以便部署到 Azure ML 管理的端點中。AzureML 提供了易于使用的“無代碼部署”流程,使部署 Nemotron-3-8B 系列模型變得非常容易。該平臺已集成了作為 NeMo 框架推理容器的底層管道。

wKgZomVXbTKAFSStAACR2QTk7WA932.png

圖 1. 在 Azure ML 中選擇實時端點

如要在 Azure ML 上部署 NVIDIA 基礎模型并進行推理,請按照以下步驟操作:

  1. 登錄 Azure 賬戶:https://portal.azure.com/#home

  2. 導航至 Azure ML 機器學習工作室

  3. 選擇您的工作區,并導航至模型目錄

NVIDIA AI Foundation 模型可在 Azure 上進行微調、評估和部署,還可以在 Azure ML 中使用 NeMo 訓練框架對這些模型進行自定義。NeMo 框架由訓練和推理容器組成,已集成在 AzureML 中。

如要微調基本模型,請選擇您喜歡的模型變體,單擊“微調”,填寫任務類型、自定義訓練數據、訓練和驗證分割以及計算集群等參數。

如要部署該模型,請選擇您喜歡的模型變體,單擊“實時端點”,選擇實例、端點和其他用于自定義部署的參數。單擊“部署”,將推理模型部署到端點。

Azure CLI 和 SDK 支持也可用于在 Azure ML 上運行微調作業和部署。詳細信息請參見“Azure ML 中的 Foundation Models”文檔。

在本地或其他云上的部署步驟

Nemotron-3-8B 系列模型具有獨特的推理請求提示模板,建議將其作為最佳實踐。但由于它們共享相同的基本架構,因此其部署說明很相似。

有關使用 NeMo 框架推理容器的最新部署說明,參見:https://registry.ngc.nvidia.com/orgs/ea-bignlp/teams/ga-participants/containers/nemofw-inference

為了演示,讓我們部署 Nemotron-3-8B-Base-4k。

1. 登錄 NGC 目錄,獲取推理容器。

# log in to your NGC organization
docker login nvcr.io


# Fetch the NeMo framework inference container
docker pull nvcr.io/ea-bignlp/ga-participants/nemofw-inference:23.10

2. 下載 Nemotron-3-8B-Base-4k 模型。8B 系列模型可在 NGC 目錄和 Hugging Face 上獲得,您可以選擇其中一個下載模型。

NVIDIA NGC

從 NGC 下載模型最簡單的方法是使用 CLI。如果您沒有安裝 NGC CLI,請按照入門指南(https://docs.ngc.nvidia.com/cli/cmd.html#getting-started-with-the-ngc-cli)進行安裝和配置。

# Downloading using CLI. The model path can be obtained from it’s page on NGC
ngc registry model download-version "dztrnjtldi02/nemotron-3-8b-base-4k:1.0"

Hugging Face Hub

以下指令使用的是 git-lfs,您也可以使用 Hugging Face 支持的任何方法下載模型。

git lfs install
git clone https://huggingface.co/nvidia/nemotron-3-8b-base-4knemotron-3-8b-base-4k_v1.0

3.在交互模式下運行 NeMo 推理容器,安裝相關路徑

# Create a folder to cache the built TRT engines. This is recommended so they don’t have to be built on every deployment call. 
mkdir -p trt-cache


# Run the container, mounting the checkpoint and the cache directory
docker run --rm --net=host 
                     --gpus=all 
                     -v $(pwd)/nemotron-3-8b-base-4k_v1.0:/opt/checkpoints/  
                     -v $(pwd)/trt-cache:/trt-cache  
                     -w /opt/NeMo 
                     -it nvcr.io/ea-bignlp/ga-participants/nemofw-inference:23.10 bash

4. 在 Triton 推理服務器上使用 TensorRT-LLM 后端轉換并部署該模型。

python scripts/deploy/deploy_triton.py 
                     --nemo_checkpoint /opt/checkpoints/Nemotron-3-8B-Base-4k.nemo 
                     --model_type="gptnext" 
                     --triton_model_name Nemotron-3-8B-4K 
                     --triton_model_repository /trt-cache/ 
                     --max_input_len 3000 
                     --max_output_len 1000 
                     --max_batch_size 2

當該指令成功完成后,就會顯示一個可以查詢的端點。讓我們來看看如何做到這一點。

運行推理的步驟

有幾種運行推理的方法可供選擇,取決于您希望如何集成該服務:

1. 使用 NeMo 框架推理容器中的 NeMo 客戶端 API

2. 使用 PyTriton 在您的環境中創建一個客戶端應用

3. 鑒于所部署的服務會開放一個 HTTP 端點,使用任何可以發送 HTTP 請求的程序資源庫/工具。

選項 1(使用 NeMo 客戶端 API)的示例如下。您可以在同一臺設備上的 NeMo 框架推理容器中使用,也可以在能訪問服務 IP 和端口的不同設備上使用。

from nemo.deploy import NemoQuery


# In this case, we run inference on the same machine
nq = NemoQuery(url="localhost:8000", model_name="Nemotron-3-8B-4K")


output = nq.query_llm(prompts=["The meaning of life is"], max_output_token=200, top_k=1, top_p=0.0, temperature=0.1)
print(output)

其他選項示例可以在該推理容器的 README 中找到。

8B 系列模型指令

NVIDIA Nemotron-3-8B 系列中的模型:所有 NVIDIA Nemotron-3-8B 數據集共享預訓練基礎,但用于調優聊天(SFT、RLHF、SteerLM)和問答模型的數據集是根據其特定目的自定義的。此外,構建上述模型還采用了不同的訓練技術,因此這些模型在使用與訓練模板相似的定制指令時最為有效。

這些模型的推薦指令模板位于各自的模型卡上。

例如,以下是適用于 Nemotron-3-8B-Chat-SFT 和 Nemotron-3-8B-Chat-RLHF 模型的單輪和多輪格式:

wKgZomVXbTKAd9-9AAD-epn1CLM582.jpg

指令和回復字段與輸入內容相對應。下面是一個使用單輪模板設置輸入格式的示例。

PROMPT_TEMPLATE = """System
{system}
User
{prompt}
Assistant
"""
system = ""
prompt = "Write a poem on NVIDIA in the style of Shakespeare"


prompt = PROMPT_TEMPLATE.format(prompt=prompt, system=system)
print(prompt)

注意對于 Nemotron-3-8B-Chat-SFT 和 Nemotron-3-8B-Chat-RLHF 模型,我們建議保持系統提示為空。

進一步訓練和自定義

NVIDIA Nemotron-3-8B 模型系列適用于針對特定領域數據集的進一步定制。對此有幾種選擇,例如繼續從檢查點進行預訓練、SFT 或高效參數微調、使用 RLHF 校準人類演示或使用 NVIDIA 全新 SteerLM 技術。

NeMo 框架訓練容器提供了上述技術的易用腳本。我們還提供了各種工具,方便您進行數據整理、識別用于訓練和推理的最佳超參數,以及在您選擇的硬件(本地 DGX 云、支持 Kubernetes 的平臺或云服務提供商)上運行 NeMo 框架的工具。

更多信息,參見 NeMo 框架用戶指南(https://docs.nvidia.com/nemo-framework/user-guide/latest/index.html)或容器 README(https://registry.ngc.nvidia.com/orgs/ea-bignlp/containers/nemofw-training)。

Nemotron-3-8B 系列模型專為各種用例而設計,不僅在各種基準測試中表現出色,還支持多種語言。

GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會議中心舉行,線上大會也將同期開放。點擊“閱讀原文”掃描下方海報二維碼,立即注冊 GTC 大會


原文標題:NVIDIA AI Foundation Models:使用生產就緒型 LLM 構建自定義企業聊天機器人和智能副駕

文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    22

    文章

    3848

    瀏覽量

    91977

原文標題:NVIDIA AI Foundation Models:使用生產就緒型 LLM 構建自定義企業聊天機器人和智能副駕

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    英偉達推出基石世界模型Cosmos,解決智機器人具身智能訓練數據問題

    。Cosmos 世界基礎模型(WFM)使開發者能夠輕松生成大量基于物理學的逼真合成數據,以用于訓練和評估其現有的模型。開發者還可以通過微調 Cosmos WFM 構建自定義模型。 為加速機器人和自動駕駛
    的頭像 發表于 01-14 11:04 ?260次閱讀
    英偉達推出基石世界模型Cosmos,解決智<b class='flag-5'>駕</b>與<b class='flag-5'>機器人</b>具身<b class='flag-5'>智能</b>訓練數據問題

    自然語言處理在聊天機器人中的應用

    隨著人工智能技術的飛速發展,聊天機器人已經成為我們日常生活中不可或缺的一部分。從客戶服務到個人助理,聊天機器人的應用范圍越來越廣泛。這些機器人能夠理解用戶的查詢,并提供及時、準確的回答
    的頭像 發表于 12-05 15:24 ?575次閱讀

    NLP技術在聊天機器人中的作用

    聊天機器人,也稱為聊天AI,是一種通過文本或語音與人類進行交流的軟件。它們廣泛應用于客戶服務、在線購物、個人助理等領域。NLP技術是實現聊天機器人
    的頭像 發表于 11-11 10:33 ?519次閱讀

    ChatGPT 與傳統聊天機器人的比較

    近年來最受矚目的一個。 一、技術基礎 1.1 傳統聊天機器人 傳統聊天機器人通常基于規則引擎構建,這意味著它們通過預設的腳本和關鍵詞來響應用戶的輸入。這些機器人在處理特定、預
    的頭像 發表于 10-25 16:16 ?706次閱讀

    Meta將推出音頻版聊天機器人

    ,為旗下Meta AI聊天機器人注入明星之聲。這一音頻版本預計本周起在美國及全球其他英語市場率先上線,為用戶提供前所未有的語音交互體驗。
    的頭像 發表于 09-24 15:18 ?499次閱讀

    Meta關閉明星AI聊天機器人,轉向用戶自創AI工具

    7月31日,科技新聞源The Information透露,Meta已悄然終止了其備受矚目的明星AI聊天機器人項目。這些機器人曾因能夠模擬著名人物的性格特征并與用戶進行互動,在去年九月的Meta Connect大會上大放異彩。
    的頭像 發表于 07-31 16:16 ?730次閱讀

    NVIDIA NeMo加速并簡化自定義模型開發

    如果企業希望充分發揮出 AI 的力量,就需要根據其行業需求量身定制的自定義模型。
    的頭像 發表于 07-26 11:17 ?824次閱讀
    <b class='flag-5'>NVIDIA</b> NeMo加速并簡化<b class='flag-5'>自定義</b>模型開發

    NVIDIA AI Foundry 為全球企業打造自定義 Llama 3.1 生成式 AI 模型

    Foundry 提供從數據策管、合成數據生成、微調、檢索、防護到評估的全方位生成式 AI 模型服務,以便部署自定義 Llama 3.1 NVIDIA NIM 微服務和新的 NVIDIA
    發表于 07-24 09:39 ?743次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Foundry 為全球<b class='flag-5'>企業</b>打造<b class='flag-5'>自定義</b> Llama 3.1 生成式 <b class='flag-5'>AI</b> 模型

    AI聊天機器人Grok向歐洲X平臺Premium會員開放

    社交平臺X的首席執行官琳達·亞卡里諾宣布,全新研發的Grok人工智能聊天機器人正式向歐洲的X Premium會員提供服務。Grok是X平臺精心打造的一款AI聊天機器人,旨在提升歐洲會員
    的頭像 發表于 05-17 09:38 ?472次閱讀

    使用Ryzen ? AI處理器構建聊天機器人

    人工智能處理器和軟件將個人計算的強大功能帶到人工智能PC上,將工作、協作和創新的效率提升到一個全新的水平。???生成式AI應用程序(如AI聊天機器人
    的頭像 發表于 05-11 14:22 ?8341次閱讀
    使用Ryzen ? <b class='flag-5'>AI</b>處理器<b class='flag-5'>構建</b><b class='flag-5'>聊天機器人</b>

    揭秘聊天機器人的“大腦”-大語言模型

    如果說 AI 正處于改變歷史的“iPhone 時刻”,那么聊天機器人就是其首批熱門應用之一。
    的頭像 發表于 04-17 10:01 ?784次閱讀
    揭秘<b class='flag-5'>聊天機器人</b>的“大腦”-大語言模型

    Mistral AI發布旗艦大模型Mistral Large及聊天機器人Le Chat

    近日,歐洲人工智能領域的領軍企業Mistral AI發布了其旗艦大模型Mistral Large,并同步推出了首個聊天機器人產品Le Chat。這一重要進展標志著Mistral
    的頭像 發表于 03-04 14:04 ?932次閱讀

    英偉達引領AI新潮流,推出“Chat with RTX”聊天機器人

    隨著人工智能技術的突飛猛進,英偉達(NVIDIA)再次展現了其技術領導地位,為Windows PC用戶帶來了一款革命性的本地聊天機器人應用程序——“Chat with RTX”。這一創新應用的推出,不僅標志著人工
    的頭像 發表于 02-19 11:11 ?1074次閱讀

    英偉達推出全新AI聊天機器人

    近日,英偉達(Nvidia)宣布推出其全新的AI聊天機器人——“Chat With RTX”。這款聊天機器人被視為英偉達版的ChatGPT,為用戶提供了一個全新的、本地化的
    的頭像 發表于 02-19 11:09 ?1006次閱讀

    谷歌AI聊天機器人改名為Gemini

    谷歌(Google)近日宣布,旗下備受矚目的AI聊天機器人Bard正式更名為Gemini,并推出了一款功能更加強大的付費版本——Gemini Advanced。這一戰略調整旨在與微軟、OpenAI等科技巨頭在AI
    的頭像 發表于 02-18 11:28 ?1199次閱讀
    狮威百家乐官网赌场娱乐网规则| 百家乐龙虎| 德州扑克筹码定做| 百家乐官网网盛世三国| 澳门百家乐必赢看| 金臂百家乐官网开户送彩金| 门赌场百家乐的规则| 赌博网站| 博士百家乐现金网| 网上现金赌博游戏| 百家乐游戏机高手| 澳门赌场招聘| 玩百家乐会犯法吗| 百家乐博彩| ea百家乐系统| 百家乐官网的胜算法| 百家乐现金游戏注册送彩金| 东丰县| 百家乐记牌器| 在线百家乐官网代理| 百家乐官网现金网最好的系统哪里有可靠吗| 大发888加速器| 单耳房做生意的风水| 百家博国际娱乐城| 百家乐知识技巧玩法| 威尼斯人娱乐场图片| 百家乐官网视频造假| 大发888体育和娱乐| 百家乐官网真人赌场娱乐网规则 | 真人百家乐蓝盾娱乐网| 百家乐官网赌博是否违法| 威尼斯人娱乐骰宝| 斗地主百家乐官网的玩法技巧和规则 | 百家乐台布兄弟| 免费百家乐官网娱乐城| 百家乐平注法规则| 功夫百家乐官网的玩法技巧和规则| 鸿胜博娱乐| 百家乐网上真钱娱乐场开户注册| 百家乐官网透明出千牌靴| 九龙娱乐|