衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

簡(jiǎn)單三步使用OpenVINO?搞定ChatGLM3的本地部署

英特爾物聯(lián)網(wǎng) ? 來(lái)源:OpenVINO 中文社區(qū) ? 2024-04-03 18:18 ? 次閱讀

工具介紹

英特爾OpenVINO 工具套件是一款開(kāi)源AI推理優(yōu)化部署的工具套件,可幫助開(kāi)發(fā)人員和企業(yè)加速生成式人工智能 (AIGC)、大語(yǔ)言模型、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等 AI 工作負(fù)載,簡(jiǎn)化深度學(xué)習(xí)推理的開(kāi)發(fā)和部署,便于實(shí)現(xiàn)從邊緣到云的跨英特爾 平臺(tái)的異構(gòu)執(zhí)行。

ChatGLM3是智譜AI和清華大學(xué)KEG實(shí)驗(yàn)室聯(lián)合發(fā)布的對(duì)話預(yù)訓(xùn)練模型。ChatGLM3-6B是ChatGLM3系列中的開(kāi)源模型,在保留了前兩代模型對(duì)話流暢、部署門(mén)檻低等眾多優(yōu)秀特性的基礎(chǔ)上,ChatGLM3-6B引入了以下新特性:

1

更強(qiáng)大的基礎(chǔ)模型:

ChatGLM3-6B的基礎(chǔ)模型ChatGLM3-6B-Base采用了更多樣的訓(xùn)練數(shù)據(jù)、更充分的訓(xùn)練步數(shù)和更合理的訓(xùn)練策略。在語(yǔ)義、數(shù)學(xué)、推理、代碼、知識(shí)等不同角度的數(shù)據(jù)集上測(cè)評(píng)顯示,ChatGLM3-6B-Base具有在10B以下的預(yù)訓(xùn)練模型中領(lǐng)先的性能。

2

更完整的功能支持:

ChatGLM3-6B采用了全新設(shè)計(jì)的Prompt格式,除正常的多輪對(duì)話外,同時(shí)原生支持工具調(diào)用 (Function Call)、代碼執(zhí)行 (Code Interpreter) 和Agent任務(wù)等復(fù)雜場(chǎng)景。

3

更全面的開(kāi)源序列:

除了對(duì)話模型ChatGLM3-6B外,還開(kāi)源了基礎(chǔ)模型ChatGLM-6B-Base、長(zhǎng)文本對(duì)話模型ChatGLM3-6B-32K。以上所有權(quán)重對(duì)學(xué)術(shù)研究完全開(kāi)放,在填寫(xiě)問(wèn)卷進(jìn)行登記后亦允許免費(fèi)商業(yè)使用。

8c1a646e-f19a-11ee-a297-92fbcf53809c.png

圖:基于Optimum-intel與OpenVINO部署生成式AI模型流程

英特爾為開(kāi)發(fā)者提供了快速部署ChatGLM3-6B的方案支持。開(kāi)發(fā)者只需要在GitHub上克隆示例倉(cāng)庫(kù),進(jìn)行環(huán)境配置,并將Hugging Face模型轉(zhuǎn)換為OpenVINO IR模型,即可進(jìn)行模型推理。由于大部分步驟都可以自動(dòng)完成,因此開(kāi)發(fā)者只需要簡(jiǎn)單的工作便能完成部署,目前該倉(cāng)庫(kù)也被收錄在GhatGLM3的官方倉(cāng)庫(kù)和魔搭社區(qū)Model Card中,接下來(lái)讓我們一起看下具體的步驟和方法:

示例倉(cāng)庫(kù):

https://github.com/OpenVINO-dev-contest/chatglm3.openvino

官方倉(cāng)庫(kù):

https://github.com/THUDM/ChatGLM3?tab=readme-ov-file#openvino-demo

Model Card:

https://www.modelscope.cn/models/ZhipuAI/chatglm3-6b/summary#

1

模型轉(zhuǎn)換

當(dāng)你按倉(cāng)庫(kù)中的README文檔完成集成環(huán)境配置后,可以直接通過(guò)以下命令運(yùn)行模型轉(zhuǎn)換腳本:

python3 convert.py --model_id THUDM/chatglm3-6b –output {your_path}/chatglm3-6b-ov

該腳本首先會(huì)利用Transformers庫(kù)從Hugging Face的model hub中下載并加載原始模型的PyTorch對(duì)象,如果開(kāi)發(fā)者在這個(gè)過(guò)程中無(wú)法訪問(wèn)Hugging Face的model hub,也可以通過(guò)配置環(huán)境變量的方式,將模型下載地址更換為鏡像網(wǎng)站,并將convert.py腳本的model_id參數(shù)配置為本地路徑,具體方法如下:

$env:HF_ENDPOINT = https://hf-mirror.com
huggingface-cli download --resume-download --local-dir-use-symlinks False THUDM/chatglm3-6b --local-dir {your_path}/chatglm3-6b
python3 convert.py --model_id {your_path}/chatglm3-6b --output {your_path}/chatglm3-6b-ov

當(dāng)獲取PyTorch的模型對(duì)象后,該腳本會(huì)利用OpenVINO的PyTorch frontend進(jìn)行模型格式的轉(zhuǎn)換,執(zhí)行完畢后,你將獲取一個(gè)由.xml和.bin文件所構(gòu)成的OpenVINO IR模型文件,該模型默認(rèn)以FP16精度保存。

2

權(quán)重量化

該步驟為可選項(xiàng),開(kāi)發(fā)者可以通過(guò)以下腳本,將生成的OpenVINO模型通過(guò)權(quán)重量化策略,進(jìn)一步地壓縮為4-bits或者是8-bits的精度,以獲取更低的推理延時(shí)及系統(tǒng)資源占用。

python3 quantize.py --model_path {your_path}/chatglm3-6b-ov --precision int4 --output {your_path}/chatglm3-6b-ov-int4

執(zhí)行完畢后,你將獲得經(jīng)過(guò)壓縮后的IR模型文件,以INT4對(duì)稱(chēng)量化為例,該壓縮后的模型文件的整體容量大約為4GB左右。

8c3150b6-f19a-11ee-a297-92fbcf53809c.png

圖:量化后的OpenVINO模型文件

同時(shí)在量化結(jié)束后,亦會(huì)在終端上打印模型的量化比例,如下圖所示。

8c587254-f19a-11ee-a297-92fbcf53809c.png

圖:量化比例輸出

由于OpenVINO NNCF工具的權(quán)重壓縮策略只針對(duì)于大語(yǔ)言模型中的Embedding和Linear這兩種算子,所以該表格只會(huì)統(tǒng)計(jì)這兩類(lèi)算子的量化比例。其中ratio-defining parameter是指我們提前通過(guò)接口預(yù)設(shè)的混合精度比例,也就是21%權(quán)重以INT8表示,79%以INT4表示,這也是考慮到量化對(duì)ChatGLM3模型準(zhǔn)確度的影響,事先評(píng)估得到的配置參數(shù),開(kāi)發(fā)者亦可以通過(guò)這個(gè)示例搜索出適合其他模型的量化參數(shù)。此外鑒于第一層Embedding layer和模型最后一層操作對(duì)于輸出準(zhǔn)確度的影響,NNCF默認(rèn)會(huì)將他們以INT8表示,這也是為何all parameters中顯示的混合精度比例會(huì)有所不同。當(dāng)然開(kāi)發(fā)者也可以通過(guò)nncf.compress_weights接口中設(shè)置all_layers=True,開(kāi)關(guān)閉該默認(rèn)策略。

示例:

https://github.com/openvinotoolkit/nncf/tree/develop/examples/llm_compression/openvino/tiny_llama_find_hyperparams

3

模型轉(zhuǎn)換

最后一步就是模型部署了,這里展示的是一個(gè)Chatbot聊天機(jī)器人的示例,這也是LLM應(yīng)用中最普遍,也是最基礎(chǔ)的pipeline,而OpenVINO可以通過(guò)Optimum-intel工具為橋梁,復(fù)用Transformers庫(kù)中預(yù)置的pipeline,因此在這個(gè)腳本中我們會(huì)對(duì)ChatGLM3模型再做一次封裝,以繼承并改寫(xiě)OVModelForCausalLM類(lèi)中的方法,實(shí)現(xiàn)對(duì)于Optimum-intel工具的集成和適配。以下為該腳本的運(yùn)行方式:

python3 chat.py --model_path {your_path}/chatglm3-6b-ov-int4 --max_sequence_length 4096 --device CPU

如果開(kāi)發(fā)者的設(shè)備中包含英特爾的GPU產(chǎn)品,例如Intel ARC系列集成顯卡或是獨(dú)立顯卡,可以在這個(gè)命令中將device參數(shù)改為GPU,以激活更強(qiáng)大的模型推理能力。

在終端里運(yùn)行該腳本后,會(huì)生成一個(gè)簡(jiǎn)易聊天對(duì)話界面,接下來(lái)你就可以驗(yàn)證它的效果和性能了。

總結(jié)

通過(guò)模型轉(zhuǎn)換、量化、部署這三個(gè)步驟,我們可以輕松實(shí)現(xiàn)在本地PC上部署ChatGLM3-6b大語(yǔ)言模型,經(jīng)測(cè)試該模型可以流暢運(yùn)行在最新的Intel Core Ultra異構(gòu)平臺(tái)及至強(qiáng)CPU平臺(tái)上,作為眾多AI agent和RAG等創(chuàng)新應(yīng)用的核心基石,大語(yǔ)言模型的本地部署能力將充分幫助開(kāi)發(fā)者們打造更安全,更高效的AI解決方案。


審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1796

    文章

    47666

    瀏覽量

    240286
  • 計(jì)算機(jī)視覺(jué)

    關(guān)注

    8

    文章

    1700

    瀏覽量

    46127
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    808

    瀏覽量

    13360
  • OpenVINO
    +關(guān)注

    關(guān)注

    0

    文章

    95

    瀏覽量

    228

原文標(biāo)題:簡(jiǎn)單三步使用OpenVINO? 搞定ChatGLM3的本地部署 | 開(kāi)發(fā)者實(shí)戰(zhàn)

文章出處:【微信號(hào):英特爾物聯(lián)網(wǎng),微信公眾號(hào):英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    用Ollama輕松搞定Llama 3.2 Vision模型本地部署

    Ollama 是一個(gè)開(kāi)源的大語(yǔ)言模型服務(wù)工具,它的核心目的是簡(jiǎn)化大語(yǔ)言模型(LLMs)的本地部署和運(yùn)行過(guò)程,請(qǐng)參考《Gemma 2+Ollama在算力魔方上幫你在LeetCode解題》,一條命令完成
    的頭像 發(fā)表于 11-23 17:22 ?1643次閱讀
    用Ollama輕松<b class='flag-5'>搞定</b>Llama 3.2 Vision模型<b class='flag-5'>本地</b><b class='flag-5'>部署</b>

    使用OpenVINO Model Server在哪吒開(kāi)發(fā)板上部署模型

    OpenVINO Model Server(OVMS)是一個(gè)高性能的模型部署系統(tǒng),使用C++實(shí)現(xiàn),并在Intel架構(gòu)上的部署進(jìn)行了優(yōu)化,使用OpenVINO 進(jìn)行推理,推理服務(wù)通過(guò)gP
    的頭像 發(fā)表于 11-01 14:19 ?353次閱讀
    使用<b class='flag-5'>OpenVINO</b> Model Server在哪吒開(kāi)發(fā)板上<b class='flag-5'>部署</b>模型

    使用OpenVINO C++在哪吒開(kāi)發(fā)板上推理Transformer模型

    OpenVINO 是一個(gè)開(kāi)源工具套件,用于對(duì)深度學(xué)習(xí)模型進(jìn)行優(yōu)化并在云端、邊緣進(jìn)行部署。它能在諸如生成式人工智能、視頻、音頻以及語(yǔ)言等各類(lèi)應(yīng)用場(chǎng)景中加快深度學(xué)習(xí)推理的速度,且支持來(lái)自 PyTorch
    的頭像 發(fā)表于 10-12 09:55 ?432次閱讀
    使用<b class='flag-5'>OpenVINO</b> C++在哪吒開(kāi)發(fā)板上推理Transformer模型

    使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

    前面我們分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日,Meta又發(fā)布了Llama3.2:一個(gè)多語(yǔ)言大型語(yǔ)言模型(LLMs)的集合。
    的頭像 發(fā)表于 10-12 09:39 ?709次閱讀
    使用<b class='flag-5'>OpenVINO</b> 2024.4在算力魔方上<b class='flag-5'>部署</b>Llama-3.2-1B-Instruct模型

    入門(mén)級(jí)攻略:如何容器化部署微服務(wù)?

    第一理解容器化基礎(chǔ),第二創(chuàng)建Dockerfile,第三步構(gòu)建推送鏡像,第四部署微服務(wù),第五
    的頭像 發(fā)表于 10-09 10:08 ?205次閱讀

    行代碼完成生成式AI部署

    LLM加載與推理部署能力,實(shí)現(xiàn)了OpenVINO對(duì)CNN網(wǎng)絡(luò)、生成式模型、LLM網(wǎng)絡(luò)主流模型的全面推理支持。
    的頭像 發(fā)表于 08-30 16:49 ?467次閱讀
    <b class='flag-5'>三</b>行代碼完成生成式AI<b class='flag-5'>部署</b>

    使用OpenVINO C# API部署YOLO-World實(shí)現(xiàn)實(shí)時(shí)開(kāi)放詞匯對(duì)象檢測(cè)

    的快速準(zhǔn)確識(shí)別,并通過(guò)AR技術(shù)將虛擬元素與真實(shí)場(chǎng)景相結(jié)合,為用戶(hù)帶來(lái)沉浸式的交互體驗(yàn)。在本文中,我們將結(jié)合OpenVINO C# API使用最新發(fā)布的OpenVINO 2024.0部署 YOLO-World實(shí)現(xiàn)實(shí)時(shí)開(kāi)放詞匯對(duì)象檢
    的頭像 發(fā)表于 08-30 16:27 ?859次閱讀
    使用<b class='flag-5'>OpenVINO</b> C# API<b class='flag-5'>部署</b>YOLO-World實(shí)現(xiàn)實(shí)時(shí)開(kāi)放詞匯對(duì)象檢測(cè)

    chatglm2-6b在P40上做LORA微調(diào)

    背景: 目前,大模型的技術(shù)應(yīng)用已經(jīng)遍地開(kāi)花。最快的應(yīng)用方式無(wú)非是利用自有垂直領(lǐng)域的數(shù)據(jù)進(jìn)行模型微調(diào)。chatglm2-6b在國(guó)內(nèi)開(kāi)源的大模型上,效果比較突出。本文章分享的內(nèi)容是用
    的頭像 發(fā)表于 08-13 17:12 ?559次閱讀
    <b class='flag-5'>chatglm</b>2-6b在P40上做LORA微調(diào)

    OpenVINO C# API在intel平臺(tái)部署YOLOv10目標(biāo)檢測(cè)模型

    的模型設(shè)計(jì)策略,從效率和精度兩個(gè)角度對(duì)YOLOs的各個(gè)組成部分進(jìn)行了全面優(yōu)化,大大降低了計(jì)算開(kāi)銷(xiāo),增強(qiáng)了性能。在本文中,我們將結(jié)合OpenVINO C# API使用最新發(fā)布的OpenVINO 2024.1部署YOLOv10目標(biāo)檢
    的頭像 發(fā)表于 06-21 09:23 ?1160次閱讀
    用<b class='flag-5'>OpenVINO</b> C# API在intel平臺(tái)<b class='flag-5'>部署</b>YOLOv10目標(biāo)檢測(cè)模型

    【AIBOX上手指南】快速部署Llama3

    Firefly開(kāi)源團(tuán)隊(duì)推出了Llama3部署包,提供簡(jiǎn)易且完善的部署教程,過(guò)程無(wú)需聯(lián)網(wǎng),簡(jiǎn)單快捷完成本地
    的頭像 發(fā)表于 06-06 08:02 ?791次閱讀
    【AIBOX上手指南】快速<b class='flag-5'>部署</b>Llama<b class='flag-5'>3</b>

    簡(jiǎn)單三步!高效預(yù)測(cè)半導(dǎo)體器件使用壽命

    電力電子元器件已經(jīng)成為現(xiàn)代電子系統(tǒng)中重要的組成部件,同時(shí),元器件的熱性能將大大影響整體設(shè)備的可靠性。庭田科技提供的POWERTESTER測(cè)試平臺(tái),在不破壞待測(cè)器件的前提下,僅需三步,即可高效安全
    的頭像 發(fā)表于 05-30 10:31 ?527次閱讀

    【AIBOX】裝在小盒子的AI足夠強(qiáng)嗎?

    Firefly推出大語(yǔ)言模型本地部署的產(chǎn)品:AIBOX-1684X,目前已適配主流的大語(yǔ)言模型,包括ChatGLM3-6B,以下是ChatGLM3在AIBOX-1684X上的實(shí)機(jī)演示
    的頭像 發(fā)表于 05-15 08:02 ?513次閱讀
    【AIBOX】裝在小盒子的AI足夠強(qiáng)嗎?

    Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

    Llama3 是Meta最新發(fā)布的開(kāi)源大語(yǔ)言模型(LLM), 當(dāng)前已開(kāi)源8B和70B參數(shù)量的預(yù)訓(xùn)練模型權(quán)重,并支持指令微調(diào)。
    的頭像 發(fā)表于 05-10 10:34 ?1167次閱讀
    Optimum Intel<b class='flag-5'>三步</b>完成Llama<b class='flag-5'>3</b>在算力魔方的<b class='flag-5'>本地</b>量化和<b class='flag-5'>部署</b>

    簡(jiǎn)單使用OpenVINO?搞定Qwen2的量化與部署任務(wù)

    英特爾 OpenVINO? 工具套件是一款開(kāi)源 AI 推理優(yōu)化部署的工具套件,可幫助開(kāi)發(fā)人員和企業(yè)加速生成式人工智能 (AIGC)、大語(yǔ)言模型、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等 AI 工作負(fù)載,簡(jiǎn)化深度學(xué)習(xí)推理的開(kāi)發(fā)和部署,便于實(shí)現(xiàn)從
    的頭像 發(fā)表于 04-26 09:39 ?1841次閱讀
    <b class='flag-5'>簡(jiǎn)單</b>兩<b class='flag-5'>步</b>使用<b class='flag-5'>OpenVINO</b>?<b class='flag-5'>搞定</b>Qwen2的量化與<b class='flag-5'>部署</b>任務(wù)

    英特爾集成顯卡+ChatGLM3大語(yǔ)言模型的企業(yè)本地AI知識(shí)庫(kù)部署

    在當(dāng)今的企業(yè)環(huán)境中,信息的快速獲取和處理對(duì)于企業(yè)的成功至關(guān)重要。為了滿足這一需求,我們可以將RAG技術(shù)與企業(yè)本地知識(shí)庫(kù)相結(jié)合,以提供實(shí)時(shí)的、自動(dòng)生成的信息處理和決策支持。
    的頭像 發(fā)表于 03-29 11:07 ?880次閱讀
    英特爾集成顯卡+<b class='flag-5'>ChatGLM3</b>大語(yǔ)言模型的企業(yè)<b class='flag-5'>本地</b>AI知識(shí)庫(kù)<b class='flag-5'>部署</b>
    百家乐官网大小桌布| 百家乐翻天粤语qvod| 澳门百家乐官网现场视频| 博马百家乐官网娱乐城| 南京百家乐官网赌博现场被抓 | 望都县| 网上百家乐怎么破解| 大三元百家乐的玩法技巧和规则| 威尼斯人娱乐城真钱赌博| 金木棉百家乐的玩法技巧和规则| 大发888下载 客户端| 真人游戏试玩| 戰神国际娱乐城| 百家乐官网现金网排名| 百家乐官网送现金200| 百家乐在线投注系统| 电脑百家乐的玩法技巧和规则 | 太阳城娱乐城备用网址| 棋牌类单机游戏下载| 青冈县| 百家乐实时路单| 大发888官方 论坛| 百家乐官网真人真钱| 网上百家乐官网开户送现金| 百家乐官网免费注册| 金沙百家乐娱乐城场| 大发888官网 平台| 3U百家乐官网游戏| 皇冠网百家乐官网啊| 全迅网百家乐的玩法技巧和规则| 大发888娱乐场下载lm0| 澳门百家乐官网娱乐城送体验金| 百家乐所有技巧| 大发888体育娱乐场| 百家乐官网庄闲和的概率| 百家乐平注法到| 广州百家乐官网赌场| 百家乐翻天片尾曲| bet365维护| 赌百家乐的高手| 永利博线上娱乐城|