阿里云機器學習研究員對大規模機器學習實踐的見解

近年來，機器學習技術的發展歸因于我們有極其龐大的數據用來訓練算法。當企業需要落地大規模機器學習時，往往會面臨很多難題，如何解決這些問題？如何系統了解大規模機器學習落地的技巧？其適用場景是什么？InfoQ 希望通過該選題解決這些問題，并推動企業在大規模機器學習方面的實踐。本文，InfoQ 有幸采訪了阿里云機器學習研究員林偉，聽他分享自己的經驗和見解。

何為大規模機器學習

毫無疑問，我們已經邁入人工智能時代，機器學習幾乎滲透了我們日常生活和工作的方方面面，創建深度學習模型越來越容易，但大規模工業部署卻依然沒有那么容易，第一現在模型變得越來越大，越來越深，需要強大算力和海量的數據才能夠支撐訓練出更好的模型；第二模型訓練出來需要在推理的時候高效的執行才能真正讓模型落地，這個里面就需要非常多系統工程優化，以及模型和工程一起的協同優化。當然并不是模型越大，訓練效果就會一定好，模型本身的提高以及訓練方式都決定了最終模型實際效果，這就需要我們也在算法，訓練手段層面的突破。

對眾多深度學習開發者而言，只要擁有一張 GPU 卡，很多流行的 AI 模型都可以得以訓練。但對公司而言，隨著業務需求的提高、精度要求的提高，就會面臨更大模型、更多數據訓練的需求，此時就需要更強大分布式訓練平臺以適應大規模的訓練的需求，同時因為數據量增加，我們需要讓 AI 訓練和大數據平臺結合起來，從而滿足算法研究者各種數據組合加工，嘗試不同訓練方式，從而能夠快速迭代模型，提高模型的精度。

那么，何為大規模機器學習有明確的界定嗎？

采訪中，林偉表示，我們所說的“大規模”可以解釋為需要幾千臺機器、幾千個工作者一起協同訓練，也可以理解為多硬件資源，比如 GPU。

在阿里巴巴內部，林偉所在團隊訓練過非常大規模的稀疏網絡，這類模型很容易大，而且更多偏向于推薦、搜索等信息流類型，往往需要幾千個工作者的協同訓練。同時對于稠密網絡，比如感知類的 AI 網絡，比如視覺、語音、自然語言處理現在也在變得越來越大，也需要要幾十張到幾百張卡一起訓練。

如何設計相對完善的機器學習平臺

根據林偉介紹，一個大規模的機器學習平臺首先要具備優秀的調度能力，并非所有任務每天都需要大量資源，但要保證極限情況下的承受能力足夠強，而所需資源不多時又可及時釋放。所以，大部分機器學習平臺都是從小規模逐漸做起來的，這個過程會積累一些能力，比如沉淀一些框架和平臺，或者幫助開發者做分布式訓練等。

阿里最近推出了機器學習平臺 PAI 的 DSW，其托管在云平臺之上，非常方便，開發者可隨時打開 IDE，該平臺可自動保存工作內容，然后可以快速開發。如果開發者覺得模型基本完成，希望無感知提交到更大的集群中時就涉及關于模型的開發。

模型離不開數據，在數據處理中，開發人員需要有配套的大數據處理能力，需要對數據進行清洗和提純，這就要求平臺需要具備大數據能力，這也是為什么計算平臺會把 AI 和大數據作為兩大引擎，因為彼此之間需要交互。同時，平臺上訓練出的模型需要在業務中達到一定效果，比如讓服務做到低延時、高吞吐，保證服務發布、更新、迭代、切換以及報警、監控等。

事實上，AI 屬于計算密集型任務，需要大量數據交互，所以分配資源的時候要根據任務大小來考慮如何對應到底層硬件的拓撲結構上，使之能夠充分利用異構特性完成整個過程，我們能夠充分利用系統對訓練任務的理解，有效調度不同部分到不同的資源上面，充分地利用多種硬件資源，發揮系統的最高效率。

此外，要考慮容錯，因為過大的集群經常容易發生錯誤，機器并不是永動機，隨時可能出現問題，軟件也不能保證沒有 bug，容錯需要和調度系統配合在一起。

在這個流程中，為了提高效率，還需要配備各種性能優化和加速工具，包括推理、量化、壓縮、蒸餾等，這些工具彼此之間的連接也是平臺需要做的事情。

總之，AI 工程非常復雜，牽涉很多環節。

阿里大規模機器學習實踐

回顧阿里的機器學習研發之路，林偉表示，與所有事物的發展過程一樣。起初都是希望通過各種技術手段提升商業效果，當時阿里內部各個部門都有自己的算法團隊，從集團的橫向層面來看，這種煙囪式結構是比較低效的，因此希望沉淀出一些通用能力，這就是 PAI 的前身。

那時，深度學習還沒有火起來，更多的是傳統機器學習、傳統的訓練模型或者統計算法，阿里希望能夠復用這些算法，進而提高整個集團的研發效率，于是就推出了?PAI-Studio，其實就是把算法沉淀為組件，在數據處理和算法之間做串聯，使之能夠圖形化管理，這是 PAI-Studio1.0 時代，這個時代就是更好的把工作流程串成可視化的圖。

隨著深度學習的出現，業界開始出現形形色色的算法。此時，阿里希望可以把深度學習的能力做起來，因為阿里內部有大量數據，特別是核心電商領域，由于數據量過于龐大，開源引擎的問題開始暴露出來，會遇到各種各樣規模性問題，這促使阿里在這方面走得很快。

隨著優化的逐漸深入，大家已經開始應用深度學習做感知類應用。在這種情況下，阿里自研的機器學習引擎在外面也是有市場的。阿里開始對外輸出，服務更多的企業客戶。

一直以來，林偉認為做系統的人可以分為三類：第一類是做出來的系統可以解決業務問題；第二類是做出來的系統可以在未來 5 年持續不斷地在原來的設計上疊加新功能，并且具備一定可擴展性，這樣的系統具備一定生命力；第三類是通過一些部分的重構和變革，可以讓系統隨著業務規模的增長持續發展，這一類是最強的也是最難的，基于這些想法，林偉整個團隊不斷迭代機器學習平臺 PAI，并且在阿里巴巴內部業務和外部業務均取得了不錯的效果。

機器學習 PAI 平臺的目的是希望算法開發同學能夠更加高效地開發應用算法，幫開發者做到更好的性能，更大規模和更低成本的訓練。

在阿里巴巴內部，業務場景數量很多，數據規模也很大，這讓我們能夠訓練出一些有效模型。但這些訓練模型往往需要很多異構機器協同，我們會搭建一個很大的共享平臺，讓形形色色的任務都在平臺上跑，最大的任務可能要處理 TB 級別的數據。如何讓訓練任務跑得起來，在需要共享的集群里面做好調度和系統配合，使得我們充分利用這些資源提高集群效率，是我們整個平臺的愿景。

最開始，PAI 在 Studio 方面做得比較多，林偉整個團隊將阿里巴巴的 AI 能力以 Studio 的模式開放出去。其中包括智能數據標注、可視化建模、在線預測部署等全托管的 AI 工程服務

最近這一年，PAI 更加注重云原生，與 K8s 等進行了緊密結合，使服務能夠對云上的客戶體系更加規則。包括云原生交互式開發平臺 PAI-DSW，以及云原生分布式深度學習訓練平臺 PAI-DLC

另外，林偉帶領團隊在使用體驗上不斷投入，包括產品的易用性和敏捷性，以及 Open API ，希望可以幫助更多個人和小型企業慢慢成長。

PAI 同樣是一個開放的平臺，在深度學習框架這層一直是擁抱開源、兼容生態，比如會在開源的 TF 框架下面做優化，同時將更改及時提交到開源社區，也與 Facebook 形成戰略合作，推動有關 Pytorch 的一系列優化想法。在開源開放層面，開源的 ALink 與 Flink 形成數據和算法的有效結合。如今，阿里在集群管理層面也開始參與到 K8s 社區，希望有更多貢獻。

實踐建議

如果企業希望內部實踐大規模機器學習平臺，林偉建議，在人才層面，想要構建大規模機器學習平臺需要對業務有所理解，算法團隊需要具備一些基本功，雖然現在的機器學習沒有傳統的機器學習對算法要求那么高，但迭代模型還是需要建立在對算法、數據、模型原理的理解上，并且需要具備一定數學基礎。

在工程上面，林偉表示，工程是模型落地、產業化很重要的一環，企業需要深入考慮各種引擎的優劣，挑選適合自己需求的，可能是研發為主，也可能是效率或者模型很大的情況下需要分布式的訓練、服務和推理平臺等。

同時，AI 工程比較復雜，不僅局限于訓練和推理，還需要關注數據的處理，現在業界也有很多做深度學習的企業，如果具備有算法團隊，再加上開源框架，單機或許就可以訓練模型，這種方式遇到大規模訓練的時候，其實是有很多挑戰的，最開始碰到的可能是數據問題，數據該怎么管，怎么樣存、再往后可能就是訓練的問題，所以是否可以有效管理并探索出適合自己的方向，可能是比較重要的事情。

“我不是打廣告，我覺得選擇云平臺最終可以幫助企業提高效率、節省成本，并且開發人員應該把自己的關注點放在業務相關的算法層面，這一層其實有大量發展空間。同時，因為阿里云兼容各類生態和標準，因此也不存在綁定問題，不滿意隨時可以搬下去，但上云確實是業界的趨勢。”

初始上云時，企業可能在考慮與使用物理機相比到底有沒有競爭力，但從長遠來看，云平臺提供的彈性和靈活等特性會大大節省成本。而且，對于有技術夢想的公司來說，云平臺其實有很多想象和實驗的空間，企業可以根據自己的需求選擇不同層次的 API，接入不同的能力，然后提高自己公司的生產效率，更好地應對業務發展。

結束語

在過往 15 年分布式系統的從業生涯中，林偉同樣見證了開發者生產力被一步步解放的過程，自從云計算、人工智能等新興技術出現，市面上不時就可以聽到開發者對這些技術將取代人工的擔憂。

對此，林偉表示，其實你從另一個層面來看就會發現技術的世界一直在更新換代，以操作系統為例，當 Linux 和 Windows 占據上風之后，其他操作系統都慢慢消失了，那曾經的這群開發者去哪里了呢？要么積極加入到 Linux 和 Windows 的開發中，要么擁抱新的技術變化，去看看下一個技術熱點是什么。事實上，每一個業務場景發生變化的時候，都可能是新的機會，可以嘗試做下一波要爆發的技術，從中獲得的滿足感將會很大。

對于做平臺的研發人員而言，只要場景清晰了，就會開始沉淀，但肯定也會有一些混沌的、未知的領域，這些地方就會有大量新的思路和想法出現，身處其中的每個人都在發揮自己的長處，然后慢慢沉淀。

嘉賓介紹：

林偉，阿里云機器學習研究員，對大規模并發系統有 10 年以上的系統架構設計及研發經驗，并在國際一流 ODSI、NSDI、SIGMOD 會議上多次發表論文。原微軟大數據平臺組的核心成員，曾在微軟亞洲搜索技術中心和微軟美國工作 10 年，一直從事分布式系統開發和大數據平臺的相關工作。

閱讀全文

人工智能(229987) 人工智能(229987)
機器學習(130423) 機器學習(130423)
阿里云(42579) 阿里云(42579)

專注AI和機器學習蘋果擴大西雅圖AI團隊規模

2月24日消息，據國外媒體報道，蘋果的西雅圖辦事處將在面積和勞動力方面擴大規模，專注于人工智能和機器學習技術。蘋果機器學習總監Carlos Guestrin告訴美國科技媒體GeekWire，我們正在尋找最優秀的人工智能和機器學習領域人才，能夠激發研究和長期思考，將這些想法帶入到產品中。

2017-02-24 13:40:31

2277

2016機器學習行業應用國際峰會：唯「智」者，「造」未來

？　　在此大背景下，IBM與CDA數據分析研究院共同舉辦題為《唯「智」者，「造」未來》的機器學習行業應用國際峰會，將于2016年11月22日在北京?北大博雅國際酒店舉行。屆時，包括人工智能研究院、工信部在內

2016-11-08 17:51:49

大規模特征構建實踐總結

背景一般大公司的機器學習團隊，才會嘗試構建大規模機器學習模型，如果去看百度、頭條、阿里等分享，都有提到過這類模型。當然，大家現在都在說深度學習，但在推薦、搜索的場景，據我所知，ROI并沒有很高，大家

2018-11-19 09:35:28

學習阿里云架構選擇哪家培訓機構好？

　　學習阿里云架構選擇哪家培訓機構好?在這個問題上，我們一定要加以重視，千萬不能盲目選擇。一方面浪費金錢，另一方面更耗費我們的時間和精力。如果您有意向學習，也可以走進老男孩教育課堂免費試聽，滿意之后

2017-12-20 15:31:19

機器學習實踐指南——案例應用解析

2018-04-13 16:40:58

機器學習與軟件平臺的融合

本文將探討機器學習與軟件平臺的融合。

2021-01-28 06:36:35

機器學習在醫療保健中有哪些應用？

全球醫療保健行業正在蓬勃發展。根據最近的研究，盡管經濟前景疲軟和全球貿易緊張局勢，今年有望突破2萬億美元大關。一般來說，人類壽命更長，更健康。人們對器官捐贈的認識有所提高。機器人用于膽囊切除術

2020-11-24 07:15:44

機器學習在即時配送領域的應用

機器學習在美團配送系統的實踐：用技術還原真實世界

2019-10-09 06:10:38

機器學習對中文的理解

機器學習基礎教程實踐(一)——中文的向量化

2019-08-27 14:19:29

機器學習的創新/開發和應用能力

機器學習的未來在工業領域采用機器學習機器學習和大數據工業人工智能生態系統

2020-12-16 07:47:35

機器學習的基礎內容

文章目錄前言一、pandas是什么？二、使用步驟1.引入庫2.讀入數據總結前言提示：這里可以添加本文要記錄的大概內容：例如：隨著人工智能的不斷發展，機器學習這門技術也越來越重要，很多人都開啟了學習機器

2021-08-20 08:07:49

機器學習的基礎內容

系列文章目錄提示：這里可以添加系列文章的所有文章的目錄，目錄需要自己手動添加例如：第一章 Python 機器學習入門之pandas的使用提示：寫完文章后，目錄可以自動生成，如何生成可參考右邊的幫助

2022-02-09 06:47:38

機器學習的基礎內容

：隨著人工智能的不斷發展，機器學習這門技術也越來越重要，很多人都開啟了學習機器學習，本文就介紹了機器學習的基礎內容。提示：以下是本篇文章正文內容，下面案例可供參考一、hc6800-es v2.0示例：pandas 是基于NumPy 的一種工具，該工具是為了解決數據分析任務而創建的。二、使用步

2021-11-24 06:00:24

機器學習的基礎內容介紹

2022-01-12 08:12:18

機器學習的基礎內容大合集

，機器學習這門技術也越來越重要，很多人都開啟了學習機器學習，本文就介紹了機器學習的基礎內容。提示：以下是本篇文章正文內容，下面案例可供參考一、位帶操作二、使用步驟1.引入庫代碼如下（示例）：import numpy as npimport pandas as pdimport

2022-01-07 06:35:58

機器學習的基礎內容匯總

人工智能的不斷發展，機器學習這門技術也越來越重要，很多人都開啟了學習機器學習，本文就介紹了機器學習的基礎內容。提示：以下是本篇文章正文內容，下面案例可供參考一、pandas是什么？示例：pandas 是基于NumPy 的一種工具，該工具是為了解決數據分析任務而創建的。二、使用步驟1.引入庫代碼

2022-02-28 06:12:58

機器學習的未來

機器學習的未來在工業領域采用機器學習機器學習和大數據

2021-01-27 06:02:18

機器學習的相關資料下載

https://www.toutiao.com/a6712245202418926083/機器學習最重要的應用之一是嵌入式機器視覺領域，各類系統正在從視覺使能系統演進為視覺引導自動化系統。嵌入式視覺

2021-12-14 07:03:28

機器學習簡介與經典機器學習算法人才培養

準備：Office-31、IRVI、GTA5、Cityscapes、Foggy cityscapes等注：硬件準備由主辦方提供云服務器九、實驗實操之深度遷移學習實踐掌握PyTorch中的基本原理和編程

2022-04-28 18:56:07

機器學習算法如何用于制造無人駕駛汽車？

機器學習算法如何用于制造無人駕駛汽車

2021-03-18 06:27:18

機器學習訓練秘籍——吳恩達

文提到的一些概念你還不是很熟悉，可以在 Coursera 觀看《機器學習》前三周的課程內容。（課程地址：http://ml-class.org）4 規模驅動機器學習發展關于深度學習（神經網絡）的一些想法在

2018-11-30 16:45:03

機器人技術和機器學習

機器人技術和機器學習正成為嵌入式系統硬件和軟件供應商的下一個重大事件。嵌入式系統可以通過網絡連接和物聯網（IoT）來傳遞信息、共享資源。無論是智能，低能耗，邊緣設備，中間網關還是計算節點，都需要

2021-12-20 06:03:10

機器人控制的入門經驗

對于工科領域來說，脫離實踐的學習都是膚淺的，對于控制這種強調經驗的技術更是如此。如果去問一個程序員怎么學習一塊技術，他必然讓你去多編程。機器人領域也是。如果想把基本功打扎實，那么實踐更是必不可少

2019-05-24 07:43:22

機器人工程師學習計劃

如何定義機器人？機器人工程師學習計劃分享

2021-12-20 06:11:57

阿里云免費使用及手冊

.................................................... 5超大規模數據中心遍布全球 .......................................... 55 大優勢，助客戶從0 搭建到秒級部署云環境

2018-05-10 21:17:45

阿里云在LC3大會上透露未來要做的兩件事

摘要：阿里云研究員褚霸在LC3大會上同多位業界資深大咖同臺交流表示，阿里云發展到今天，把過去應對淘寶、天貓大規模計算以及雙11的計算能力轉換成普惠的能力放在云上，這是一個非常大的挑戰，也是其他廠商

2018-07-02 15:27:20

阿里云攜領先SDN能力，亮相全球網絡技術盛會ONS

的網絡等今年的ONS上，阿里云首次深度參與大會的技術交流與分享，向參會者展示了網絡領域，特別是在虛擬網絡SDN方面的產品和技術能力。網絡研發事業部高級研究員蔡依群在主論壇上做了主題演講《構建透明

2018-04-17 12:56:25

阿里機器智能11個經典實戰案例

傳統程序員如何學習機器智能？阿里公開11個經典實戰案例

2019-09-19 08:11:04

阿里巴巴統一的超大規模數據計算平臺MaxCompute的探索與實踐

阿里關濤談大規模計算—從數字化阿里到數字化城市的進化

2019-05-16 07:46:04

阿里深度學習的“金剛鉆”——千億特征XNN算法及其落地實踐

博士，2016年加入阿里巴巴，現主要從事推薦系統特征、模型、架構和大規模機器學習框架的研發工作。以下內容根據演講嘉賓視頻分享以及PPT整理而成。本次分享的主要圍繞以下三個方面：一．業務背景二．XPS機器學習

2018-04-24 16:43:39

Labview機器學習

請問Labview機器學習工具箱里有SVM，BP等工具，如果自己用SVR做了一個回歸，可以用Labview實現嗎？這方面的小白，跟各位老師請教一下

2019-10-28 11:11:09

MATLAB圖像處理及機器學習入門交流

深度學習交流大群： 372526178 （課件資料共享，加群備注楊春嬌邀請）MATLAB與機器學習大群: 626611806 （加群備注楊春嬌邀請）

2018-09-12 10:44:56

Microchip的機器學習開發工具有哪些

Microchip的機器學習開發工具

2020-11-25 07:58:55

tensorflow機器學習日志

tensorflow學習日志(四)機器學習（泛化,過擬合, 數據集，驗證集，測試集）

2020-04-14 06:32:33

【阿里云大學免費精品課】機器學習入門：概念原理及常用算法

摘要：阿里云大學聯合螞蟻金服高級算法專家推出了免費的機器學習入門課程：機器學習入門：概念原理及常用算法（點擊開始學習） AlaphaGo與圍棋界的較量，吸引了全世界的目光，也讓大家見識到了機器

2017-06-23 13:51:15

【下載】《機器學習》+《機器學習實戰》

強化學習等.下載鏈接：[hide][/hide]2.機器學習實戰簡介：機器學習是人工智能研究領域中一個極其重要的研究方向，在現今的大數據時代背景下，捕獲數據并從中萃取有價值的信息或模式，成為各行業求生存

2017-06-01 15:49:24

【第一屆中國AI與機器學習研討會】微軟領銜人工智能大咖共同探討AI與機器學習

中國市場總監柯川、Xilinx、高通和中科院先進研究院研究員馮圣中等各界專家，現場為您解讀當前人工智能與機器學習領域的市場趨勢、商機、開發挑戰和解決方案。 -活動時間- 2018年3月29日 13

2018-03-15 15:28:26

上海皇華芯片代理：如何減少機器學習的碳足跡

，這也很簡單，只需要將訓練/推理的時長x處理器數量x每個處理器的平均功耗xPUEx每千瓦時的二氧化碳排放即可。除了最后一項參數需要從數據中心那獲取外，其他的數據基本都是公開，或取決于機器學習研究者自己

2022-09-14 14:57:17

人工智能和機器學習的前世今生

摘要：閱讀本文以了解更多關于人工智能、機器學習和深度學習方面的知識，以及它們對商業化意味著什么。如果正確的利用模式識別進行商業預測和決策，那么會為企業帶來巨大的利益。機器學習（ML）研究這些模式

2018-08-27 10:16:55

什么是機器學習? 機器學習基礎入門

大規模工作負載的云計算事實上，這個領域已經如此專注于桌面和基于云計算的應用，以至于許多嵌入式工程師沒有太多考慮機器學習如何影響他們。大多數情況下，并沒有。然而，隨著 TinyML 或微型機器學習(在

2022-06-21 11:06:37

介紹機器學習的基礎內容

嵌入式系統之硬件總復習提示：這里可以添加系列文章的所有文章的目錄，目錄需要自己手動添加例如：第一章 Python 機器學習入門之pandas的使用提示：寫完文章后，目錄可以自動生成，如何生成可

2021-12-16 06:27:44

介紹機器學習的基礎內容

2021-08-13 07:39:46

關于機器學習的日志

機器學習日志

2020-07-08 12:54:25

決策樹在機器學習的理論學習與實踐

2019-09-20 12:48:44

分析一個不錯的機器學習項目簡歷收集冊

2021-09-26 06:03:10

如何學習機器學習

【吳恩達機器學習】學習筆記13（Normal Equation& 與梯度下降比較）

2020-04-26 11:05:59

如何用卷積神經網絡方法去解決機器監督學習下面的分類問題？

人工智能下面有哪些機器學習分支？如何用卷積神經網絡（CNN）方法去解決機器學習監督學習下面的分類問題？

2021-06-16 08:09:03

如果只是應用機器學習，而不是研究，需要哪些知識

如果只是應用機器學習，而不是研究，需要哪些知識？還用深入學習數字么

2019-08-30 14:51:02

微型機器學習

人工智能 AI 正在加快速度從云端走向邊緣，進入到越來越小的物聯網設備中。而這些物聯網設備往往體積很小，面臨著許多挑戰，例如功耗、延時以及精度等問題，傳統的機器學習模型無法滿足要求，那么微型機器學習又如何呢？

2021-09-15 09:23:12

最值得學習的機器學習編程語言

如果你對人工智能和機器學習感興趣，而且正在積極地規劃著自己的程序員職業生涯，那么你肯定面臨著一個問題：你應該學習哪些編程語言，才能真正了解并掌握 AI 和機器學習？可供選擇的語言很多，你需要通過戰略

2021-03-02 06:22:38

有沒有搞機器學習算法研究的啊？

有沒有搞機器學習、人工智能相關的算法研究的啊？自己一個人搞感覺挺難的，希望找到志同道合的朋友，相互探討。

2016-02-26 09:56:00

物聯網防火墻與機器學習技術解析

物聯網防火墻與機器學習技術

2021-02-25 06:05:58

讓機器向“時尚達人”學習的技巧概述

如何讓機器向“時尚達人”學習？阿里做了個“實用”的圖像數據集

2019-09-16 13:41:22

部署基于嵌入的機器學習模型

1、如何在生產中部署基于嵌入的機器學習模型　　由于最近大量的研究，機器學習模型的性能在過去幾年里有了顯著的提高。雖然這些改進的模型開辟了新的可能性，但是它們只有在可以部署到生產應用中時才開始提供真正

2022-11-02 15:09:52

防御機器學習算法對抗欺騙攻擊的研究

DARPA與英特爾、喬治亞理工學院合作，開創機器學習“免疫系統”

2020-11-26 07:04:37

高性能的機器學習讓邊緣計算更給力

、智能零售、智能工廠和智慧城市等應用領域而言是必不可少的。以前，機器學習需要成本昂貴而又復雜的云計算，也就是“基于云的人工智能”。但現在，很多機器學習操作可在網絡邊緣進行，在這里，智能互連設備提供更快

2021-10-15 13:58:18

Spark機器學習庫的各種機器學習算法

本文將簡要介紹Spark機器學習庫（Spark MLlibs APIs）的各種機器學習算法，主要包括：統計算法、分類算法、聚類算法和協同過濾算法，以及各種算法的應用。你不是一個數據科學家。根據

2017-09-28 16:44:43

如何區分深度學習與機器學習

深度學習與傳統的機器學習最主要的區別在于隨著數據規模的增加其性能也不斷增長。當數據很少時，深度學習算法的性能并不好。這是因為深度學習算法需要大量的數據來完美地理解它。另一方面，在這種情況下，傳統的機器學習算法使用制定的規則，性能會比較好。

2017-10-27 16:50:18

1720

大規模分布式機器學習系統分析

針對構建大規模機器學習系統在可擴展性、算法收斂性能、運行效率等方面面臨的問題，分析了大規模樣本、模型和網絡通信給機器學習系統帶來的挑戰和現有系統的應對方案。以隱含狄利克雷分布（ LDA）模型

2017-12-05 19:02:42

什么是機器學習？機器學習能解決什么問題？（案例分析）

隨著大數據時代的到來，機器學習成為解決問題的一種重要且關鍵的工具。不管是工業界還是學術界，機器學習都是一個炙手可熱的方向，但是學術界和工業界對機器學習的研究各有側重，學術界側重于對機器學習

2018-05-18 13:13:00

15976

如何開始接觸機器學習_機器學習入門方法盤點

機器學習入門方法一說到機器學習，我被問得最多的問題是：給那些開始學習機器學習的人的最好的建議是什么？

2018-05-20 07:10:00

3755

深度學習的發展與應用,TensorFlow從研究到實踐

，才能更好的促進行業交流，推動行業創新。Google 內部大規模使用 TensorFlow 來做研究和產品，而業界可以基于 Google 的實踐和經驗。

2018-06-05 11:00:23

4355

Airbnb機器學習和數據科學團隊經驗分享

Airbnb資深機器學習科學家Shijing Yao、前Airbnb數據科學負責人Qiang Zhu、Airbnb機器學習工程師Phillippe Siclait分享了在Airbnb產品上大規模應用深度學習技術的經驗。

2018-07-07 09:24:03

3610

5分鐘內看懂機器學習和深度學習的區別

由 mengqiqi 于星期四, 2018-09-13 09:34 發表在本文中，我們將研究深度學習和機器學習之間的差異。我們將逐一了解它們，然后討論他們在各個方面的不同之處。除了深度學習和機器

2018-09-13 17:19:01

393

作為一名開發者，你的機器學習之路選對了嗎？

楊旭，阿里巴巴資深技術專家。2004年獲南開大學數學博士學位；隨后在南開大學信息學院從事博士后研究工作；2006年加入微軟亞洲研究院，進行符號計算、大規模矩陣計算及機器學習算法研究；2010年加入阿里巴巴，從事大數據相關的統計和機器學習算法研發。去年出版《機器學習在線——解析阿里云機器學習算法平臺》。

2018-10-18 14:19:03

4035

值得研究的四大機器學習策略分析

機器學習有四種廣受認可的形式：監督式、無監督式、半監督式和強化式。在研究文獻中，這些形式得到了深入的探討。它們也被納入了大多數機器學習算法的入門課程。下表對這四種形式作了總結。

2018-11-14 10:17:54

1510

機器學習教程之使用matlab研究機器學習的資料概述

機器學習教計算機執行人和動物與生俱來的活動：從經驗中學習。機器學習算法使用計算方法直接從數據中“學習”信息，而不依賴于預定方程模型。當可用于學習的樣本數量增加時，這些算法可自適應提高性能。

2018-11-15 15:35:54

精選10本機器學習暢銷書,玩轉機器學習

人工智能和大數據時代，分布式機器學習解決了大量最具挑戰性的問題，《分布式機器學習：算法、理論與實踐》全面分析了分布式機器學習的現狀，深入分析其中核心問題，討論該領域的未來發展方向。

2018-12-10 09:36:38

4246

如何用TensorFlow進行機器學習研究

從理論上講，這幾乎是您使用 TensorFlow 進行機器學習研究所需要的全部內容。

2019-02-05 10:06:00

1769

探究機器學習在無人駕駛中的應用及挑戰

1月10日，在青島舉行的2019國家智能產業峰會智能駕駛平行論壇上，孫振平研究員結合國內外機器學習相關技術在智能駕駛領域的研究現狀和課題組近年來的一些研究成果，向與會人員分享了題為《機器學習在無人駕駛中的應用現狀及面臨挑戰》的精彩報告。

2019-02-05 10:42:00

2074

機器學習讓計算機更智能

近日，在“Google Solve with AI”活動上，Google 資深研究員、Google AI 負責人Jeff Dean發表演講時指出，機器學習是解釋AI最好的一個方法。

2019-07-11 16:46:27

2714

如何去擴大機器學習規模

臉書將機器學習用于很多領域。在臉書主頁上，機器學習可以搜索內容，翻譯語言，掃描動態消息并識別用戶上傳的照片中的面孔，以及查廣告展示的內容。

2020-03-14 09:52:11

409

LinkedIn機器學習解決方案

LinkedIn已實現了非常先進的體系結構，可大規模開發機器學習解決方案。

2020-05-03 18:37:00

1750

機器學習規模怎樣去擴大

機器學習正在不斷發展，新的商業突破、科學進步、框架改進和實踐常常見諸各大媒體。

2020-05-01 21:15:00

243

機器學習該怎么學習

網上關于機器學習的文章，視頻不計其數，本來寫這么一篇東西，我自己也覺得有點多余，但是我還真沒找到一個能幫助像我這樣零基礎的人，快速接觸和上手機器學習的文章。這篇文章不能讓你深入學習和掌握機器學習

2020-05-12 08:54:38

811

Python機器學習應用

機器學習的目標：機器學習是實現人工智能的手段，主要研究內容是如何利用數據或經驗進行學習，改善具體算法性能。

2021-05-25 16:24:58

2021 OPPO開發者大會主會場：端云協同的大規模機器學習系統

2021 OPPO開發者大會主會場：端云協同的大規模機器學習系統

2021-10-27 11:18:36

1221

2021 OPPO開發者大會：端云協同的大規模機器學習系統

2021 OPPO開發者大會：端云協同的大規模機器學習系統 2021 OPPO開發者大會上介紹了端云協同的大規模機器學習系統。責任編輯：haq

2021-10-27 11:29:32

1315

機器學習是什么，機器學習的定義

機器學習是一門能夠讓編程計算機從數據中學習的計算機科學（和藝術）。

2022-02-03 09:18:00

7634

云端機器學習平臺PAI最新的創新實踐

在今年 3 月的 GTC 2022 大會上，阿里云帶來了推理優化/部署、深度學習編譯器、大模型部署、訓練優化等主題的內容，分享云端機器學習平臺 PAI (Machine Learning

2022-06-09 09:52:56

860

什么是機器學習？機器學習基礎介紹

本文旨在為硬件和嵌入式工程師介紹機器學習 (ML) 的背景，了解它是什么、它是如何工作的、它為何重要以及 TinyML 如何融入其中。機器學習是一個永遠存在且經常被誤解的技術概念。這種實踐

2022-08-25 17:19:43

1764

GTC23 | 阿里云機器學習平臺 PAI 精選演講推薦

。長按掃描下方二維碼，或點擊閱讀原文，注冊 GTC 并提前收藏阿里云機器學習平臺 PAI 的精彩演講。全球 AI 市場近年來保持了快速增長的趨勢，根據市場研究機構 IDC 的數據顯示，預計

2023-03-19 22:45:02

1813

機器學習+表面增強拉曼光譜技術用于早期肺癌篩查

近期，黃祖芳研究員和王靜研究員研究團隊通過將機器學習和直接表面增強拉曼光譜（SERS）檢測技術相結合，開發了一種可檢測早期肺癌與良性肺部疾病患者的全局DNA甲基化信息的方法。

2023-04-04 10:29:23

1145

機器學習構建ML模型實踐

實踐中的機器學習：構建 ML 模型

2023-07-05 16:30:36

412

機器學習和深度學習的區別

機器學習和深度學習的區別隨著人工智能技術的不斷發展，機器學習和深度學習已經成為大家熟知的兩個術語。雖然它們都屬于人工智能技術的研究領域，但它們之間有很大的差異。本文將詳細介紹機器學習和深度學習

2023-08-17 16:11:40

2734

機器學習算法匯總機器學習算法分類機器學習算法模型

機器學習算法匯總機器學習算法分類機器學習算法模型機器學習是人工智能的分支之一，它通過分析和識別數據模式，學習從中提取規律，并用于未來的決策和預測。在機器學習中，算法是最基本的組成部分之一。算法

2023-08-17 16:11:48

632

機器學習算法總結機器學習算法是什么機器學習算法優缺點

機器學習算法總結機器學習算法是什么?機器學習算法優缺點? 機器學習算法總結機器學習算法是一種能夠從數據中自動學習的算法。它能夠從訓練數據中學習特征，進而對未知數據進行分類、回歸、聚類等任務。通過

2023-08-17 16:11:50

939

機器學習算法入門機器學習算法介紹機器學習算法對比

機器學習算法入門機器學習算法介紹機器學習算法對比機器學習算法入門、介紹和對比隨著機器學習的普及，越來越多的人想要了解和學習機器學習算法。在這篇文章中，我們將會簡單介紹機器學習算法的基本概念

2023-08-17 16:27:15

569

機器學習與數據挖掘的區別機器學習與數據挖掘的關系

機器學習與數據挖掘的區別，機器學習與數據挖掘的關系機器學習與數據挖掘是如今熱門的領域。隨著數據規模的不斷擴大，越來越多的人們認識到數據分析的重要性。但是，機器學習和數據挖掘在實踐中常常被混淆

2023-08-17 16:30:00

1370

機器學習是什么意思？機器學習屬于什么分支？機器學習有什么用處？

機器學習是什么意思？機器學習屬于什么分支？機器學習是什么有什么用處？機器學習是指讓計算機通過經驗來不斷優化和改進自身的算法和模型的過程。因此，機器學習可以被理解為是一種從數據中自動獲取規律和知識

2023-08-17 16:30:04

1148

機器學習theta是什么？機器學習tpe是什么？

機器學習theta是什么？機器學習tpe是什么？機器學習是近年來蓬勃發展的一個領域，其相關技術和理論受到了廣泛的關注和應用。在機器學習中，theta和tpe是兩個非常重要的概念。首先，我們來了

2023-08-17 16:30:08

1023

機器學習有哪些算法？機器學習分類算法有哪些？機器學習預判有哪些算法？

機器學習有哪些算法？機器學習分類算法有哪些？機器學習預判有哪些算法？機器學習是一種人工智能技術，通過對數據的分析和學習，為計算機提供智能決策。機器學習算法是實現機器學習的基礎。常見的機器學習算法

2023-08-17 16:30:11

1245

機器學習發展歷程

增長的必要手段之一。本文將介紹機器學習的發展歷程，包括機器學習的現狀、機器學習的發展前景以及機器學習發展歷史。機器學習的現狀機器學習已成為人工智能的重要分支，也是當下最火熱的研究領域之一。在計算機科學領域

2023-08-17 16:30:15

1038

機器學習的研究現狀和發展趨勢機器學習的常見算法和優缺點

隨著計算能力和大數據的崛起，機器學習算法正迎來快速發展的時期。在研究層面上，機器學習和深度學習是當前最主要的熱點。在計算能力的推動下，機器學習算法取得了許多重大突破，如AlphaGo戰勝人類棋手

2023-08-22 17:49:27

1659

已全部加載完成

搜索歷史

阿里云機器學習研究員對大規模機器學習實踐的見解

評論