衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大數據技術發展史簡介 淺談大數據挖掘與機器學習

454398 ? 來源:itpub技術棧 ? 作者:itpub技術棧 ? 2020-09-29 15:46 ? 次閱讀

目前大數據已經成為了各家互聯網公司的核心資產和競爭力了,其實不僅是互聯網公司,包括傳統企業也擁有大量的數據,也想把這些數據發揮出作用。在這種環境下,大數據技術的重要性和火爆程度相信沒有人去懷疑。

AI人工智能又是基于大數據技術基礎上發展起來的,大數據技術已經很清晰了,但是AI目前還未成熟啊,所以本文就天馬行空一下,從大數據的技術變遷歷史中來找出一些端倪,猜一猜AI人工智能未來的發展。

最近斷斷續續的在看《極客時間》中「 從0開始學大數據 」專欄的文章,受益匪淺,學到了很多。尤其是非常喜歡作者李智慧講的那句話“學習大數據最好的時間是十年前,其次就是現在”,把這句話改到AI也適用,“學習AI最好的時間是十年前,其次就是現在”,任何知識都是這樣。下面我們就來詳細聊一聊。

一、先聊一聊大數據技術發展史?

我們使用的各種大數據技術,最早起源于Google當年公布的三篇論文,Google FS(2003年)、MapReduce(2004年)、BigTable(2006年),其實Google當時并沒有公布其源碼,但是已經把這三個項目的原理和實現方式在公布的論文中詳細的描述了,這幾篇論文面世后,就引爆了行業的大數據學習和研究的浪潮。

隨后一個叫 Doug Cutting 的技術大牛(也就是寫 Lucene 的那位,做JAVA的同學應該都很熟悉)就開始根據Google公布的論文去開發相關系統,后來慢慢發展成了現在的 Hadoop,包括 MapReduce 和 HDFS。

但是在當時,使用 MapReduce 進行數據分析和應用還是有很大門檻的,畢竟要編寫 Map 和 Reduce 程序。只能大數據工程師上馬,普通BI分析師還是一臉懵逼。所以那個時候都是些大公司在玩。

既然有這么大門檻,就會有人勇于站出來去解決門檻,比如 Yahoo,他們開發一個叫做 Pig 的東西,Pig是一個腳本語言,按照Pig的語法寫出來的腳本可以編譯成 MapReduce 程序,然后直接在 Hadoop 上運行了。

這個時候,大數據開發的門檻確實降了一點。

不過,Pig大法雖好,但還是需要編寫腳本啊,這還是碼農的活兒啊。人們就在想,有沒有不用寫代碼的方法就能做大數據計算呢,還真有,這個世界的進步就是由一群善于思考的“懶人”推動的。

于是,Facebook公司的一群高智商家伙發布了一個叫做 Hive 的東西,這個 Hive 可以支持使用 SQL 語法直接進行大數據計算。原理其實就是,你只需要寫一個查詢的 SQL,然后 Hive 會自動解析 SQL 的語法,將這個SQL 語句轉化成 MapReduce 程序去執行。

這下子就簡單了,SQL 是BI/數據分析師們最為常用的工具了,從此他們可以無視碼農,開開心心的獨立去寫Hive,去做大數據分析工作了。Hive從此就火爆了,一般公司的大多數大數據作業都是由Hive完成的,只有極少數較為復雜的需求才需要數據開發工程師去編寫代碼,這個時候,大數據的門檻才真真的降低了,大數據應用也才真正普及,大大小小的公司都開始在自己的業務上使用了。

但是,人們的追求不止如此,雖然數據分析便利了,但是大家又發現 MapReduce 程序執行效率不夠高啊,其中有多種原因,但有一條很關鍵,就是 MapReduce 主要是以磁盤作為存儲介質,磁盤的性能極大的限制了計算的效率。

在這個時候,Spark 出現了,Spark 在運行機制上、存儲機制上都要優于 MapReduce ,因此大數據計算的性能上也遠遠超過了 MapReduce 程序,很多企業又開始慢慢采用 Spark 來替代 MapReduce 做數據計算。

至此,MapReduce 和 Spark 都已成型,這類計算框架一般都是按“天”為單位進行數據計算的,因此我們稱它們為“大數據離線計算”。既然有“離線計算”,那就必然也會有非離線計算了,也就是現在稱為的“大數據實時計算”。

因為在數據實際的應用場景中,以“天”為顆粒出結果還是太慢了,只適合非常大量的數據和全局的分析,但還有很多業務數據,數據量不一定非常龐大,但它卻需要實時的去分析和監控,這個時候就需要“大數據實時計算”框架發揮作用了,這類的代表有:Storm、Spark Streaming、Flink 為主流,也被稱為 流式計算,因為它的數據源像水流一樣一點點的流入追加的。

當然,除了上面介紹的那些技術,大數據還需要一些相關底層和周邊技術來一起支撐的,比如 HDFS 就是分布式文件系統,用于負責存儲數據的,HBase 是基于HDFS的NoSQL系統、與 HBase類似的還有 Cassandra也都很熱門。

二、再看一看大數據技術架構?

了解大數據相關技術可以先看下圖:

(圖片來源網絡

這圖基本上很全面的展示了大數據的技術棧,下面將其主要的部分羅列一下,以便有個清晰的認知:

大數據平臺基礎:

  • MapReduce,分布式離線計算框架
  • Spark,分布式離線計算框架
  • Storm,流式實時計算框架
  • Spark Streaming,流式實時計算框架
  • Flink,流式實時計算框架
  • Yarn,分布式集群資源調度框架
  • Oozie,大數據調度系統

分布式文件系統:

  • HDFS,分布式文件系統
  • GFS,分布式文件系統

SQL引擎:

  • Spark SQL (Shark),將SQL語句解析成Spark的執行計劃在Spark上執行
  • Pig,Yahoo的發布的腳本語言,編譯后會生成MapReduce程序
  • Hive,是Hadoop大數據倉庫工具,支持SQL語法來進行大數據計算,把SQL轉化MapReduce程序
  • Impala,Cloudera發布的運行在HDFS上的SQL引擎

數據導入導出:

  • Sqoop,專門用將關系數據庫中的數據 批量 導入導出到Hadoop
  • Canal,可以 實時 將關系數據庫的數據導入到Hadoop

日志收集:

Flume,大規模日志分布式收集

大數據挖掘與機器學習

  • Mahout,Hadoop機器學習算法
  • Spark MLlib,Spark機器學習算法庫
  • TensorFlow,開源的機器學習系統

三、猜一猜AI人工智能的發展?

通過上面的回顧,我們知道了,因為大量數據的產生導致大數據計算技術 MapReduce 的出現,又因為 MapReduce 的參與門檻問題,導致了 Pig、Hive的出現,正是因為這類上手容易的工具的出現,才導致大量的非專業化人員也能參與到大數據這個體系,因此導致了大數據相關技術的飛速發展和應用,又從而進一步推動了機器學習技術的出現,有了現在的AI人工智能的發展。

但目前人工智能技術的門檻還比較高,并不是任何企業都能入場的,需要非常專業化的高端技術人才去參與,普通人員只能望而卻步,因此AI技術的應用受到了極大的限制,所以也不斷的有人提出對人工智能提出質疑。

講到這里,有沒有發現點什么問題?

歷史的規律總是那么相似??梢圆聹y一下,人工智能的門檻有一天也會像 MapReduce 的開發門檻一樣被打破,一旦人工智能的參與門檻降低了,各類大小企業都能結合自己的業務場景進入AI領域發揮優勢了,那AI就真的進入高速發展的通道了,AI相關實際應用的普及就指日可待了。

恩,一定是這樣的,哈哈,現在就可以等著大牛們將AI的基礎平臺建設好,然后降低參與門檻,進一步就迎來了AI的一片光明,大家從此就可以過上AI服務人類的美好生活了(暢想中…)。

以上,就是從大數據技術變遷想到AI人工智能發展的一些想法。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1796

    文章

    47674

    瀏覽量

    240290
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    133086
  • 大數據
    +關注

    關注

    64

    文章

    8908

    瀏覽量

    137794
收藏 人收藏

    評論

    相關推薦

    淺談大數據視頻圖像處理系統技術

    淺談大數據視頻圖像處理系統技術近年來,隨著計算機、網絡以及圖像處理、傳輸技術的飛速發展,視頻監控系統正向著高清化、智能化和網絡化方向
    發表于 09-24 15:22

    探尋大數據時代的商業變革

    `科技的進步在很多時候總會超出我們的想象。近年來,“大數據”一詞逐漸被大眾所熟知,人們用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。大數據時代已然來臨,它
    發表于 05-27 17:11

    常用大數據處理技術歸類

    “21世紀最缺的是什么?人才!”。在大數據發展如此之快的今天,大數據工程師已經成為一個新興職業。大數據是信息技術,是人和人、人和
    發表于 02-28 17:02

    如何從零學大數據?

    新如何學習大數據技術大數據怎么入門?怎么做大數據分析?數據科學需要
    發表于 03-01 15:41

    常見大數據應用有哪些?

    擁有Java編程語言基礎的前提下,可以學習以上大數據技術大數據是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱
    發表于 03-13 16:50

    大數據專業技術學習大數據處理流程

    隨著互聯網的發展,大數據也在逐漸彰顯出自己的優勢特點,那么關于大數據的處理流程,你是否了解?第一,數據采集定義:利用多種輕型數據庫來接收發自
    發表于 06-11 16:41

    大數據開發核心技術詳解

    數據的核心是云技術和BI。關于大數據和云計算的關系人們通常會有誤解,而且也會把它們混起來說,分別做一句話直白解釋就是:云計算就是硬件資源的虛擬化;大數據就是海量
    發表于 07-26 16:26

    NLPIR大數據KGB知識圖譜引擎智能挖掘各行數據

    挖掘方法),智能建模分析(機器學習方法),統計分析等?! ?b class='flag-5'>數據解釋:對于廣大的數據信息用戶來講,最關心的并非是
    發表于 11-02 14:08

    大數據平臺開發公司有哪些?

    推進大數據技術發展的重要文件,緊接著又將大數據上升到了國家戰略層面。所有這一系列重要舉措,都證明了一件事情——當下,正是大數據的風口!在互聯網技術
    發表于 11-15 15:17

    NLPIR系統KGB知識圖譜技術助力大數據深度挖掘

    ”。且中國物聯網校企聯盟認為,物聯網的發展離不開大數據,依靠大數據可以提供足夠有利的資源?! ”本├砉ご髮W大數據搜索與挖掘實驗室張華平主任研
    發表于 12-05 11:49

    阿里巴巴高級技術專家章劍鋒:大數據發展的 8 個要點

    學習,實時更新機器學習模型目前以 Kafka,Flink 為代表的流處理計算引擎已經為實時計算提供了堅實的底層技術支持,相信未來在實時可視化數據
    發表于 10-14 10:56

    大數據的定義及其應用

    目錄1、大數據概述1.1. 概述1.2. 大數據定義1.3. 大數據技術發展2、大數據應用2.1. 大數
    發表于 07-12 06:12

    大數據技術與應用是學什么的?

    大數據技術與應用是學什么的?大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。大數據
    發表于 07-27 07:47

    什么是大數據

    ,毅然決定學習大數據技術,進入相關行業,而有的人還在觀望,不知道未來大數據前景怎么樣?今日博主有幸在1024"程序員節"上,為大家(更多是入門級的選...
    發表于 08-31 08:52

    大數據技術主要學什么 大數據技術就業方向

    數據技術。   數據挖掘機器學習數據
    的頭像 發表于 04-14 17:21 ?6653次閱讀
    百家乐遥控牌靴| 至尊百家乐奇热网| 百家百家乐官网网站| 百家乐官网全程打庄| 国际娱百家乐官网的玩法技巧和规则| 百家乐路单显示程序| 欢乐谷线上娱乐| 博发百家乐官网的玩法技巧和规则 | 波浪百家乐官网测试| 金樽百家乐的玩法技巧和规则| 36棋牌的深海捕鱼| 百家乐官网大路小路三珠路| 大发888娱乐城 手机版| 网上百家乐官网作弊下载| 赌博百家乐下载| 广宁县| 新加坡百家乐官网规则| 娱乐城免费领取体验金| 百家乐是多少个庄闲| 必博百家乐官网游戏| 百家乐高级技巧| 百家乐官网园百利宫娱乐城信誉好...| 大家旺百家乐的玩法技巧和规则| 百家乐官网强弱走势| 大发888手机登录平台| 真人百家乐官网开户优惠| 大发888真钱客户端| 百家乐官网皇室百家乐官网的玩法技巧和规则 | 牌九百家乐的玩法技巧和规则 | 视频棋牌游戏大厅| 合肥百家乐赌博游戏机| 睢宁县| 太阳城二手房| 百家乐官网娱乐网网| 凯斯网娱乐城| 百家乐贴士介绍| 百家乐试玩账户| 百家乐官网的嬴钱法| 大发888如何下载| 百家乐波音平台开户导航| 百家乐官网赌场赌场网站|