衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

2020年常見的20種數據科學工具,你了解多少

數據分析與開發 ? 來源:數據派THU ? 作者:拉姆·德瓦尼 ? 2020-08-27 15:56 ? 次閱讀

概述

數據科學的工具數不勝數——你應該選擇哪一個?

這里列出了超過20種的數據科學工具,滿足數據科學生命周期不同階段的需求。

引言

執行數據科學任務的最佳工具有哪些?作為數據科學新手,你應該選擇哪些工具? 我相信在你的數據科學之旅的某些時刻中你已經問過(或搜索過)這些問題。這些問題是合理的!雖然在這個行業中并不缺乏數據科學工具,但是為你的數據科學旅程和生涯做出一個選擇可能是一個棘手的決定。

我們得承認——數據科學的范圍龐雜,每一個領域要求處理數據的方式各有不同,這讓許多分析家/數據庫科學家陷入困惑。而如果你是一位商業領袖,你將要選擇你和你的公司所使用的工具,這很關鍵,因為這些工具會產生長期的影響。 同樣地,問題是你應該選擇哪種數據科學工具呢? 在本文中,我將通過羅列出數據科學領域廣泛使用的工具并細分它們的用途和優勢,來幫你解決這些困惑。所以,讓我們開始吧!

處理大數據體量的工具

顧名思義,體量是指數據的規模和數量。要了解我在說的數據規模,你需要知道,世界上超過90%的數據是在最近兩年內創建的! 十年來,隨著數據量的增加,該技術也變得越來越好。計算和存儲成本的降低使收集和存儲大量數據變得更加容易。 數據體量定義了它是否符合大數據的條件。 當我們的數據范圍在1Gb到10Gb左右時,傳統的數據科學工具就可以很好地工作。那么這些工具有哪些呢?

Microsoft Excel–Excel是處理少量數據的最簡單,最受歡迎的工具。它支持的最大行數只剛剛超過一百萬,一張表一次最多只能處理16,380列。當數據量很大時,這些根本不夠用。

Microsoft Excel:

https://www.analyticsvidhya.com/blog/category/excel/?utm_source=blog&utm_medium=22-tools-data-science-machine-learning

Microsoft Access –它是Microsoft流行的用于數據存儲的工具。使用此工具可以平穩順暢地處理高達2Gb的較小數據庫,但超過這個數字,Access會開始崩潰。

SQL – SQL是自1970年代以來最流行的數據管理系統之一。幾十年來,它一直是主要的數據庫解決方案。SQL仍然很流行,但有一個缺點——隨著數據庫的不斷增長,很難對其進行擴展。

到目前為止我們已經介紹了一些基本工具。現在該放大招了!如果你的數據大于10Gb,甚至超過1Tb+,那么需要使用我在下面提到的工具:

Hadoop –它是一個開源的分布式框架,用于管理大數據的數據處理和存儲。當你從零開始構建機器學習項目時,很可能會使用此工具。

Hive –它是建立在Hadoop之上的數據倉庫。Hive提供了一個類似于SQL的接口來查詢存儲在與Hadoop集成的各種數據庫和文件系統中的數據。

處理大數據種類的工具

數據種類是指存在的不同類型的數據。數據類型可以是以下之一:結構化和非結構化數據。 讓我們看一下不同數據類型的示例:

花一點時間去觀察這些示例,并且將它們與你的真實數據關聯起來。 你可能在結構化數據中觀察到,這種類型的數據有固定的順序和結構,而非結構化數據相反,這些示例并不遵循任何趨勢或者模式。例如,顧客反饋在長度、情感和其他方面有所不同。另外,這類數據巨大并且種類繁多。 處理這類數據可能非常具有挑戰性,那么市場上用于管理和處理這些不同數據類型的數據科學工具有哪些呢? 兩個最常見的數據庫是SQL和NoSQL。在NoSQL出現前,SQL多年來一直是市場主導者。

SQL的一些例子是Oracle,MySQL,SQLite,而NoSQL由諸如MongoDB,Cassandra等流行的數據庫組成。這些NoSQL數據庫由于具有擴展和處理動態數據的能力而被廣泛地應用。

處理大數據速度的工具

第三個,也是最后一個V代表了速度。這是捕獲數據時的速度,包括實時和非實時數據。我們在這里將主要討論實時數據。 我們周圍有許多捕獲和處理實時數據的示例。最復雜的是自動駕駛汽車收集的傳感器數據。想象一下,在自動駕駛汽車中,汽車必須同時動態地收集和處理有關車道、與其他車輛的距離等數據! 其他正在收集的實時數據的例子包括:

閉路電視

股票交易

信用卡交易欺詐檢測

網絡數據——社交媒體(Facebook、Twitter等)

“你知道嗎? 在紐約證券交易所的每個交易時段中,都會生成超過1TB的數據!” 現在,讓我們來看看處理實時數據的一些常用數據科學工具:

Apache Kafka – Kafka是Apache的開源工具。它用于創建實時數據管道。Kafka的一些優點在于——它具有容錯性、速度很快,并且被大量機構投入生產使用。

Apache Storm – Apache的該工具幾乎可用于所有編程語言。它每秒可處理多達100萬個元組,并具有高度的可擴展性。對于高數據速率來說,這是個好工具。

Amazon Kinesis – 亞馬遜提供的此工具類似于Kafka,但需要付費。然而,它提供的是開箱即用的解決方案,這使其成為組織機構的強勢的備選方案。

Apache Flink – Flink是Apache另一種可用于實時數據的工具。Flink的優點在于它的高性能、容錯能力和有效的內存管理。

現在,我們已經掌握了通常用于處理大數據的各種工具,接下來將介紹使用高級機器學習技術和算法來利用數據的部分。

廣泛使用的數據科學工具

如果你要建立一個全新的數據科學項目,那么腦海中會浮現很多問題,這與你的水平無關——無論你是數據科學家,數據分析師,項目經理還是高級數據科學主管,都是如此。 你將面對的一些問題是: ?在數據科學的不同領域中應該使用哪些工具? ?應該購買這些工具的許可證還是選擇開源工具?等等。 在本節中,我們將根據不同領域討論行業中使用的一些受歡迎的數據科學工具。 數據科學本身就是一個廣義術語,它由各種不同的領域組成,每個領域都有它自己的業務重要性和復雜性,正如下圖所示:

數據科學的范圍包含了各種領域,上圖表示了這些領域的相對復雜性和它們提供的業務價值。讓我們討論一下以上頻譜中顯示的每一個點。

報告和商業智能

讓我們從這個范圍的底端開始。報告和商業智能使一個機構能夠識別出數據的趨勢和模式,從而制定關鍵的戰略決策。這種分析的類型包括MIS、數據分析和儀表板。 這些領域中常用的工具有:

Excel – 它提供了多種選擇,包括了數據透視表和圖表,使你可以快速分析數據。簡而言之,它是數據科學/分析工具中的“瑞士軍刀”。

QlikView – 您只需單擊幾下即可合并,搜索,可視化和分析所有數據資源。這是一種易于學習的直觀的工具,因此非常受歡迎。

Tableau – 它是當今市場上最受歡迎的數據可視化工具之一。它能夠處理大量數據,甚至提供類似于Excel的計算功能和參數。Tableau因其整潔的儀表板和故事界面而倍受贊譽.

https://courses.analyticsvidhya.com/courses/tableau-2-0?utm_source=blog&utm_medium=22-tools-data-science-machine-learning

Microstrategy – 它是另一個BI工具,支持儀表板、自動分發和其他關鍵數據分析任務。

PowerBI – 它是商業智能(BI)領域中的Microsoft產品。PowerBI旨在與Microsoft技術進行集成。因此,如果你的組織有Sharepoint或SQL數據庫用戶,那么你和你的團隊將會喜歡這個工具。

Google Analytics – 想知道Google Analytics如何進入此名單的嗎?嗯……數字營銷在業務轉型中起著重要作用,沒有比它更好的工具可以用來分析你的數字化工作。

預測分析和機器學習工具

順著前面那個圖再往上走,其復雜性和商業價值也變高了!這是大多數數據科學家賴以生存的領域。你將要解決的問題類型是統計建模,預測,神經網絡深度學習。 讓我們了解一些該領域的常用工具:

Python – 由于其易用性,靈活性和開源特性,Python是當今行業數據科學中最主要的語言之一。它已經在ML社區中迅速普及并被廣泛接受。

https://courses.analyticsvidhya.com/courses/introduction-to-data-science?utm_source=blog&utm_medium=22-tools-data-science-machine-learning

R – 它是數據科學中另一種非常常用且受人尊敬的語言。R有一個蓬勃發展且被極大支持的社區,附帶了許多軟件包和庫,支持大多數的機器學習任務。

Apache Spark – Spark由加州大學伯克利分校于2010年開源,此后已成為最大的大數據社區之一。它被稱為大數據分析的“瑞士軍刀”,因為它具有多種優勢,例如靈活性、速度、計算能力等。

Julia – 它是一種即將到來的語言,被捧為Python的繼承者。目前它仍處于起步階段,觀察其在未來的表現將會是一件有趣的事。

Jupyter Notebooks – 這些筆記本廣泛用于Python編程。盡管它主要用于Python,但它也支持其他語言,例如Julia,R等。

到目前為止,我們討論的工具都是真正的開源工具。你無需支付費用或購買任何額外的許可證。它們擁有活躍的社區,可以定期維護和發布更新。 現在,我們將看一些在某些特定行業中通用的收費工具:

SAS – 這是一個非常受歡迎且功能強大的工具。在銀行和金融部門中被普遍使用。它的使用在美國運通,摩根大通,西格瑪,蘇格蘭皇家銀行等私人組織中占有很高的份額。

SPSS – SPSS是“社會科學統計軟件包”的縮寫,在2009年被IBM收購。它提供高級統計分析、龐大的機器學習算法庫、文本分析等。

Matlab – Matlab在組織機構的領域里確實被低估了,但在學術界和研究部門中得到了廣泛的使用。最近相較于Python,R和SAS,Matlab已經陣地失守,但是大學(尤其在美國)仍在使用Matlab教授許多本科課程。

深度學習的通用框架

深度學習需要大量的計算資源,并且需要特殊的框架才能有效地利用這些資源。因此,你很可能需要GPU或TPU。 讓我們看看本節中用于深度學習的一些框架。

TensorFlow – 它很容易成為當今行業中使用最廣泛的工具。Google可能與此有關!

PyTorch – 這種超級靈活的深度學習框架正在成為TensorFlow的強勢競爭對手。PyTorch最近受到一些關注,它的開發者是Facebook的研究人員。

Keras和Caffe是廣泛用于構建深度學習應用程序的其他框架。

人工智能工具

AutoML的時代就在這里。如果還沒有聽說過這些工具,那么這是一個自我學習的好機會!作為數據科學家,你很可能會在不久的將來與他們合作。

列舉一些最受歡迎的AutoML工具,包括AutoKeras,Google Cloud AutoML,IBM Watson,DataRobot,H20的無人駕駛AI和亞馬遜的Lex。AutoML有望成為AI / ML社區中的下一個大事件。它旨在消除或減少技術性,以便商業領導者可以使用它來制定戰略決策。 這些工具將推動整個數據分析流程自動化!

尾注

我們已經討論了數據收集引擎以及完成檢索、處理和存儲,這一整個流水線所需的工具。數據科學的眾多領域中每個領域都有自己的一套工具和框架。 選擇數據科學工具通常取決于你的個人選擇、你的領域或項目,當然也取決于你的機構。 在評論中讓我知道你喜歡使用的最喜歡的數據科學工具或框架!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4779

    瀏覽量

    101129
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    133028
  • python
    +關注

    關注

    56

    文章

    4807

    瀏覽量

    85012
  • 數據科學
    +關注

    關注

    0

    文章

    166

    瀏覽量

    10090

原文標題:2020年22個廣泛使用的數據科學與機器學習工具

文章出處:【微信號:DBDevs,微信公眾號:數據分析與開發】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    20張圖讓理解各種數學概念

    容易理解16、將一個公式從笛卡爾坐標轉換成軸坐標17、畫拋物線18、黎曼和(Riemann sum)約等于其曲線下的面積19、雙曲線20、將雙曲線表現成 3D 形式,也許不相信,它完全是用直線畫成的甚至可以做成這樣的效果:
    發表于 10-10 14:35

    這幾種常見的薄膜電阻器了解嗎?

    這幾種常見的薄膜電阻器了解嗎?
    發表于 06-07 06:30

    2020中國科技核心期刊目錄自然科學

    2020中國科技核心期刊目錄自然科學卷, 2020中國科技核心期刊目錄 ?。ㄗ匀?b class='flag-5'>科學卷) F
    發表于 07-16 07:46

    MIT Technology Review 2020“十大突破性技術”解讀 【中國科學基金】2020第3期發布 精選資料分享

    來源:國家自然科學基金委員會MIT Technology Review2020“十大突破性技術”解讀[編者按] 20202月26日,MI
    發表于 07-26 08:09

    ModBus四種數據DI/DO/AI/AO是什么?

    ModBus四種數據DI/DO/AI/AO是什么?
    發表于 11-02 07:14

    2010世界十大最差電子科學工

    2010世界十大最差電子科學工作 據國外媒體報道,目前,美國新聞媒體評選出2010最差的十大科學工作,其中包括:糞便灌輸員、鯨魚尸體切割員
    發表于 04-15 10:42 ?2730次閱讀

    用于形狀精確描述的數學工具

    Radon變換是一用于形狀分析的非常有用的數學工具.它是一無損變換,利用該變換,可以方便地抽取到目標形狀結構的重要視覺特征.但因為該變換含有目標的大小、位置和方向信息,所以并不能將其直接用于目標
    發表于 12-25 11:10 ?1次下載
    一<b class='flag-5'>種</b>用于形狀精確描述的數<b class='flag-5'>學工具</b>

    十大機器學習工具數據科學工具

    2018將會是人工智能和機器學習快速發展的一,有專家表示:相較之下Python比Java更加接地氣,也自然而然地成為機器學習的首選語言。在數據科學方面,Python的語法與數學語法
    發表于 05-29 13:57 ?3916次閱讀

    2018年數據科學和機器學習工具調查

    近日,數據科學網站KDnuggets發布 2018年數據科學和機器學習工具調查結果。
    的頭像 發表于 06-07 17:05 ?4295次閱讀
    2018<b class='flag-5'>年數據</b><b class='flag-5'>科學</b>和機器學習<b class='flag-5'>工具</b>調查

    2020年數據科學領域的四發展趨勢

    數據科學為我們提供了先進的工具和技術,幫助我們自動提取數據,呈現復雜的業務流程。因此,了解數據科學
    的頭像 發表于 02-18 07:42 ?4861次閱讀

    數據科學工具數不勝數——應該選擇哪一個?

    我們得承認——數據科學的范圍龐雜,每一個領域要求處理數據的方式各有不同,這讓許多分析家/數據科學家陷入困惑。而如果
    的頭像 發表于 08-27 15:55 ?1723次閱讀

    2023應該知道的所有機器學習算法

    模式挖掘算法是一種數據挖掘技術,用于識別數據集中的模式和關系。這些算法可用于實現各種目的,如識別零售業中的客戶購買模式,了解網站/應用程序的常見用戶行為序列,或在
    的頭像 發表于 01-31 10:19 ?669次閱讀

    虹科分享 | 網絡流量監控 | 數據能告訴什么:解讀網絡可見性的4種數據類型

    了解網絡性能問題的原因,可見性是關鍵。而這四種數據類型(流、數據包、SNMP和API)都在增強網絡可見性方面發揮著重要作用。
    的頭像 發表于 02-21 10:01 ?605次閱讀
    虹科分享 | 網絡流量監控 | <b class='flag-5'>你</b>的<b class='flag-5'>數據</b>能告訴<b class='flag-5'>你</b>什么:解讀網絡可見性的4<b class='flag-5'>種數據</b>類型

    常見數據采集工具的介紹

    數據采集是數據分析和處理的基礎,它涉及到從各種數據源中提取、收集和整理數據的過程。數據采集工具
    的頭像 發表于 07-01 14:51 ?995次閱讀

    數據科學工作流原理

    數據科學工作流包括數據收集、數據預處理、數據探索與可視化、特征選擇與工程、模型選擇與訓練、模型評估與優化、結果解釋與報告、部署與監控等環節。
    的頭像 發表于 11-20 10:36 ?233次閱讀
    百家乐官网单跳双跳| 百家乐官网游戏机的玩法| 女优百家乐的玩法技巧和规则| 榆次百家乐官网的玩法技巧和规则| 香港六合彩管家婆| 百家乐看图赢| 仕達屋百家乐官网的玩法技巧和规则 | 百家乐稳赢投资法| 博必发百家乐官网的玩法技巧和规则 | 百家乐旺门打| 明升百家乐QQ群| 网络百家乐官网开户网| 百家乐官网如何看牌| 阿玛尼百家乐的玩法技巧和规则| 胶州市| 德州扑克书| 百家乐博娱乐场开户注册| 百家乐庄闲下载| 舟曲县| 百家娱乐| 乐透世界| 华人棋牌游戏| 威尼斯人娱乐城 老品牌| 一直对百家乐很感兴趣.zibo太阳城娱乐城 | 新全讯网a3322.com| 百家乐技巧-百家乐开户指定代理网址| 百家乐赔率技巧| 千亿娱百家乐官网的玩法技巧和规则| 百家乐官网庄闲的比例| k7百家乐官网最小投注| 百家乐官网看牌技巧| 色达县| 皇冠网站| 双辽市| 百家乐官网线上真人游戏| 宝龙百家乐官网娱乐城| 百家乐官网正反投注| 百家乐官网007| 基础百家乐官网博牌| 百家乐官网真钱斗地主| 蓝盾百家乐官网网址|