開源大數據OLAP的演化過程和最佳實踐

一、開源 OLAP 綜述

基于歷史發展和開源社區的火熱，現在的 OLAP 技術可以用百花齊放四個字來形容。

如圖中最左邊這一部分，是現在比較流行或者已經是業界標準的 OLAP 數據倉庫 / LakeHouse，包括 StarRocks、Doris、ClickHouse。第二部分是 SQL on Hadoop，該技術于 10 年前開始，以 HDFS 平臺或者 OSS 為存儲底座，包括 Presto 以及分支出來的 Trino、Impala。第三部分是預處理 / Cube/NoSQL，已經使用得越來越少，麒麟、Druid 社區以及背后的商業化公司活躍度不高，Hbase 目前主要用在 Serving 的場景，社區相對比較老，穩定性尚可，解決了一部分業務場景，應用規模不小，但熱度在逐漸下降。第四列是離線部分，目前的事實標準是 Spark，比較老的技術棧則是 Hive。

最底下這一部分是數據湖格式，之所以放在最下面，是有原因的。Delta Lake 在 2019 年推出了增量數據湖格式，后期包括 Hudi，Iceberg，被大家稱作數據湖三劍客。它們主要解決數據增量更新的問題。在大多情況下，作為 Presto、StarRocks 的外表，以讀的方式作為 OLAP 來使用。Apache Paimon 是 Flink 社區推出的，原來叫 Flink Table Store，目前也貢獻到了 Apache 社區，以 Flink 為基礎，把整個存儲留在湖里。

二、OLAP 場景思考

典型業務場景

OLAP 的業務場景主要有四大類：

第一類是面向用戶的報表，比如一個比較典型的場景，給第三方廣告主出報表，它可能是一個 ToB 的公司，利用 OLAP 引擎去做 Serving 服務；

第二類是面向經營人員、數據分析人員、老板的一些經營的報表，也是傳統 BI 的 OLAP 行為；

第三類是用戶畫像，在游戲等行業里用得非常多，主要是把所有的用戶標簽統一到一張比較寬的表里，可以用各個維度去篩選出需要的客戶；

第四類是流式的、實時的場景，包括直播、風控、實時預測。

接下來將介紹這幾種業務場景對 OLAP 技術的需求及解決方案。

面向客戶的報表

面向客戶的報表，業務特點是按照客戶的 ID 去檢索數據，需要低延遲、高并發，而且需要明細數據，不僅僅是聚合模型。基于明細可以實現更靈活的自助分析，或者稱作實時 OLAP。但是實時 OLAP 性能也會受限制，比如三張表、十張表的 Join 查詢的 latency 可能會非常的高，所以我們需要去做物化視圖?？偨Y起來，業務場景的需求是明細加上物化視圖。

在技術上的需求，第一點是數據過濾，比如前綴索引、Bloom filter，以及一些更高級的 filter，通過一些統計值有效過濾，減少讀取的數據，使得點查或者范圍查詢更加快速。

第二點是向量化引擎，Presto、Hive、Spark 在某一個時間點上都有 OLAP 的嘗試。當然現在 Presto、Trino 社區還是非?；钴S的，尤其是在國外，它們是通過 Java 技術棧實現的，但是 Java 技術棧從語言層面而言沒有 C++ 快，同時因為 JVM 向量化現在還不是特別成熟，也不能利用 JVM 的向量化模式。當然 Trino 社區在不斷地去做這件事，不過到現在還沒有一個完整的產品。另外 Presto，也在做 Native 的 Engine，去解決 OLAP 加上向量化的問題。但是有一些數據庫，包括 ClickHouse、StarRocks、Doris，在幾年前就已經布局了向量化引擎，因為其整個執行引擎本來就是用 C++ 寫的，所以會更快。

第三點是數據在機器的合理分布，數據分布對查詢影響也是比較大的，包括數據是否有序、是否是 shard。

最后一點是對物化視圖的支持是否足夠好。

面向經營的報表

面向經營的報表，一般是企業內部提供給老板和數據分析人員查看的報表，比較典型的是實時風控場景。業務特點首先是需求變化特別快，要有明細表的存在，不只聚合成一種預設的模式，一般要把明細表直接導入到數據倉庫中。第二是要求響應低延遲，對查詢性能要求很高。

低延時對技術的需求包括向量化極速查詢、多表關聯查詢能力、物化視圖等等。

ClickHouse 針對寬表的場景，把整個數據通過 shard 分布，每一臺機器進行分布式計算，最后將結果匯總起來形成查詢的結果。ClickHouse 寬表比較快，但是寬表維護起來比較麻煩。所以我們思索是否有一種引擎可以對明細模型做高效的分布式 Join，在具有多機多核的同時也有核的向量化。

用戶畫像

用戶畫像場景是以一個 ID 為主鍵，構成一張列特別多的寬表。在 StarRocks 出現之前，更多用的是 Flink 或者 Spark 在外圍加工出一張可能上千列的寬表，再直接 load 到數據庫中，比較常見的是 ClickHouse 中?，F在由于 StarRocks 逐漸崛起，很多需求都落到了 StarRocks 上。因為多表關聯的能力也是需要的，如果用戶畫像只用寬表來做，還是有一些限制。在跟客戶交流的過程中了解到，ClickHouse 這條鏈路會存在煙囪式開發的問題，維護起來有難度，所以 ClickHouse 的高效是犧牲了一定的運維能力。另外 ClickHouse 對人員的要求也比較高，因為業務線的人員更多的是關注業務，這時要求業務線的人員去對 ClickHouse 進行維護就會存在困難。

訂單分析

訂單分析場景，在沒有增量數據湖格式出現之前，用 Hive 或 Spark 一般是 T+1 的形式，如果要進一步提高時效，可能會用更短的時間去建分區，比如一個小時一個分區，但如果對這類分區表做全量刷新則會非常不友好，無論是對數據湖還是調度，壓力都非常大。現在希望實時或者準實時地去分析數據，增量數據湖，包括 Delta Lake、Hudi、Iceberg 就是為了解決這一問題。

在線教育、企業訂單、打車軟件等場景，常常需要數據回刷，這對數據湖來說是一個非常大的挑戰。在有了更新模型之后，很多企業開始把整個鏈路加到 Hudi，或者 Delta Lake 上面。比如上一次的數據是一個小時之前的數據，下一個小時去更新這一批數據，但是如果做 OLAP 查詢，速度會比較慢。因為直接查湖上的數據，受網絡 IO 影響比較大。另外數據湖后臺的 Compaction 要求比較高，尤其流量特別大的時候，很難同時保證數據查詢的新鮮度和查詢性能的要求。

StarRocks 引出了一部分主鍵模型，能夠直接把 MySQL 或者原始數據直接打到主鍵模型里，通過主鍵的方式去更新，同一個主鍵，實現部分列的更新，是一種最佳實踐。

技術需求思考

通過上述場景分析，對技術需求可以總結為如下幾大類：

多表關聯

首先是對 SQL 的支持，比如是否支持 IC SQL，還是會違背 IC SQL 的語法，有很多自己的 SQL 語法。引申就是有沒有一些 MySQL 協議或者是 PG 協議，直接可以去對接更好的 BI 工具，能夠較少地去改動。

其次是對 Join 的支持。對比 StarRocks 和 CK，可以看出來，StarRocks 對于分布式 Join 的支持是特別好的，因為它有 FE 去做整個的 CBO，比如有 5 張表去做 Join a，Join b，Join c，Join d、 Join e 以怎樣的順序去做 Join，這時就需要通過 CBO 算法來挑出一個最好的方式。

另外是分布式 Join 的支持。StarRocks 還有一些其它的特性，通過數據的分布，實現一些 Join 的高級特性，比如 broadcast Join、shuffle Join，對比起來 CK 這幾點就比較弱，因為 CK 最開始的時候是類似于以單機的形式拓展的分布式，它不是 MPP 架構，而是 Scatter-Gather 的架構。Scatter-Gather 架構需要去手動地把整個數據分成不同的 Shard，每一臺機器計算自己的 Shard，再把整個數據回吐到一個中心節點，這樣就相當于是兩層架構，對于 Join 的支持是很有限的。

多維查詢

需要關注性能和索引的支持是否完備，以及一些高級的特性比如物化視圖。物化視圖在 StarRocks 里是一種比較重要的特性，包括同步物化視圖、異步物化視圖、單表物化視圖、多表物化視圖等。

實時導入和查詢

是否有 Exactly Once 的語法保證。StarRocks 是能夠保證的。CK 也是支持事務的，但分布式事務存在一些缺陷。是否有 Update 功能，包括 Partial Update。Schema Change 的感知。列數的限制，寬表限制了 1000 列還是 1 萬列是有本質區別的。

開發效率、架構和運維

對于企業，開發效率、架構、運維難度可能更加重要，很多情況下企業人員并不是那么充足，運維的簡便就很重要，比如能否以最小代價彈性縮容，能否根據擴縮容來自動均衡，是否能夠達到高可用等等，都是非常實際的問題。開發效率方面，比如函數的支持是否完備，UDF 支持是否完備?，F在越來越多的客戶也都是湖倉的架構，本身有一些湖數據，這些數據是否可以不導進來，可以直接查詢，也是一個特別常見的剛需。

三、開源數據湖 / 流式數倉解決方案

整體架構

上圖是 EMR 的整體架構。以 ECS 或 Kubernetes 作為底座，主推方向是存算分離。左邊是 JindoFS 加上 OSS，我們叫做 HCFS， Hadoop Compatible FS。Spark、Presto 這些計算引擎，不需要更改任何接口，直接能夠對接以 OSS 為底座的 HCFS。其中有一些引擎是比較活躍的，也有一些基本上已經退出了歷史舞臺。

上面是一些數據分析或者數據應用平臺的組件，下面將介紹的是企業架構。

Lambda 架構

第一個是 Lambda 架構，是最傳統的一套架構，也是大廠現在用得最多的。離線和實時分別走不同的鏈路。圖中這一塊分層 ODS、DWD、DWS，放在 OLAP 的數據倉庫里，這一層直接體現了報表的查詢響應速度，可以用類似 Presto、Trino 這類引擎去查詢，這是比較傳統的架構，這里最終加工出來的最后一層的報表，直接放在 OLAP 里。

實時數據湖解決方案

第二個是相對比較新的一種架構，它提供了按主鍵 merger into 的能力，解決增量更新的場景。

這套架構計算會比較頻繁，原來只是 T+1，現在則需要實時或者近實時，比如半小時，幾分鐘去做更新，逐漸向流批一體靠攏。因為 Iceberg、Hudi 兩個數據湖格式對批引擎和流引擎是完全適用的，這點在選型時大家也會著重考慮。對于查詢數據湖，有越來越多的客戶，從 Trino 或者 Presto 遷移到 StarRocks 上，因為目前 StarRocks 對于 Data Lake Analytics（DLA），也就是讀外表的數據，支持是非常好的。

大家如果關注 StarRocks 社區版 3.0 會了解到，除了 UDF，StarRocks 能夠提供和 Presto 一模一樣的語法，叫做 Presto Gateway，可以在不改 Presto 的 SQL 的情況下，就能夠查詢湖數據。這個能力將會包含在 EMR 2.5 的版本上。

最開始我們是最后一層 ADS 導入到 OLAP 中，現在有很多客戶是希望 ODS、DWD、DWS 里面挑選一些比較關鍵的表，提供比較高的性能，也導入到 OLAP 中，然后通過 OLAP 完成高效的查詢。

實時分析解決方案

上圖是傳統的 Kappa 架構，對于一些垂直業務線部門，不是數據中臺部門，需要做這樣一套數倉來解決其業務問題。通常是用 Flink CDC 把 MySQL 的數據同步到 Kafka 里，數據一般存儲 7 天或者 3 天。雖然商業版的 Kafka 可以提供 KSQL，但在 Kafka 里查詢數據，性能一直都是不太好的。

所以通常把整個 Kafka 數據通過 routine load 直接導到數據倉庫里面，或者直接導到 StarRocks 里面，這樣就能保證 ODS、DWD、DWS 這三層數據全部可以增量查到，也能夠去做整個的 OLAP，ODS 和 DWD 這兩層的表也可以去做一些 Join。

StarRocks 的物化視圖會在 2. 5 版本或者之后的幾個小版本才能夠比較穩定地跑起來，現在提供的是類似于全量物化視圖，或是分區物化視圖，而不是那種完全的 Incremental 物化視圖。另外 2. 5 版本有外表物化視圖，也可以把一些比較重的表，或者是我們通常叫做大湖小倉，把所有的數據放到湖里，需要的數據導到倉里。導入到倉里的時候也提供了一種比較暖心的方式，會去做外表的優化視圖進行數據的導入。比如按時間，每 10 分鐘導一次，把外表物化視圖直接導進 StarRocks 里邊，而不是用灌數據的方式。直接通過物化視圖的方式，內部也會起更多的物化視圖，也會在物化視圖里邊去建物化視圖，這樣把每一層的數據全部都物化起來，這也是 StarRocks 社區版中主推的。

四、StarRocks 介紹

接下來介紹 StarRocks 的價值和一些關鍵技術。

StarRocks 價值 & 架構

StarRocks 主打極速統一的概念，3. 0 也會主打云原生這一概念。統一方面，StarRocks 可以進行多維分析、實時分析，包括高并發查詢、AD hoc 查詢，包括前面介紹的所有場景，希望能夠都統一起來，逐步在演化過程中，也慢慢地都開始做到了。在極速方面，StarRocks 對特別多的細節優化得也相當到位。通過 StarRocks 可以解決目前的大部分問題。

StarRocks 架構簡單。FE 如果是高可用，則是有三個節點，它是通過 BDB 的庫去做 journal log 同步，類似于 raft 協議。BE 包括執行引擎和 IO 的引擎。比如查數據湖時，數據不在本地，所以整個 BE 節點，沒必要去啟動存儲引擎，只需要計算引擎就可以。

StarRocks 核心技術特性

上圖中列出了向量化的優化效果（2.1 版本）。對于幾個算子，比如 filter、group、shuffle Join、broadcast Join 等算子的性能提升是比較明顯的。只要查詢是非常重計算，輕 IO 的，最后整個查詢的性能提升會非常明顯。

StarRocks CBO 優化器采用 Cascades 框架。其中 Join 的推算是用動態規劃算法實現的。

分布式 Join 的能力包括 Shuffle Join、Bucket Join、Colocation Join 等。Colocation Join 是指不需要網絡傳輸，事先把兩張表的數據，需要被 Join 的 key 置于同一臺機器上，可以不走網絡，不走 shuffle 的過程，這樣能夠顯著加速 Join 的過程。但這種方式使用起來還是有一些門檻的，實際中不僅需要非常懂業務，還需要懂 Colocation Join 命中的規則，才能將其真正用起來。但是一般情況下 Shuffle Join，Bucket Join，Broadcast Join 也都夠用了。

實時分析方面，StarRocks 有一個比較重要的特性 —— 主鍵模型，也是不斷地在優化中。1. 9 的版本開始出現主鍵模型，一直優化到 2. 5 版本，經歷了一年多，所以穩定性、內存的使用、以及 Partial Update 這些方面都表現優異。

整體性能方面，如果是查詢數據湖外表，采用 TPCH 的標準跟 Trino 對比是 3- 5 倍的差距，數據來源 StarRocks 官網，或者是阿里云 EMR 官網。如果是在自己的業務，自己的 SQL 上，可能會有差異，但是有好有壞，如果查詢是 IO 瓶頸的，那無論計算還是索引優化得多么好，也不一定有多大的提升，瓶頸卡在 IO 上，StarRocks 的向量化計算，包括一些高級的索引都沒用上。但 IO 用的不是特別多，主要都是在函數計算，或其它方面，算子運行時間長，那么提升可能會非常多。

SSB 100G 對比的是單表場景，數據來源 ClickBench 網站。在 CK 的優勢領域，單表查詢上，StarRocks 目前表現也是比較突出。如果感興趣可以訪問 ClickBench 官網。

StarRocks 目前也有資源隔離能力，如果要自建 StarRocks，資源隔離能力用得是比較多的。如果是在阿里云的場景上，或者后續要推出存算分離的場景，資源隔離能力，可以去官網上參考，但是在我們的客戶里邊用的并不是特別多。

最后是副本自動平衡的能力。如果去擴一臺機器或者縮一臺機器，不需要去手動做副本平衡，或者一臺機器壞了，或者一個副本壞了，都是由 FE 的 task 去做平衡。

五、客戶案例

某社交領域客戶

第一個案例是某社交領域客戶，他們最開始用的是 CK。在 StarRocks 2. 1 時，他們開始用 StarRocks 去做整個的關聯查詢，用 CK 去做寬表的查詢。但后來他們不愿意去維護兩個技術棧，所以就去掉了 CK，目前基本上用 StarRocks 支撐了所有的業務，包括用戶畫像、點查，以及傳統的 OLAP 多表關聯查詢。

某電商領域客戶

第二個案例是一個電商領域的客戶，它們有著非常強烈的統一 OLAP 的需求。之前他們的 OLAP 由于歷史原因用得特別亂，運維人員又比較少，維護困難。最后統一到了 StarRocks 里。首先，他們看中了阿里云的專家支持能力；同時，也看中了社區的發展，在社區中提出的問題總能得到較快的回答；另外，StarRocks 基本滿足了他們所有的需求。

某在線教育客戶

在線教育這個案例中，之前是通過 Hive 做小時級的更新，也無法實現 Upsert 場景，后面遷移到了 Hudi 數據湖上，中間鏈路除了 Flink 也使用了 Spark。屬于大湖小倉，他們把一些關鍵的、性能要求高的數據都導到 StarRocks 里，對性能要求不那么高的就通過外表的方式直接查詢 Hudi。經過數月的生產實踐，目前已非常穩定。

六、未來規劃

StarRocks3.x：極速統一 & 云原生

最后來介紹一下 StarRocks 3.x 版本的規劃。

包括幾條線，第一，繼續堅持極速統一這一特性；第二，積極配合去做云原生，存算分離。

大家可能會有一個比較大的困惑，如果用 StarRocks 做倉，那么我們提供的都是云盤，畢竟從成本上來看是要比 OSS 貴不少。所以是否能夠類似于 Snowflake，把整個數據全部放到 OSS 里邊，只是把云盤作為緩存層去做。

在 LakeHouse 這一部分，2. 3 的版本外表查詢已經比較完備了，但是對于 Iceberg、 Hudi 的支持，還有很多工作要做。因為 StarRocks 社區是全球化的，在海外客戶對于 Iceberg 用的還是比較多的。

在 ETL 方面和 Snowflake 對標，從 3. 0 StarRocks 已經不是純內存去做 ETL 了，會有 spill 框架。如果做一個比較大的 ETL 可以 Spill，有限的內存就可以把數據算好。比如做 Hashmap，Hashmap 就可以去不斷地往磁盤里面去寫，有 Spill 的框架去支撐整個算子。

做 ETL 的時候并不像 Spark 那樣 stage by stage，把每一個 stage 數據都存下來，保證容錯性。思路是做得足夠快，比 Spark 快上幾倍，即使中間有問題，直接可以通過重算 Job 來解決。

但是 ETL 也有資源隔離的問題。資源硬隔離，指的不是用現在已有資源組的方式，而是用跟 Snowflake 一樣的架構，不同的節點去算不同的數據，相當于 OLAP 用一系列節點， ETL 用一系列節點，數據都存在 OSS 里邊，這樣能夠保證兩個 Workload 同時發生，但互不影響，這也是很多客戶需要的。

目前 StarRocks 也在做多模的物化視圖，包括增量的物化視圖，流式的物化視圖。

還有一些比較小的點，包括統一導入、半結構化數據。

編輯：黃飛

閱讀全文

SQL(43409) SQL(43409)
OLAP(10025) OLAP(10025)
Lambda(9771) Lambda(9771)

介紹幾大引人注目的開源大數據工具

大數據技術領域正被越來越多的公司關注，而開源一直是大數據技術的靈魂。隨著一些細分領域對大數據工具提出更高的期望和要求，一批更高效更有針對性的大數據工具先后誕生，以下將為您介紹幾大引人注目的開源大數據工具。

2018-01-29 08:46:44

8567

現代C++項目的最佳實踐

本系列是開源書C++ Best Practises[1]的中文版，全書從工具、代碼風格、安全性、可維護性、可移植性、多線程、性能、正確性等角度全面介紹了現代C++項目的最佳實踐。本文是該系列的第三篇。

2022-09-29 11:32:39

806

大數據Kafka數據處理過程

大數據-Kafka數據處理

2020-03-27 11:42:41

大數據和物聯網是如何影響數據中心的？

大數據和物聯網是如何影響數據中心的？

2021-05-21 06:24:04

大數據的數據類型

大數據不僅僅是一個數據，它是大數據集的集合，不能使用傳統的計算技術來處理，宏觀上來講，它不僅包括需處理的數據，還包括各種工具、技術和框架。大數據涉及由不同設備和應用程序產生的數據，主要包括以下幾個

2018-05-11 15:57:46

大數據的定義及其應用

目錄1、大數據概述1.1. 概述1.2. 大數據定義1.3. 大數據技術發展2、大數據應用2.1. 大數據應用闡述2.2. 大數據應用架構2.3. 大數據行業應用2.3.1. 醫療行業2.3.2.

2021-07-12 06:12:11

大數據運用的技術

Linux環境下進行的，相比Linux操作系統，Windows操作系統是封閉的操作系統，開源的大數據軟件很受限制，因此，想從事大數據開發相關工作，還需掌握Linux基礎操作命令。3. HadoopHadoop

2018-04-08 16:50:41

開源指南針發布在即：估量有尺，開源有道

所有者、維護者、開發者等。通過分析大量公開來源項目的實際數據，并參照行業最佳實踐和學術界的研究結果，我們創建一個開源社區生態體系評估系統，加以不斷改進和優化，并通過開源指南針反哺到開源社區。發布會

2023-02-17 16:15:44

C編程最佳實踐.doc

2012-08-17 14:37:18

DKHadoop大數據平臺架構詳解

大數據的時代已經來了，信息的爆炸式增長使得越來越多的行業面臨這大量數據需要存儲和分析的挑戰。Hadoop作為一個開源的分布式并行處理平臺，以其高拓展、高效率、高可靠等優點越來越受到歡迎。這同時也帶動

2018-10-17 15:12:09

DKHadoop大數據開發框架的構成模塊

，必然要回歸到大數據開發所使用的框架！國內的大數據開發起步較晚于國外，所有關于大數據大開發的各種標準和規則都是采用國外的那一套。國內做大數據開發的企業或者機構組織所推出的大部分商業發行版本都是對開源

2018-10-19 15:12:26

DKhadoop大數據平臺基礎框架方案概述

優點，與開源系統100%兼容。這樣，那些基于開源平臺開發的大數據應用就不要經過任何改動，就可以在DKH上高效運行了。

2018-10-31 13:58:17

Dockerfile的最佳實踐

”微服務一條龍“最佳指南-“最佳實踐”篇：Dockerfile

2019-07-11 16:22:33

MIPS架構的發展

MIPS是高效率、低功耗CPU設計原則中的閃耀明星，已經在移動和嵌入式工業領域銷售了近三十年。本文將快速瀏覽MIPS架構的演化過程，描述它如何從斯坦福大學計算科學實驗室的最早版本演變為當前的架構。從

2019-07-18 08:17:30

PyODPS開發中的最佳實踐

PyODPS開發中的最佳實踐摘要： PyODPS支持用 Python 來對 MaxCompute 對象進行操作，它提供了 DataFrame API 來用類似 pandas 的接口進行大規模數據

2018-01-29 13:51:53

RN4020的最佳實踐？

“F”命令前面一秒鐘左右，一切都有效。有沒有實現Microchip開發者幫助文章的最佳實踐方法？我想感謝RISC和MyZigBee在幫助我達到這一目標方面的幫助，特別是對廣告結構的廣播消息管理器特定數據

2018-11-09 15:06:00

modbus在通信的過程中如何實現大數據包的傳輸？

modbus在通信的過程中如何實現大數據包的傳輸

2023-10-15 12:23:49

一張圖學會數據庫遷云最佳路徑

產品存在較大的差異，對于這種情況，需要對原有應用系統進行改造后遷移上云。針對不同類型的應用系統，其改造的方案也有所不同，一般將應用系統分為OLTP類型、OLAP類型、內容管理類型以及大數據應用類型四個

2018-01-11 16:13:37

什么是大數據

近幾年,"大數據"這個詞以烈火燎原之勢，在互聯網領域迅速的扎根生長。尤其是"大數據"時代的到來，刺激了各大行業發展，也增加了很多相關崗位。許多人了解情況之后

2021-08-31 08:52:38

什么是大數據？

幾分鐘看懂什么是大數據？

2020-04-30 14:24:58

什么是大數據？大數據的特點有哪些

大數據(big data)目錄1什么是大數據2大數據的定義3大數據的特點[1]4大數據的作用[2]5大數據的分析6大數據的技術7大數據的處理8大數據的常見誤解9大數據時代存儲所面對的問題[3]10大數據應用與案例分析11相關條目12參考文獻什么是大數據...

2021-07-12 06:52:21

變量聲明最佳實踐？

所以我們開始編寫32位和16位代碼，并過渡到MPLAB X和XC編譯器。我想到的一個主題是聲明變量的最佳實踐。常規IpType。h或類型。h pr STDIN。或It8或字節char等任何想法，走哪條路？

2019-09-30 12:01:29

基于阿里云數加MaxCompute的企業大數據倉庫架構建設思路

，用戶該如何構建大數據倉庫？在阿里云的數據倉庫構建過程中，總結出了以下四個衡量標準：穩定——數據產出穩定并有保障，維護系統的穩定性；可信——數據干凈，數據質量足夠高，帶來更高效的應用服務；豐富——數據

2018-03-15 12:43:28

如何實現DSP與RapidIO網絡互聯？

隨著通訊系統的數據處理量日益增大，過去總線形式的體系結構逐漸成為約束處理能力進一步提升的瓶頸。本文首先簡單介紹了嵌入式設計中總線結構的演化過程，從而引出新一代點對點串行交換結構RapidIO。

2019-11-01 06:05:21

如何建立物聯網和大數據之間的聯系？

如何建立物聯網和大數據之間的聯系？大數據使用案例中的物聯網數據規則是什么？

2021-06-15 08:19:21

工業大數據

的無憂環境。工業大數據是指制造企業在生產運輸銷售過程中所產生的各種數據，包括企業生產鏈的各個環節以及工業傳感器，自動控制系統，物聯網等等。其實，相比較國外而言，我國制造業的信息化水平還是比較落后

2016-06-19 17:43:37

常用大數據處理技術歸類

“21世紀最缺的是什么?人才!”。在大數據發展如此之快的今天，大數據工程師已經成為一個新興職業。大數據是信息技術，是人和人、人和機器、機器和機器交互的內容特征，是最底層的信息技術，是基本標配。今天

2018-02-28 17:02:51

常見大數據應用有哪些?

大數據技術為決策提供依據，在***、企業、科研項目等決策中扮演著重要的角色，在社會治理和企業管理中起到了不容忽視的作用，很多國家，如中國、美國以及歐盟等都已將大數據列入國家發展戰略，微軟、谷歌、百度

2018-03-13 16:50:40

怎么利用FPGA實現DSP與RapidIO網絡互聯？

2019-09-02 07:10:22

自制開源軟核處理器OpenMIPS實踐版發布，附講解視頻

經過努力，開源軟核處理器OpenMIPS的實踐版終于新鮮出爐了，相對OpenMIPS教學版而言，OpenMIPS實踐版最大的特點是引入了Wishbone總線接口，組建了SOPC，包括SDRAM控制器

2014-01-06 17:41:21

虛幻引擎的紋理最佳實踐

紋理是游戲不可或缺的一部分。這是一個藝術家可以直接控制的領域，以提高游戲的性能。本最佳實踐指南介紹了幾種紋理優化，這些優化可以幫助您的游戲運行得更流暢、看起來更好。最佳實踐系列指南的總體目標

2023-08-28 06:39:47

問道嶗山 2018中國青島大數據應用與解決方案高峰論壇圓滿落幕

本相比，FreeRCH2.0增加啟用Kerberos安全認證后的大數據生態圈組件的開發，只需要通過程序簡單的配置即可完成安全認證使用。圖8HanLP開源項目負責人 Hankcs論壇現場，享譽國際的自然語言處理

2018-12-14 17:14:00

阿里巴巴大數據實踐之數據建模

上有了不同的選擇而已。關于范式的詳細說明和定義，以及其他一些關系數據庫的理論是大數據領域建模的基礎，有興趣的讀者可以參考相關的經典數據庫理論書籍，如《數據庫系統概念》。從OLTP和OLAP系統的區別

2018-03-14 17:23:18

阿里巴巴高級技術專家章劍鋒：大數據發展的 8 個要點

之前大數據遇到的最大挑戰在于數據規模大（所以大家會稱之為“大數據”），經過工業界多年的努力和實踐，規模大這個問題基本已經解決了。接下來幾年，更大的挑戰在于速度，也就是實時性。而大數據的實時性并不是指

2019-10-14 10:56:24

基于多元聯合熵的航空發動機性能分析

航空發動機的無序度在整個演化過程是在不斷變化的。本文引入了信息熵理論，用多元聯合熵來刻畫航空發動機的有序性和演化方向。實際數據分析表明：用多元聯合熵描述的航

2009-05-26 16:18:06

利用PLD實現智能演化計算

演化計算是一種通過模擬的自然界的生物演化過程搜索最優解的方法，主要包括遺傳算法（CA）、演化策略（ES）、演化規劃（EP）等。演化計算具有子組織性、自適應性等智能特能

2009-06-26 17:43:42

板上芯片固化及熱處理過程中表面殘余應力的演變

利用硅壓阻傳感器實時原位地記錄粘接劑固化過程中的應力變化和殘余應力的分布狀況, 以及在熱處理過程中應力的演化過程. 研究表明, 若粘合劑固化后在空氣中儲存20 天, 應力將

2009-07-11 09:45:21

OLAP在ATM運維績效中的應用研究

自動柜員機(ATM)運維績效分析是當前國內外聯機分析處理(OLAP)技術應用新領域。本文提出了一套ATM運維績效指標，構建了強調ETL過程的Web-OLAP決策支持系統框架，并在績效指標和框

2010-01-22 14:24:19

OLAP在電信數據倉庫中的設計

通過研究數據倉庫在電信業務中的應用，論述電信領域數據倉庫和部分聯機分析處理的設計開發過程。綜述數據倉庫模型、聯機分析處理（OLAP）模型、匯總表的設計以及開發中所要

2010-12-29 17:31:40

什么是數據在線分析處理(OLAP)

什么是數據在線分析處理數據在線分析處理的英文名稱：OLAP，英文全稱為On-Line Analysis Processing 中文名稱為聯機

2009-06-17 07:46:39

1752

安捷倫LTE和WiMAX測試設備獲最佳實踐獎

安捷倫LTE和WiMAX測試設備獲最佳實踐獎　安捷倫科技公司榮膺Frost & Sullivan（弗若斯特沙利文公司）頒發的“全球LTE和WiMAX測試設備市場領先份額最佳實踐獎”。安捷

2009-12-24 09:17:53

876

深入優化DB2 數據庫的五個最佳實踐

深入優化DB2 數據庫的五個最佳實踐　　結構化查詢語言(SQL)對于關系型DBMS是把雙刃劍，利弊參半。因為從關系型數據庫檢索任何

2010-01-27 13:28:24

778

單片機應用到單片系統設計的演化過程

　　摘要在介紹嵌入式系統設計方法變化背景的基礎上，綜述嵌入式系統設計方法的不同層次，從單片機應用到單片系統設計的演化，并

2010-11-26 10:11:43

677

數據倉庫的OLAP多維展現技術的研究與應用

基于數據倉庫以及聯機分析的相關知識，采用ETL和Analysis Services相關技術，通過在線銷售系統中的實驗，分析在線銷售系統的多維數據集，利用OLAP多維展現技術，將OLAP對多維數據集中數

2012-08-08 11:21:05

Doris大數據-05-OLTP和OLAP的區別

大數據

電子學習發布于 2023-01-06 22:50:44

Doris大數據-06-OLAP存儲引擎的分類

大數據

電子學習發布于 2023-01-06 22:58:11

數據治理的最佳實踐方法 #大數據治理平臺 #光點科技 #數據治理

大數據

光點科技發布于 2023-02-22 13:59:48

數字無線電的演化過程

這個PDF是關于這個領域非常有用的PDF資料。

2016-01-04 17:41:01

浪潮集團榮獲“中國大數據最佳實踐獎”

謂是群賢畢至，大咖云集。會上，海比研究發布了《2016中國大數據應用狀況調查報告》，大數據界年度人物、領軍企業、最佳實踐等獎項揭曉，浪潮等10家公司獲得2016中國大數據最佳實踐獎。

2016-12-06 11:28:11

751

基于OLAP的新產品銷售合同數據的多維分析陳文霞

基于OLAP的新產品銷售合同數據的多維分析_陳文霞

2017-03-17 08:00:00

MySql5.6性能優化最佳實踐

2017-09-08 08:47:44

保護MySQL數據倉庫的最佳實踐

數據倉庫中最常見的數據庫管理系統可能就是開源的MySQL數據庫。以下5個小技巧重點介紹了一些保護MySQL數據倉庫的最佳實踐。 1.限制訪問確保MySQL數據倉庫安全最有效的方法之一是只給用戶需要

2017-09-27 14:10:28

大數據開源技術大變遷

在這個基礎上，我們看到很多開源云計算、大數據技術框架得到了飛速發展，其中更有一些已經成文業內事實上的標準。這些開源框架的出現大幅度降低了云計算和大數據技術的使用門檻，然而同時新的問題也隨之浮現，即如

2017-10-10 17:02:13

oltp和olap的區別_怎么辨別oltp和olap的區別

當今的數據處理大致可以分成兩大類：聯機事務處理OLTP（on-line transaction processing）、聯機分析處理OLAP（On-Line Analytical

2017-11-13 11:21:12

11102

基于微博文本的詞對主題演化模型

針對傳統主題模型忽略了微博短文本和文本動態演化的問題，提出了基于微博文本的詞對主題演化（ BToT）模型，并根據所提模型對數據集進行主題演化分析。BToT模型在文本生成過程中引入連續的時間變量

2017-12-03 11:31:15

OLAP分類的基本概念和基本操作

OLAP有多種實現方法，根據存儲數據的方式不同可以分為ROLAP、MOLAP、HOLAP。我們已經知道OLAP的操作是以查詢——也就是數據庫的SELECT操作為主，但是查詢可以很復雜，比如基于關系數據

2017-12-07 17:19:25

12213

如何利用大數據實現加速和最佳化芯片設計

對于EDA供應商來說大數據的出現將加劇了IC設計難題，如何利用大數據實現最佳化和加速芯片設計這是一個難解的問題。“大數據”是由大量非結構化數據組成的，大多數的IC設計人員沒有足夠的工具去吸收這些東西。

2017-12-20 15:11:16

3815

動態信息網絡中基于角色的結構演化與預測

動態信息網絡是當前復雜網絡領域中一個極具挑戰的問題，其動態的演化過程具有時序、復雜、多變的特點．結構是網絡最基本的特征，也是進行網絡建模和分析的基礎，研究網絡結構的演化過程，對全面認識復雜系統的行為

2018-01-02 15:25:13

演化數據的軟件缺陷預測性能

命周期內的演化本質上是一個物種的逐步進化，其缺陷的表現也必然帶著該物種的特征，而且還受到進化歷史中的演化軌跡的影響．已有一些研究人員開始研究軟件演化過程，并提出了一些演化度量元．研究和提出了可以刻畫軟件演

2018-01-05 11:42:42

軟件特征模型擴展和演化分析

特征模型是面向特征的軟件開發過程的重要概念和制品，該模型以特征為單位，刻畫了領域產品的共性和可變性．在日趨頻繁的軟件演化過程中，保持特征模型的一致演化，對于支持高效的復用開發和按需配置至關重要．目前

2018-01-14 14:24:45

大數據平臺性能測試

目前整個大數據技術還處于以開源方式為主導、多種技術并存的階段。開源技術催生了大量的商業發行版大數據平臺軟件，大數據企業級市場競爭加劇，如何測試和評估這些大數據平臺軟件成為新的研究主題。簡要地介紹

2018-03-28 14:49:46

關于大數據的8個關鍵原則

大數據可以為用戶提供卓越的洞察力，也有可能讓企業不堪重負。而企業根據其收集數據做出自己的選擇。企業面臨的主要問題是大數據是由技術專業人員收集的技術解決方案，但最佳實踐是其業務流程。

2018-05-02 15:12:00

6261

“中國制造2025”大數據決策支撐體系獲評最佳實踐成果

4月22-24日，首屆數字中國建設峰會在福州舉行。在22日下午舉辦的數字中國建設年度最佳實踐推介活動中，由工業和信息化部辦公廳牽頭打造的“中國制造2025”大數據決策支撐體系從全國147個申報成果中脫穎而出，獲評數字中國建設年度最佳實踐成果。

2018-05-22 21:33:00

1356

深度解讀大數據的應用現狀和開源未來

本文對當前最前沿的開源大數據基準測試集進行全面總結，闡述其歷史、現狀并展望下一步研究方向。

2018-12-21 15:57:26

4363

基于氮化鎵和硅管的有源鉗位反激的拓撲的演化過程

3.1 基于氮化鎵和硅管的有源嵌位反激變換器的比較(一)

2019-04-30 06:07:00

3576

開源大數據生態下的 Flink 應用實踐

的所有課程。如果你也好奇 Flink 未來的主要探索方向，如何利用 Flink 將大數據、算力推到極致，Flink 有哪些新場景、新規劃以及最佳實踐等話題，來現場吧！相信這群來自一線的技術專家們，一定會刷新你對 Apache Flink 的認知。原文鏈接本文為云棲社區原創內容，未經允許不得轉載。

2019-11-23 00:03:43

643

十位2020年5G最佳實踐者介紹

，5G不論是建設速度還有規模都超出了預期。而這一切都離不開奮戰在一線的在5G建設實踐過程中作出重要貢獻的人。為此，通信世界全媒體特評選出十位2020年5G最佳實踐者，以激勵更多的人投身到5G實踐中。

2020-12-25 10:19:39

848

7個維度和43條使用規范，聊一聊Redis的最佳實踐

這篇文章我想和你聊一聊 Redis 的最佳實踐。你的項目或許已經使用 Redis 很長時間了，但在使用過程中，你可能還會或多或少地遇到以下問題：我的 Redis 內存為什么增長這么

2021-03-30 10:40:07

1461

基于Logit動態的交通方式選擇演化博弈模型

。以京滬起訖點（corgin- destination，OD）點對間的高鐵、民航行程時耗與票價作為參照基準，將收益函數進行時間均一化轉換，設定兩種高鐵提速情形，并對其價值收益進行對比分析。基于數值仿真探討出行者“空鐵抉擇”的動態演化過程以及提

2021-04-15 10:36:41

全面分析Redis的最佳實踐優化

2021-04-26 10:51:53

1569

面向群體協作開發的開源軟件峭壁特性分析

中在短時間內完成遠超過常規增量開發的一種代碼貢獻行為，是軟件演化過程中可持續發展的一種潛在威脅。為了深入硏究開源項目的開發過程，更準確地刻畫軟件演化，從而提高軟件開發效率，分析軟件峭壁的成因是一種行之有效的方法。實驗以（ Github上9個時間跨度

2021-05-28 15:37:29

Versal ACAP：精簡設計進程的最佳實踐

隨著AI、大數據、云計算等技術在各行各業廣泛應用相應的設計結構和設計內容也變得日益復雜目前的應用開發速度已無法滿足企業的需求如何簡化設計進程，提高應用開發效率成為當下亟需

2021-05-31 11:27:51

1643

中能APP致力于發展光伏電站作光伏“大數據”變革中的實踐者

收益,并且也是光伏“大數據”變革中的實踐者。通過資源鏈接、行業建設、品牌推廣、扶貧行動等支持,促進優質光伏產品資源的規模化發展,鼓勵和號召每一個人都能參與新能源發展建設。中能融合了區塊鏈、大數據、物聯網、人工智能等

2021-07-29 14:33:42

1671

基于RTOS的應用程序的五個最佳實踐技巧

的嵌入式系統使用 RTOS，而且隨著系統的時序要求變得越來越復雜，這個數字只會隨著時間的推移而增加。在今天的文章中，我們將研究設計基于 RTOS 的應用程序的五個最佳實踐技巧。任務分解首先我們可以遵循的第一個最佳實踐技巧就是使

2021-08-11 11:32:49

2209

工業革命下的四種生產模式的歷史演化過程

在繼續介紹SmartFactoryKL的總體架構和設計理念之前，我覺得有必要先給大家說明下下工業4.0到底是啥，因為SmartFactoryKL是實踐工業4.0...

2022-01-26 18:53:49

網格著色器的最佳實踐

　　網格著色器是最近添加到編程管道中的一種，旨在克服經典幾何管道使用的固定布局的瓶頸。本文介紹了 DirectX 和 Vulkan 開發人員的最佳實踐。

2022-04-01 16:47:25

962

貼片實踐板開源項目

電子發燒友網站提供《貼片實踐板開源項目.zip》資料免費下載

2022-07-19 10:16:09

DevOps最佳實踐

　　遵循上述最佳實踐，組織可以開發和自動化其解決方案的交付過程，以有效地實現其業務目標。

2022-08-15 14:41:09

678

《2022開源大數據熱力報告》重磅發布

11月5日，在云棲大會一體化大數據智能峰會上，由開放原子開源基金會、X-lab開放實驗室和阿里巴巴開源委員會聯合出品的《2022開源大數據熱力報告》重磅發布。開放原子開源基金會副秘書長

2022-11-06 22:15:08

575

開源“摩爾定律”即將打破《2022開源大數據熱力報告》云棲大會上發布

11月5日，在2022云棲大會一體化大數據智能峰會上，由開放原子開源基金會、X-lab開放實驗室和阿里巴巴開源委員會聯合出品的《2022年開源大數據熱力報告》重磅發布。開放原子開源基金會副秘書長

2022-11-09 15:07:41

415

圖像傳感器處理和最佳實踐

2022-11-15 20:30:07

利用開源軟件成功的五個實踐

開源軟件無處不在，有潛力幫助企業加快開發和提高軟件質量。但如果不謹慎行事，它們可能是一個挑戰。下面是五個成功利用開源軟件的最佳實踐。

2022-12-01 11:59:12

627

前沿開源技術領域的開源大數據一一解讀

外流行的前沿開源技術領域過去的發展和未來的趨勢進行了深入的洞察，覆蓋開源云原生、開源 AI、開源大前端、開源大數據、開源 DevOps、RISC-V、開源操作系統、開源數據庫、編程語言九大領域。本篇為開源大數據領域的解讀。近幾年，數據技術快速發展，技術棧逐漸成熟，

2023-02-21 15:19:50

786

偉創力榮獲卓越運營(OPEX)最佳實踐獎

日前，世界著名的工業與系統工程領域專業學術組織 —國際工業與系統工程師學會(IISE)在新奧爾良舉辦了2023年卓越運營最佳實踐大賽，偉創力吳中憑借著在運營、實踐、創新等各方面的綜合優異表現，從評選

2023-06-16 09:49:20

442

基于RTOS的應用程序的五個最佳實踐技巧

的嵌入式系統使用 RTOS，而且隨著系統的時序要求變得越來越復雜，這個數字只會隨著時間的推移而增加。在今天的文章中，我們將研究設計基于 RTOS 的應用程序的五個最佳實踐技巧。一、任務分解 ????首先我們可以遵循的第一個最佳實踐技巧就是

2023-07-07 16:49:02

540

自然智能的演化過程 ChatGPT的智能水平探討

后，其改造世界的能力才能被充分釋放。因此，提升人工智能系統的通用性是我們追求的目標。本文將深入探討智能的演化過程以及ChatGPT對此的貢獻，并分析當前我們所處的位置以及未來的長期發展方向。

2023-08-08 11:36:28

299

LED顯示屏的演化：從單一用途到多功能媒介

隨著科技的不斷進步，LED顯示屏已經從過去的單一用途逐漸演化成了多功能媒介，為我們的生活和工作帶來了翻天覆地的變化。這個演化過程既是科技進步的見證，也是人類創新能力的展示。讓我們一起探索LED顯示屏是如何從單一用途逐步發展成多功能媒介的。

2023-08-19 17:32:15

423

SAN管理最佳實踐指南

電子發燒友網站提供《SAN管理最佳實踐指南.pdf》資料免費下載

2023-08-29 09:20:20

SAN設計和最佳實踐指南

電子發燒友網站提供《SAN設計和最佳實踐指南.pdf》資料免費下載

2023-09-01 11:02:55

Windows 10遷移的最佳實踐

電子發燒友網站提供《Windows 10遷移的最佳實踐.pdf》資料免費下載

2023-09-07 15:37:04

利用開源軟件的最佳實踐

使用嵌入式開源組件的幾條建議

2023-09-18 16:32:29

287

傳統IO演化至零拷貝的過程

，只是文件數據最終的去向仍然是本地磁盤還是網卡的區別，這里以socket文件為例介紹傳統IO演化至零拷貝的過程。介紹零拷貝之前，可以先看一下傳統IO，借此熟悉一些相關概念，先上圖：首先要知道操作系統已經隔離了兩塊運行空間，即用戶空間和內核空間。可以

2023-11-09 09:09:56

191

誠邀報名｜黃向東邀您共話開源工業物聯網大數據

2023開放原子開發者大會 . OPEN ATOM DEVELOPERS CONFERENCE 開源工業物聯網大數據分論壇 2023.12.17 物聯網與大數據技術的飛速進步，為工業數字化轉型

2023-12-05 19:35:01

342

開源工業物聯網大數據分論壇圓滿舉辦

日，“開源工業物聯網大數據”分論壇在無錫成功召開。論壇以工業物聯網大數據全生命周期管理為線索，邀請國內相關知名開源項目企業分享其典型成果，并邀請相關企業分享其實踐案例。蘑菇云客空間共同創始人，DFRobot高級工程師夏青夏青

2023-12-20 09:40:03

292

誠邀報名｜黃向東邀您共話開源工業物聯網大數據

了堅實的技術基礎。在推進新型工業化建設的征程中，應對各種復雜的工業場景，亟需在底層操作系統、物聯網數據采集、數據管理以及數據分析應用等全生命周期取得軟件技術突破。 “開源工業物聯網大數據分論壇”旨在匯聚相關領域的知名開源項目和企業，分享他們在這一領域的創新成果與實踐經驗。作為

2023-12-20 16:54:11

167

米哈游大數據云原生實踐

近年來，容器、微服務、Kubernetes 等各項云原生技術的日漸成熟，越來越多的公司開始選擇擁抱云原生，并開始將 AI、大數據等類型的企業應用部署運行在云原生之上。以 Spark 為例，在云上運行

2024-01-09 10:41:14

218

已全部加載完成

搜索歷史

開源大數據OLAP的演化過程和最佳實踐

評論