1、大量
大數(shù)據(jù)的特征首先就體現(xiàn)為“大”,從先Map3時代,一個小小的MB級別的Map3就可以滿足很多人的需求,然而隨著時間的推移,存儲單位從過去的GB到TB,乃至現(xiàn)在的PB、EB級別。隨著信息技術的高速發(fā)展,數(shù)據(jù)開始爆發(fā)性增長。社交網(wǎng)絡(微博、推特、臉書)、移動網(wǎng)絡、各種智能工具,服務工具等,都成為數(shù)據(jù)的來源。淘寶網(wǎng)近4億的會員每天產(chǎn)生的商品交易數(shù)據(jù)約20TB;臉書約10億的用戶每天產(chǎn)生的日志數(shù)據(jù)超過300TB。迫切需要智能的算法、強大的數(shù)據(jù)處理平臺和新的數(shù)據(jù)處理技術,來統(tǒng)計、分析、預測和實時處理如此大規(guī)模的數(shù)據(jù)。
2、多樣
廣泛的數(shù)據(jù)來源,決定了大數(shù)據(jù)形式的多樣性。任何形式的數(shù)據(jù)都可以產(chǎn)生作用,目前應用最廣泛的就是推薦系統(tǒng),如淘寶,網(wǎng)易云音樂、今日頭條等,這些平臺都會通過對用戶的日志數(shù)據(jù)進行分析,從而進一步推薦用戶喜歡的東西。日志數(shù)據(jù)是結構化明顯的數(shù)據(jù),還有一些數(shù)據(jù)結構化不明顯,例如圖片、音頻、視頻等,這些數(shù)據(jù)因果關系弱,就需要人工對其進行標注。
3、高速
大數(shù)據(jù)的產(chǎn)生非常迅速,主要通過互聯(lián)網(wǎng)傳輸。生活中每個人都離不開互聯(lián)網(wǎng),也就是說每天個人每天都在向大數(shù)據(jù)提供大量的資料。并且這些數(shù)據(jù)是需要及時處理的,因為花費大量資本去存儲作用較小的歷史數(shù)據(jù)是非常不劃算的,對于一個平臺而言,也許保存的數(shù)據(jù)只有過去幾天或者一個月之內(nèi),再遠的數(shù)據(jù)就要及時清理,不然代價太大。基于這種情況,大數(shù)據(jù)對處理速度有非常嚴格的要求,服務器中大量的資源都用于處理和計算數(shù)據(jù),很多平臺都需要做到實時分析。數(shù)據(jù)無時無刻不在產(chǎn)生,誰的速度更快,誰就有優(yōu)勢。
4、價值
這也是大數(shù)據(jù)的核心特征。現(xiàn)實世界所產(chǎn)生的數(shù)據(jù)中,有價值的數(shù)據(jù)所占比例很小。相比于傳統(tǒng)的小數(shù)據(jù),大數(shù)據(jù)最大的價值在于通過從大量不相關的各種類型的數(shù)據(jù)中,挖掘出對未來趨勢與模式預測分析有價值的數(shù)據(jù),并通過機器學習方法、人工智能方法或數(shù)據(jù)挖掘方法深度分析,發(fā)現(xiàn)新規(guī)律和新知識,并運用于農(nóng)業(yè)、金融、醫(yī)療等各個領域,從而最終達到改善社會治理、提高生產(chǎn)效率、推進科學研究的效果。
-
大數(shù)據(jù)
+關注
關注
64文章
8908瀏覽量
137799
發(fā)布評論請先 登錄
相關推薦
評論