婷婷99,国产ts在线,xx综合网,成人在线黄色,免费jlzzjlzz在线播放欧美,亚洲色图性爱视频,精品国产_亚洲人成在线高清

歡迎訪問合肥市大數(shù)據(jù)資產(chǎn)運營有限公司網(wǎng)站!
0551-65909059   公司OA
聯(lián)系電話:
當前位置:首頁>>新聞中心>>行業(yè)動態(tài) >>大數(shù)據(jù)技術,發(fā)展趨勢如何?
今天是: 2024年10月18日   【農(nóng)歷:九月十六】  星期五
大數(shù)據(jù)技術,發(fā)展趨勢如何?

      大數(shù)據(jù)的技術是數(shù)據(jù)管理技術的一種,數(shù)據(jù)管理系統(tǒng)有著悠久的發(fā)展歷史,它是所有計算機應用的基礎。談到數(shù)據(jù)管理的軟件,必須關注數(shù)據(jù)管理軟件所依賴的硬件環(huán)境和它來解決的應用場景,我們認識數(shù)據(jù)管理軟件的位置。首先它是一種軟件,處于底層硬件和上層應用之間,本質上是利用計算機硬件的存儲和計算能力,對數(shù)據(jù)進行存儲、管理、加工等操作,最終為了支持上層各類應用。


數(shù)據(jù)管理技術發(fā)展背景   

      數(shù)據(jù)管理技術到現(xiàn)在至少有50年的發(fā)展歷史,大概經(jīng)歷了幾個發(fā)展階段。第一個階段是關系型數(shù)據(jù)模型的提出,為關系數(shù)據(jù)庫發(fā)展奠定了理論基礎;第二個階段是Oracle和DB2等商業(yè)關系型數(shù)據(jù)庫的興起和發(fā)展壯大,開始了商業(yè)數(shù)據(jù)庫產(chǎn)品在各行各業(yè)的應用,數(shù)據(jù)庫也正式成為了繼服務器、操作系統(tǒng)之外的第三個必須品;第三階段由于業(yè)務場景的需要,數(shù)據(jù)庫被分為面向業(yè)務的事務數(shù)據(jù)庫和面向分析統(tǒng)計的分析數(shù)據(jù)庫,兩者之間的架構和建模方式也發(fā)生了變化,這是數(shù)據(jù)庫技術的第一次分離;第四個階段是數(shù)據(jù)庫技術的分布式浪潮,最早是從數(shù)據(jù)分析端產(chǎn)生的,單機無法應對海量數(shù)據(jù)分析的需求,分布式水平擴展的需求提上日程,Hadoop、Spark和各類NoSQL都是為了應對這一需求而誕生,而分布式的技術也在2010年左右擴展到了事務數(shù)據(jù)庫領域,主要為了應對越來越多的互聯(lián)網(wǎng)業(yè)務。


      數(shù)據(jù)管理系統(tǒng)處于硬件和應用之間的位置決定了它自身的技術演進主要依賴于底層硬件的發(fā)展和上層應用端的需求變化。在硬件端,從上世紀70年代開始,通用服務器的芯片、內存的發(fā)展就遵循摩爾定律,單機的性能越來越強,推動著數(shù)據(jù)庫的處理能力不斷增強,利用內存能力也是一大趨勢。而進入2000年,芯片處理能力的增長趕不上業(yè)務和數(shù)據(jù)的增長,單機系統(tǒng)的瓶頸顯露,導致數(shù)據(jù)管理系統(tǒng)向分布式架構轉型。在應用端,業(yè)務的互聯(lián)網(wǎng)化、在線化使得業(yè)務流量和訪問頻率呈指數(shù)級的增長,單機集中式架構處理遇到瓶頸,而移動互聯(lián)網(wǎng)下動輒上千萬的級的用戶量,提出了海量數(shù)據(jù)分析的挑戰(zhàn),分布式架構正是為應對這些挑戰(zhàn)而生。

大數(shù)據(jù)技術發(fā)展歷程


      大數(shù)據(jù)的應用和技術起源于互聯(lián)網(wǎng),首先是網(wǎng)站和網(wǎng)頁的爆發(fā)式增長,搜索引擎公司最早感受到了海量數(shù)據(jù)帶來的技術上的挑戰(zhàn),隨后興起的社交網(wǎng)絡、視頻網(wǎng)站、移動互聯(lián)網(wǎng)的浪潮加劇了這一挑戰(zhàn)。互聯(lián)網(wǎng)企業(yè)發(fā)現(xiàn)新數(shù)據(jù)的增長量、多樣性和對處理時效的要求是傳統(tǒng)數(shù)據(jù)庫、商業(yè)智能縱向擴展架構無法應對的。

      在此背景下,谷歌公司率先于2004年提出一套分布式數(shù)據(jù)處理的技術體系,即分布式文件系統(tǒng)谷歌文件系統(tǒng)(Google file system,GFS)、分布式計算系統(tǒng)MapReduce和分布式數(shù)據(jù)庫BigTable,以較低成本很好地解決了大數(shù)據(jù)面臨的困境,奠定了大數(shù)據(jù)技術的基礎。受谷歌公司論文啟發(fā),Apache Hadoop實現(xiàn)了自己的分布式文件系統(tǒng)HDFS、分布式計算系統(tǒng)MapReduce和分布式數(shù)據(jù)庫HBase,并將其進行開源,這是大數(shù)據(jù)技術開源生態(tài)體系的起點。

      2008年左右,雅虎最早在實際環(huán)境中搭建了大規(guī)模的Hadoop集群,這是Hadoop在互聯(lián)網(wǎng)公司使用最早的案例,后來Hadoop生態(tài)的技術就滲透到了互聯(lián)網(wǎng)、電信、金融乃至更多的行業(yè)。2009年UCBerkley大學的AMPLab研發(fā)出了Spark,經(jīng)過5年的發(fā)展,正式替換了Hadoop生態(tài)中MapReduce的地位,成為了新一代計算引擎,而2013年純計算的Flink誕生,對Spark發(fā)出了挑戰(zhàn)。2014年之后大數(shù)據(jù)技術生態(tài)的發(fā)展進入了平穩(wěn)期。


     經(jīng)過10年左右的發(fā)展,大數(shù)據(jù)技術形成了以開源為主導、多種技術和架構并存的特點。從數(shù)據(jù)在信息系統(tǒng)中的生命周期看,大數(shù)據(jù)技術生態(tài)主要有5個發(fā)展方向,包括數(shù)據(jù)采集與傳輸、數(shù)據(jù)存儲、資源調度、計算處理、查詢與分析。在數(shù)據(jù)采集與傳輸領域漸漸形成了Sqoop、Flume、Kafka等一系列開源技術,兼顧離線和實時數(shù)據(jù)的采集和傳輸。在存儲層,HDFS已經(jīng)成為了大數(shù)據(jù)磁盤存儲的事實標準,針對關系型以外的數(shù)據(jù)模型,開源社區(qū)形成了K-V(key-value)、列式、文檔、NoSQL數(shù)據(jù)庫體系,HBase、Cassandra、MongoDB、Neo4j、Redis等數(shù)據(jù)庫百花齊放。資源調度方面,Yarn獨領風騷,Mesos有一定發(fā)展潛力。計算處理引擎方面慢慢覆蓋了離線批量計算、實時計算、流計算等場景,誕生了MapReduce、Spark、Flink、Storm等計算框架。在數(shù)據(jù)查詢和分析領域形成了豐富的SQL on Hadoop的解決方案,Hive、HAWQ、Impala、Presto、Drill等技術與傳統(tǒng)的大規(guī)模并行處理(massively parallel processor,MPP)數(shù)據(jù)庫競爭激烈。



大數(shù)據(jù)技術發(fā)展趨勢

      2014年以后,整體大數(shù)據(jù)的技術棧已經(jīng)趨于穩(wěn)定,由于云計算、人工智能等技術發(fā)展,還有芯片、內存端的變化,大數(shù)據(jù)技術也在發(fā)生相應的變化。總結來看主要有幾點發(fā)展趨勢:

      一是流式架構的更替,最早大數(shù)據(jù)生態(tài)沒有辦法統(tǒng)一批處理和流計算,只能采用Lambda架構,批的任務用批計算引擎,流式任務采用流計算引擎,比如批處理采用MapReduce,流計算采用Storm。后來Spark試圖從批的角度統(tǒng)一流處理和批處理,Spark Streaming采用了micro-bach的思路來處理流數(shù)據(jù)。近年來純流架構的Flink異軍突起,由于其架構設計合理,生態(tài)健康,近年來發(fā)展特別快。而Spark近期也拋棄了自身微批處理的架構,轉向了純流架構Structure Streaming,流計算的未來霸主還未見分曉。

      二是大數(shù)據(jù)技術的云化,一方面是公有云業(yè)務的成熟,眾多大數(shù)據(jù)技術都被搬到了云上,其運維方式和運行環(huán)境都發(fā)生了較大變化,帶來計算和存儲資源更加的彈性變化,另一方面,私有部署的大數(shù)據(jù)技術也逐漸采用容器、虛擬化等技術,期望更加精細化地利用計算資源。

     三是異構計算的需求,近年來在通用CPU之外,GPU、FPGA、ASIC等芯片發(fā)展迅猛,不同芯片擅長不同的計算任務,例如GPU擅長圖像數(shù)據(jù)的處理,大數(shù)據(jù)技術開始嘗試根據(jù)不同任務來調用不同的芯片,提升數(shù)據(jù)處理的效率。

      四是兼容智能類的應用,隨著深度學習的崛起,AI類的應用越來越廣泛,大數(shù)據(jù)的技術棧在努力兼容AI的能力,通過一站式的能力來做數(shù)據(jù)分析和AI應用,這樣開發(fā)者就能在一個工具站中編寫SQL任務,調用機器學習和深度學習的算法來訓練模型,完成各類數(shù)據(jù)分析的任務。

總結與展望


      數(shù)據(jù)管理技術已經(jīng)發(fā)展了50多年了,大數(shù)據(jù)技術是在數(shù)據(jù)管理技術的基礎上,面向大規(guī)模數(shù)據(jù)分析的技術棧,它主要是分布式架構的設計思路,通過并行計算的方式來提升處理效率,同時具備了高擴展能力,根據(jù)業(yè)務需求隨時擴展。經(jīng)過15年左右的發(fā)展,大數(shù)據(jù)的技術棧逐漸成熟,然而近年來云計算、人工智能等技術的發(fā)展,還有底層芯片和內存端的變化,以及視頻等應用的普及,都給大數(shù)據(jù)技術帶來新的要求。未來大數(shù)據(jù)技術會沿著異構計算,融合,云化,兼容AI,內存計算等方向持續(xù)更迭,5G和物聯(lián)網(wǎng)應用的成熟,又將帶來海量視頻和物聯(lián)網(wǎng)數(shù)據(jù),支持這些數(shù)據(jù)的處理也會是大數(shù)據(jù)技術未來發(fā)展的方向。



文章來源:中國信通院