摘要:在“基于Spark軟件棧的下一代大數(shù)據(jù)分析”演講之后,我們采訪了英特爾大數(shù)據(jù)首席架構(gòu)師戴金權(quán)。深入了解了Spark應(yīng)用場(chǎng)景、技術(shù)制約和未來(lái)發(fā)展方向,解讀了“Spark是Hadoop生態(tài)中下一代處理引擎和分析引擎”的原因。
2014中國(guó)大數(shù)據(jù)技術(shù)大會(huì)上,英特爾大數(shù)據(jù)首席架構(gòu)師戴金權(quán)發(fā)表了題為《基于Spark軟件棧的下一代大數(shù)據(jù)分析》的演講,涵蓋Reliability of Spark Streaming、SQL processing on Spark、Spark Stream-SQL、Tachyon hierarchical storage和Analytics&SparkR等多方面內(nèi)容。對(duì)于關(guān)注Spark技術(shù)的與會(huì)者而言,極有價(jià)值。為進(jìn)一步解析“Spark是Hadoop生態(tài)中下一代的處理引擎和分析引擎”這一鮮明的觀點(diǎn),CSDN云計(jì)算特別采訪了這位Apache Spark PMC成員,擁有多項(xiàng)美國(guó)專利的技術(shù)專家。
英特爾大數(shù)據(jù)首席架構(gòu)師 戴金權(quán)
在戴金權(quán)看來(lái),Hadoop將MapReduce分布式計(jì)算和大數(shù)據(jù)技術(shù)帶入主流應(yīng)用。但隨著大數(shù)據(jù)需求和使用模式的推廣,Hadoop已經(jīng)暴露諸多局限性。特別是越來(lái)越多的數(shù)據(jù)應(yīng)用,如需要對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)實(shí)時(shí)的深度挖掘和分析時(shí),業(yè)內(nèi)需要超越MapReduce的全新大數(shù)據(jù)分析模式。也正是看準(zhǔn)了Spark的發(fā)展趨勢(shì),英特爾早在2-3年前就已經(jīng)和UC Berkeley一起緊密合作,圍繞Apache Spark做出大量貢獻(xiàn)。
相比MapReduce,Spark在這些需求中極有優(yōu)勢(shì):
對(duì)不同來(lái)源、不間斷輸入數(shù)據(jù)進(jìn)行準(zhǔn)實(shí)時(shí)的流式處理;
對(duì)海量數(shù)據(jù),使用大規(guī)模、復(fù)雜的機(jī)器學(xué)習(xí)和圖計(jì)算,進(jìn)行深度挖掘和分析;
使用分布式高速內(nèi)存數(shù)據(jù)緩存,以支持交互式、迭代計(jì)算和數(shù)據(jù)分析。
但要明確的是,Spark雖然有諸多優(yōu)勢(shì),但也有不足。如企業(yè)使用內(nèi)存處理成本較高,且Spark在使用SQL查詢數(shù)據(jù)的時(shí)候效果并不十分理想。談到這些,戴金權(quán)表示:“Spark確實(shí)能夠高效利用內(nèi)存進(jìn)行不管是實(shí)時(shí),還是復(fù)雜性分析。但有兩方面要強(qiáng)調(diào)下,一是Spark不只是在內(nèi)存中進(jìn)行,考慮到成本等原因,可以將內(nèi)存做高效緩存,并由底層的多種存儲(chǔ)介質(zhì)來(lái)實(shí)現(xiàn),如內(nèi)存、SSD、其他存儲(chǔ)系統(tǒng)等,這樣作為整體實(shí)現(xiàn)管理,不論是可靠性還是性能都更出色,我們已經(jīng)在這方面做了大量工作。二是SQL是分析和處理的一個(gè)重要場(chǎng)景,所以社區(qū)中,包含Cloudera、Intel、 MapR、Databricks、IBM等都在做這方面的工作,預(yù)計(jì)Hive on Spark 社區(qū)Beta版在2015年上半年會(huì)發(fā)布,Spark SQL也在Spark中提供了原生的SQL支持;相信這些工作能更好地提供Spark對(duì)SQL的查詢,讓SQL處理可以用到Spark各種各樣的優(yōu)勢(shì)。”
值得注意的是,作為大數(shù)據(jù)領(lǐng)域的兩項(xiàng)新技術(shù),Spark和R的結(jié)合。今年8月,Rexer Analytics咨詢公司調(diào)查顯示,70%的調(diào)查對(duì)象稱他們正在使用R語(yǔ)言。而數(shù)據(jù)顯示,從2010年開始到2013年,使用R的人群是陡然劇增的。但R也有不得不面對(duì)的挑戰(zhàn)。如R分散于各節(jié)點(diǎn)或各服務(wù)器,各節(jié)點(diǎn)或各服務(wù)器單獨(dú)運(yùn)行,盡管有利于行的獨(dú)立分析處理,例如模型評(píng)分,但并不利于分析功能所需要的所有數(shù)據(jù),例如模型搭建等。要突破開源R語(yǔ)言的限制,SparkR需要做的更多。
對(duì)于這個(gè)問(wèn)題,戴金權(quán)非常坦率:“R在大數(shù)據(jù)中進(jìn)行復(fù)雜分析,尤其是數(shù)學(xué)模型時(shí),提供了極好編程環(huán)境,非常重要。這也是英特爾和UC Berkeley在這方面合作的原因。但SparkR確實(shí)是處于早期的一個(gè)項(xiàng)目,在如突破單機(jī)性能走入分布式環(huán)境、如何實(shí)現(xiàn)和Spark內(nèi)部的分析組件的結(jié)合,怎么能幫用戶更高效用R來(lái)實(shí)現(xiàn)分布式分析等方面,還需要探索。目前,社區(qū)中已有比較多的應(yīng)用研究,但在工業(yè)應(yīng)用中還很少,這也是我們合作的重點(diǎn)。”
是的,Spark在今年早些時(shí)候剛成為Apache的頂級(jí)項(xiàng)目,而2-3年前,其還是英特爾和UC Berkeley合作的一個(gè)研究項(xiàng)目。Spark的發(fā)展時(shí)間相比其他項(xiàng)目確實(shí)比較短。但業(yè)內(nèi)對(duì)其關(guān)注和使用的增長(zhǎng)速度都非常快。在Apache社區(qū)活躍度甚至可以排名。而生產(chǎn)環(huán)境需要時(shí)間,戴金權(quán)認(rèn)為:“從大家覺(jué)得它好,到試用,然后生產(chǎn)上線,再到大規(guī)模推廣,這肯定是一個(gè)過(guò)程。已經(jīng)有非常多的人把Spark應(yīng)用在生產(chǎn)的環(huán)境當(dāng)中,然后再慢慢把它推廣。隨著Spark對(duì)更多功能的支持,如SQL的支持、R的支持、機(jī)器學(xué)習(xí)的支持,相信其應(yīng)用場(chǎng)景會(huì)越來(lái)越廣泛。”
事實(shí)上,Spark的參與者已經(jīng)越來(lái)越多。英特爾也在和眾多的開源社區(qū)和行業(yè)合作伙伴如Cloudera、Databricks、UC Berkeley、華為等在Spark方面緊密合作。從另一個(gè)層面來(lái)說(shuō),英特爾在底層基礎(chǔ)設(shè)施和平臺(tái)級(jí)別也在做大量工作,幫助更多伙伴提供適合用戶需求的方案。
Hadoop已經(jīng)成為大數(shù)據(jù)工業(yè)級(jí)的標(biāo)準(zhǔn),有很多組件,如Hive、Hbase、HDFS等。而Spark也是Hadoop生態(tài)系統(tǒng)中非常重要的組成部分。戴金權(quán)對(duì)其的定義是“Hadoop生態(tài)中下一代分析的引擎或者數(shù)據(jù)處理的引擎”。當(dāng)然,這也是業(yè)內(nèi)的共識(shí)。
本站文章版權(quán)歸原作者及原出處所有 。內(nèi)容為作者個(gè)人觀點(diǎn), 并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。本站是一個(gè)個(gè)人學(xué)習(xí)交流的平臺(tái),網(wǎng)站上部分文章為轉(zhuǎn)載,并不用于任何商業(yè)目的,我們已經(jīng)盡可能的對(duì)作者和來(lái)源進(jìn)行了通告,但是能力有限或疏忽,造成漏登,請(qǐng)及時(shí)聯(lián)系我們,我們將根據(jù)著作權(quán)人的要求,立即更正或者刪除有關(guān)內(nèi)容。本站擁有對(duì)此聲明的最終解釋權(quán)。