Apache Spark日益受到關(guān)注,表明了數(shù)據(jù)流在大數(shù)據(jù)生態(tài)系統(tǒng)中變得到底有多重要。在上個(gè)月于圣何塞召開(kāi)的Strata + Hadoop World大會(huì)上,實(shí)時(shí)數(shù)據(jù)及支持它的技術(shù)也許是耀眼的明星。
所以,Apache Apex本周被Apache軟件基金會(huì)提升為一個(gè)頂級(jí)項(xiàng)目(TLP)可能并非巧合。面向Hadoop的這個(gè)數(shù)據(jù)流和批量處理引擎被通用電氣Predix物聯(lián)網(wǎng)云平臺(tái)用于工業(yè)數(shù)據(jù)和分析,并被資本用于實(shí)時(shí)決策和欺詐檢測(cè)。
2012年,DataTorrent初開(kāi)發(fā)了這項(xiàng)技術(shù),后來(lái)在2015年8月把它貢獻(xiàn)給了Apache軟件基金會(huì),作為一個(gè)孵化器項(xiàng)目。
泰德·鄧寧(Ted Dunning)是Apache孵化器的副總裁,Apache Apex孵化器導(dǎo)師,也是MapR Technologies公司的首席應(yīng)用架構(gòu)師。他在一份事先準(zhǔn)備好的聲明中說(shuō):“Apache Apex這個(gè)例子表明,新一代的高級(jí)流處理軟件比之前的方案大大增添了技術(shù)和功能。”
Apache Apex能夠在Apache Hadoop上實(shí)現(xiàn)數(shù)據(jù)流分析。其目的在于充分利用Hadoop的兩大組件YARN和Hadoop分布式文件系統(tǒng)(HDFS)提供的基礎(chǔ)設(shè)施。Apache軟件基金會(huì)在宣布這項(xiàng)技術(shù)提升為頂級(jí)項(xiàng)目的聲明中表示,Apache Apex是一種大規(guī)模、高吞吐量、低延遲、容錯(cuò)、統(tǒng)一的大數(shù)據(jù)流和批量處理平臺(tái),面向Hadoop生態(tài)系統(tǒng)。
由于企業(yè)組織和開(kāi)發(fā)人員將實(shí)時(shí)分析功能嵌入到流程和應(yīng)用程序中,面向大數(shù)據(jù)及分析的數(shù)據(jù)流技術(shù)繼續(xù)變得越來(lái)越重要。知名調(diào)研機(jī)構(gòu)弗雷斯特研究公司在今年3月發(fā)布了Wave大數(shù)據(jù)流分析報(bào)告,關(guān)注了這個(gè)趨勢(shì),還介紹了提供這項(xiàng)技術(shù)的一些廠商。
弗雷斯特研究公司的分析師邁克“瓜爾蒂耶里(Mike Gualtieri)和羅恩”柯倫(Rowan Curran)也是這份報(bào)告的撰寫(xiě)者,他們寫(xiě)道:弗雷斯特將轉(zhuǎn)眼即逝的洞察力(perishable insights)定義為緊急的業(yè)務(wù)情況(風(fēng)險(xiǎn)和機(jī)遇),公司只能在短短的時(shí)間內(nèi)檢測(cè)這些情況,并采取相應(yīng)行動(dòng)。數(shù)據(jù)流分析解決方案可以幫助公司檢測(cè)高速數(shù)據(jù)流當(dāng)中的這類(lèi)洞察力,并實(shí)時(shí)采取相應(yīng)行動(dòng)。應(yīng)用程序開(kāi)發(fā)和交付專(zhuān)業(yè)人員不應(yīng)該僅僅認(rèn)為數(shù)據(jù)流分析只是一種用于事后分析的傳統(tǒng)分析技術(shù)。遠(yuǎn)非如此,數(shù)據(jù)流分析可立即分析數(shù)據(jù),分析后善加利用,可以讓各種各樣的應(yīng)用程序能夠感知場(chǎng)景,并變得更智能化。
弗雷斯特研究公司將Apache Apex的開(kāi)發(fā)者DataTorrent列入其Wave大數(shù)據(jù)流分析報(bào)告的領(lǐng)導(dǎo)者部分,與科技界的一些大牌公司為伍,比如IBM、Software AG、SAP、TIBCO Software、Oracle和SQLstream。
弗雷斯特公司的兩位分析師在報(bào)告中寫(xiě)道:DataTorrent是硅谷數(shù)一數(shù)二的數(shù)據(jù)流初創(chuàng)公司。在雅虎受過(guò)培訓(xùn)的幾位創(chuàng)始人構(gòu)建了一個(gè)數(shù)據(jù)流平臺(tái),處理世界上龐大、快速的數(shù)據(jù)。
弗雷斯特公司特別指出,DataTorrent還在竭力實(shí)現(xiàn)其他企業(yè)級(jí)要求,比如可視化開(kāi)發(fā)工具以及包括400多種運(yùn)算符的庫(kù)。
兩位撰寫(xiě)者得出結(jié)論:DataTorrent的核心現(xiàn)在已開(kāi)源(作為Apache Apex),不過(guò)它想在其他開(kāi)源數(shù)據(jù)流方案中脫穎而出將是個(gè)艱巨的挑戰(zhàn)。
Apache軟件基金會(huì)在宣布新的頂級(jí)項(xiàng)目狀態(tài)時(shí)表示,Apex讓開(kāi)發(fā)人員可以編寫(xiě)或重復(fù)使用一般的Java代碼,從而簡(jiǎn)化開(kāi)發(fā)Hadoop應(yīng)用程序的工作。這有助于盡量降低編寫(xiě)應(yīng)用程序所需的專(zhuān)業(yè)技能,因而縮短產(chǎn)品上市時(shí)間。
本站文章版權(quán)歸原作者及原出處所有 。內(nèi)容為作者個(gè)人觀點(diǎn), 并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。本站是一個(gè)個(gè)人學(xué)習(xí)交流的平臺(tái),網(wǎng)站上部分文章為轉(zhuǎn)載,并不用于任何商業(yè)目的,我們已經(jīng)盡可能的對(duì)作者和來(lái)源進(jìn)行了通告,但是能力有限或疏忽,造成漏登,請(qǐng)及時(shí)聯(lián)系我們,我們將根據(jù)著作權(quán)人的要求,立即更正或者刪除有關(guān)內(nèi)容。本站擁有對(duì)此聲明的最終解釋權(quán)。