Amazon EMR是一個托管的集群平臺,它簡化了大數據框架(如 Apache Hadoop和 Apache Spark)在AWS上的運行,可以處理和分析大量的數據。通過使用這些框架和相關的開源軟件,如 Apache Hive和 Apache Pig,你可以處理數據,實現分析的目的和處理商業智能負荷。先是在2009年投放市場(詳見博客帖 Announcing Amazon Elastic MapReduce),從那時起我們已經增添了綜合的控制臺支持和很多很多的特性。一些新的特性包括:
支持S3加密(服務器側和客戶端側)
對EMRFS(EMR文件系統)的持續關注
通過Hive/DynamoDB Connector(Hive/DynamoDB連接器)進行的數據導入,導出和查詢
增強的CloudWatch測量指標
今天我們要發布Amazon EMR 4.0.0版本。該版本對平臺做了很多改進。它包含了Hadoop生態系統應用和Spark的很多更新版本,這些更新后的版本可以安裝在集群中,改善應用配置體驗。作為該版本的一部分,我們也調整了一些端口和路徑以便更好地與一些Hadoop和Spark標準和約定對齊。與其他未出現在離散版本中,需要在后臺頻繁地更新的AWS業務不同,EMR擁有版本化的更新以便你可以利用特定EMR版本發布的特性或應用來寫程序和腳本。
如果你正在使用AMI 2.x或3.x版本,請閱讀 EMR Release Guide(EMR版本指南),了解如何遷移到4.0.0版本。
應用更新
EMR用戶從Hadoop生態系統訪問很多應用。EMR 4.0.0版本在以下方面做了更新:
Hadoop 2.6.0–Hadoop的這一版本包含了很多常規功能和易用性優化。
Hive 1.0–Hive的這一版本包含了性能增強,額外的SQL支持和一些新的安全特性。
Pig 0.14–Pig的這一版本特點是一個全新的ORCStorage等級,謂詞下推以便改進性能,漏洞修復等等。
Spark 1.4.1–Spark的這一版本包含SparkR和全新的Dataframe API的綁定,以及很多小特性和漏洞修復。
控制臺快速集群創建
你現在可以從控制臺使用Quick cluster configuration頁面創建EMR集群了:

改進的應用配置編輯
在Amazon EMR AMI 2.x和3.x版本中,引導動作主要用來在集群中配置應用。隨著Amazon EMR 4.0.0版本的發布,我們已經改善了配置體驗,在創建集群時提供直接的方法編輯應用的默認配置。我們已經能夠將包含待編輯配置文件的清單和待修改文件中的配置信息進行傳遞。你可以創建一個配置對象,從 CLI, EMR API或控制臺引用該對象。你可以在本地存儲配置信息或將信息存儲在S3中并提供對該信息的引用(如果你正在使用控制臺,創建集群時,點擊 Go to advanced options設置配置值或使用配置文件):

想要了解更多信息,請參閱 Configuring Applications(配置應用)。
新的打包體系/標準端口和路徑
我們現在的版本打包系統是基于 Apache Bigtop的。你可以增添新應用并更快地將新應用添加到EMR中。
我們也在EMR 4.0.0版本中對大部分端口和路徑使用了開源標準。想要了解這些變化的更多信息,請參閱 Differences Introduced in 4.x(4.x版本中引進的新變化)。

針對Spark額外的EMR配置選項
EMR團隊讓我分享一些技術技巧:
Spark on YARN能夠動態地伸縮Spark應用所使用的執行器的數量。你仍然需要在spark-defaults配置文件中設置執行器可用的內存(通過spark.executor.memory參數設置)和核數(通過spark.executor.cores參數設置),但是YARN將會自動地向Spark應用分配所需數量的執行器。想要啟動執行器的動態分配功能,將spark-defaults配置文件中spark.dynamicAllocation.enabled的值設為true。此外,Spark shuffle業務在Amazon EMR中默認開啟,所以你不需要再開啟這項業務。
在創建集群時,你可以將maximizeResourceAllocation選項設置為true,從而配置執行器盡可能利用每個節點上多的資源。你也可以在創建集群時在配置對象中將這一屬性添加到“spark”分類中從而實現這一選項設置。該選項計算核心節點組每一個節點上的每一個執行器的大計算能力和可用的內存資源大量,并使用該信息設置spark-defaults文件中的相應配置。它也設置執行器的數量,通過將spark.executor.instances設置為集群創建時設定的初核心節點來實現。但是,請注意,你不能使用該設置,你同時也必須啟動執行器的動態分配。
想要了解這些選項的更多信息,請參閱 Configure Spark(配置Spark).
現在可用
以上所列的所有特性現在都可用了,你今天就可以開始使用它們了。如果你是大規模數據處理和EMR的新手,請閱讀 Getting Started with Amazon EMR(Amazon EMR入門)頁。你將會發現一個新的教學視頻和關于訓練和專業服務的信息,所有這些都旨在幫助你了解EMR 4.0.0并快速有效地運行它。
本站文章版權歸原作者及原出處所有 。內容為作者個人觀點, 并不代表本站贊同其觀點和對其真實性負責,本站只提供參考并不構成任何投資及應用建議。本站是一個個人學習交流的平臺,網站上部分文章為轉載,并不用于任何商業目的,我們已經盡可能的對作者和來源進行了通告,但是能力有限或疏忽,造成漏登,請及時聯系我們,我們將根據著作權人的要求,立即更正或者刪除有關內容。本站擁有對此聲明的最終解釋權。