了解Hadoop就像是在打開大數據這扇門。首先它本身是一個分布式計算架構,更重要的是它是一個可擴展的生態系統,像IBM,EMC,Amazon,微軟,甲骨文等大型IT公司都已經有了基于Hadoop的商業化大數據產品。雖然現在還有比Hadoop更為先進的分布式架構(Dremel,DataFlow等),但也都是基于Hadoop的改進升級,因此也說Hadoop是大數據的基礎,基礎的穩固決定了未來能走多遠!!以下是小編為你整理的大數據主要學哪些內容 ?
Hadoop是什么 ?
Hadoop是一個大家族,是一個開源的生態系統,是一個分布式運行系統,是基于Java編程語言的架構。不過它*明的技術還是HDFS和MapReduce,使得它可以分布式處理海量數據。 ?
HDFS(分布式文件系統): ?
它與現存的文件系統不同的特性有很多,比如高度容錯(即使中途出錯,也能繼續運行),支持多媒體數據和流媒體數據訪問,高效率訪問大型數據集合,數據保持嚴謹一致,部署成本降低,部署效率提交等,如圖是HDFS的基礎架構
MapReduce(并行計算架構): ?
它可以將計算任務拆分成大量可以獨立運行的子任務,接著并行運算,另外會有一個系統調度的架構負責收集和匯總每個子任務的分析結果。其中 包含映射算法與規約算法。 ?
Cetas項目關注點 ?
在線應用分析: ?
及時乃至實時的決策提供了投資的成功可能性!隨著各式各樣應用產生不規則的數據產生,這些數據到底想告訴你我什么呢?我們相信大數據將提供一個遠見,一個對客戶的洞察。那就沒有理由去懷疑,基于用戶的產品和服務會成功!Cetas提供了一個易于管理,自助服務的虛擬環境,支持企業自定義創建多種應用。這里提供了多維度的行為分析和大量高級的分析算法。 ?
IT運營分析: ?
除了提供在線應用實時的高級分析之外,還能分析IT運營管理,提供企業的管理運營能力。這為企業提供了對企業IT運營效果的面面觀。 ?
企業Hadoop分析: ?
為企業或個人提供可擴展,高性能的Hadoop自助分析平臺,也提供了可視化的數據發現功能,并且嵌入了大量先進的機器學習算法,這些都促進研究和深度挖掘大數據所隱藏的內容。甚至如果你有建模的需要,這個平臺也能滿足你!! ?
從虛擬化的基礎上創建起的這三項服務,分別面向私人,公共,甚至是公私混合。從而Cetas使得大數據分析更加輕量化,這也是VMware公司收購Cetas之后加大投入的方向。 ?
如今Cetas加入VMware的大家族,未來將被賦予更重要的角色和作用。這方面也讓我們拭目以待VMware這架虛擬化馬車駛出的大數據分析之路。 ?
Hadoop起源 ?
Hadoop有個背景,就是起源于Apache Lucene項目中的一個搜索引擎Nutch。Lucene目前是世界上*,并且開源的搜索引擎框架和產品。Lucene本身就有非常多好的大數據經驗和思路。這為Hadoop預備了巨大能量,使得Hadoop注定是一個偉大的產品。 ?
Hadoop命名:
?
其實是一個孩子給棕黃色大象的命名。Hadoop圖標在本系列中也隨處可見。Google也是一個這樣的例子。這樣有一個很好的點就是想到Hadoop,就會想到大數據,而不會是其他。 ?
Hadoop目標: ?
Hadoop的出現是為了解決搜索引擎無法接受數以億計單位的數據量的問題。借助Google分享的GFS和MapReduce成熟理論,Hadoop一躍而出,成功解決了海量數據存儲和搜索的架構問題。未來Hadoop將支持更巨大的數據和更智能的數據管理。 ?
Pig基礎知識 ?
Pig是進行Hadoop計算的另一種框架,是一個高級過程語言,適合于使用 Hadoop 和 MapReduce 平臺來查詢大型半結構化數據集。通過允許對分布式數據集進行類似 SQL 的查詢,Pig 可以簡化 Hadoop 的使用。 ?
1、Pig概述 2、安裝Pig 3、使用Pig完成手機流量統計業務 ?
Hive ?
hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用。 ?
1、數據倉庫基礎知識 2、Hive定義 3、Hive體系結構簡介 4、Hive集群 5、客戶端簡介 6、HiveQL定義 7、HiveQL與SQL的比較 8、數據類型 9、表與表分區概念 10、表的操作與CLI客戶端 11、數據導入與CLI客戶端 12、查詢數據與CLI客戶端 13、數據的連接與CLI客戶端 14、用戶自定義函數(UDF) ?