無論國內外,大公司對數據都有着無窮無盡的渴望,隨着業務開展,數據來源越來越多,數據格式多樣,體量也越來越大,因此基於結構化數據的關係型數據庫很快趨於瓶頸。公司們都在思考着如何尋找一個合適的工具來解決大數據量下的計算和存儲問題。你可能會想到超算和HPC,但只有幾個巨頭玩得起,中小企業基本很難承擔其自建費用。後來,谷歌連發了3篇關鍵性的論文:GoogleFS, MapReduce和BigTable,給各大公司指明瞭一個在大規模計算和存儲上的方向,隨後雅虎又將MapReduce, hdfs和Hbase開源到Hadoop生態中,這標誌着Hadoop正式進入人們視野。
後來,不僅是中小企業,其他大型公司也開始關注並加入到Hadoop社區,進而產生連帶效應,使其快速發展壯大起來。過去一段時間,以kubernetes為代表的微服務正在逐步替代Hadoop的部分功能,但Hadoop生態的豐富和完整性在短時間內是很難被替代的。
Hadoop架構在廉價的硬件服務器上,不需要按昂貴的硬件做支撐;產品開源免費。
所以,選擇Hadoop的原因最重要的就是這3點:可以解決問題,成本低,成熟的生態圈。