ちょっと必要になったのでHadoopについて調べたりしてた。メモ書き。
Welcome to Apache™ Hadoop®!
Hadoopっていくつかのソフトウェアで構成された分散システムの基盤なんすね。
- HDFSが分散ファイルシステム
- MapReduceが巨大なデータに対して並列処理できるシステム
- HiveはSQLライクなクエリをHadoop上で実行できるシステム
- 他にもジョブスケジューラとかノード管理とかいろいろ。
- 1台のマシンで余裕で処理できるようなデータ量なら、Hiveを使わずにMySQLなどのRDBMSを使ったほうが速いぽい
Ubuntu12.04にインストールする場合は、ClouderaのCDH4を使えば簡単らしい。
https://ccp.cloudera.com/display/CDH4DOC/CDH4+Documentation
HiveよりCloudera Impalaのほうが速いけど、まだまだHiveよりできることが少ないらしい。
Cloudera Impala #pyfes 2012.11.24