読者です 読者をやめる 読者になる 読者になる

PythonでParquetフォーマットを扱ってみたいので調べていた

ParquetフォーマットをPythonから扱ってみたいので調べていた。 GitHub - jcrobak/parquet-python: python implementation of the parquet columnar file format. githubにあったものを見つけたけど、まだバグが結構あるっぽい。書き込みなども実装されてな…

HDFSのNFS Gatewayを試してみた

CDH5.0がリリースされていたのでHDFSのNFSGatewayを試した。 ClouderaManagerからnfsgatewayを追加して起動するだけ。 nfsgatewayを動かすホストでportmapサービスが動いていないと起動に失敗した。 CentOS6.5だと、portmapサービスはrpcbindで起動できる。 …

Apache Sparkを試す

CDH5の環境を手元に作ったので、Apache Sparkを使ってみる。 依存はHDFSのみ。Masterが1台でWorkerが複数台の構成なのかな。 ClouderaManagerで設定して起動するとWebUIがデフォルトでは18080ポートになっていた。 Pythonから使う場合はpysparkコマンドとな…

CDH5 beta2とClodueraManager5 beta2をセットアップしてみた

CDH5 beta2とClodueraManager5をCentOS6にセットアップしてみたのでメモやら雑感。 ClodueraManager5のパッケージリポジトリ http://archive.cloudera.com/cm5/ yumで使うなら以下。 # curl http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/cloudera-ma…

Cloudera QuickStart VMを使ってImpalaを試してみる

HDFSやHive、Impalaなど、Hadoop関連のソフトウェアやCloudera Managerの動作やをちょっと見てみたい、という場合、Clouderaが公開しているCloudera QuickStart VMを使うと良い。 https://ccp.cloudera.com/display/SUPPORT/Cloudera+QuickStart+VM VMWare、…

Hadoopについてメモ書き

ちょっと必要になったのでHadoopについて調べたりしてた。メモ書き。 Welcome to Apache™ Hadoop®! Hadoopっていくつかのソフトウェアで構成された分散システムの基盤なんすね。 HDFSが分散ファイルシステム MapReduceが巨大なデータに対して並列処理できる…