Muranaga's Golf

46歳でゴルフを始めて10数年。シニアゴルファーが上達をめざして苦労する日々をつづります

来た来た! Amazon + Hadoop = Amazon Elastic MapReduce


顧客からのフィードバックを受け、地道に改良を積み重ねていく Amazon が、パブリック・クラウド業界を当面のところリードし続けるように思う。

と書いたその日に、AmazonHadoop を使った Amazon Elastic MapReduce のベータ版サービス開始を発表した。いよいよ他のパブリック・クラウド・プロバイダを引き離しにかかった感がある。


  • 第4章 Google の分散データ処理
    • MapReduce:大規模分散ストレージ上のデータを効率よく処理するための独自のアブストラクションとして Map と Reduce を提案。開発者は用途ごとに Map と Reduce の関数(処理)を定義、その分散化はシステムが自動的に行ってくれる。→原論文

『Googleを支える技術 -- 巨大システムの内側の世界』の第4章で紹介されているように、MapReduceGoogle が開発した大規模分散ストレージ上にあるデータの並列処理技術であり、Hadoop はそのオープンソースの実装である。Googleクラウド環境(たとえば Google AppEngine)だとプログラミング言語Python に限定されるが、Amazon Elastic MapReduce では、JavaRubyPerlPythonPHP、R、C++ の中から選択することができる。


Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ) 集合知プログラミング

AmazonクラウドAmazon Web Services)の魅力は、手元に PC 1台とクレジットカードさえあれば、大規模な並列計算機とストレージを使うことができることにある。大量の情報のインデックス付け、シミュレーション、データマイニング集合知プログラミング…。世の中に溢れ出る生データを利用できる形式に変換したり、あるいは意味のある情報を抽出したりする大規模な計算を、分散・並列処理の勉強をきちんとしさえすれば、誰もが実行できる時代である。

追記

クラウド・コンピューティングに関するエントリ