分散並列環境における機械学習

Tag

# 大規模データ処理

# 機械学習

# 解説

Daisuke Okanohara

Executive Vice President

もうすぐ春ですね。花粉さえ飛ばなければ最高なのに。岡野原です。

先日、Hadoop Conference Japan 2011で、”MapReduceによる大規模データを利用した機械学習”というタイトルで発表しました。

発表内容は三部構成になっています。

最初に、機械学習の基本と、それがMapReduceとどのような関係にあるかを紹介しました。その中でHadoop上で動く機械学習ライブラリMahoutの簡単な紹介をしました。

次に、機械学習の最前線ではどのような問題が解かれているかを紹介し、グラフィカルモデルの例、一般の最適化（教師付き学習におけるパラメータ学習）の分散並列化についての話題をしました。

最後に、MapReduceの補完として使えるようなシステムの例としてdremelを紹介しました。このシステムはMapReduceがバッチ型処理で、全データが処理対象の場合が得意なのに対し、一部のデータのみを参照して簡単な解析をする場合のアドホッククエリが得意なシステムです。このシステムについては登場の時からずっと興味を持っており、いろいろな発展形が考えられると思います。基本的に検索索引と構造は似ているので、そのあたりでの技術の交流ができそうですし、機械学習の高速推論とか新しい問題でも使えそうです。

MapReduceによる大規模データを利用した機械学習 from Preferred Networks

また先週は、これと関連する形でT-PRIMAL 公開勉強会 NIPS2010読む会で、LCCC2010のワークショップでの発表を紹介しました。上の資料と使い回しの部分が多いのですが、より数式とか機械学習の部分とか突っ込んだ内容になっていますので興味のある方はこちらも参考にしてください。またスライドでは略証しかありませんがIterative Parameter Mixtureの収束証明とかは元論文のを追って見てみると面白いと思います。

LCCC2010:Learning on Cores, Clusters and Cloudsの解説 from Preferred Networks

私自身、1台の限られたリソース上でいかに高速化し効率的に処理をするかが好きで分散並列に興味を持ったのは遅めだったのですが、この世界はこの世界でいろいろやることがあって面白いです。

もしこれらのスライドで少しでも興味を持つ人が増えていただければ幸いです。

Tag

# 大規模データ処理

# 機械学習

# 解説