分散並列環境における機械学習

岡野原 大輔

2011-02-24 14:17:27

もうすぐ春ですね。花粉さえ飛ばなければ最高なのに。岡野原です。

先日、Hadoop Conference Japan 2011で、”MapReduceによる大規模データを利用した機械学習”というタイトルで発表しました。

発表内容は三部構成になっています。

最初に、機械学習の基本と、それがMapReduceとどのような関係にあるかを紹介しました。その中でHadoop上で動く機械学習ライブラリMahoutの簡単な紹介をしました。

次に、機械学習の最前線ではどのような問題が解かれているかを紹介し、グラフィカルモデルの例、一般の最適化(教師付き学習におけるパラメータ学習)の分散並列化についての話題をしました。

最後に、MapReduceの補完として使えるようなシステムの例としてdremelを紹介しました。このシステムはMapReduceがバッチ型処理で、全データが処理対象の場合が得意なのに対し、一部のデータのみを参照して簡単な解析をする場合のアドホッククエリが得意なシステムです。このシステムについては登場の時からずっと興味を持っており、いろいろな発展形が考えられると思います。基本的に検索索引と構造は似ているので、そのあたりでの技術の交流ができそうですし、機械学習の高速推論とか新しい問題でも使えそうです。

また先週は、これと関連する形でT-PRIMAL 公開勉強会 NIPS2010読む会で、LCCC2010のワークショップでの発表を紹介しました。上の資料と使い回しの部分が多いのですが、より数式とか機械学習の部分とか突っ込んだ内容になっていますので興味のある方はこちらも参考にしてください。またスライドでは略証しかありませんがIterative Parameter Mixtureの収束証明とかは元論文のを追って見てみると面白いと思います。

LCCC2010:Learning on Cores, Clusters and Cloudsの解説

私自身、1台の限られたリソース上でいかに高速化し効率的に処理をするかが好きで分散並列に興味を持ったのは遅めだったのですが、この世界はこの世界でいろいろやることがあって面白いです。
もしこれらのスライドで少しでも興味を持つ人が増えていただければ幸いです。

STOC 2011 論文紹介

oxy
エンジニア

2011-02-13 13:15:00

吉田です。最近ACM Symposium on Theory of Computing (STOC)という学会に投稿していた論文が受理されました。論文はECCCにアップロードしています。STOCは次回が43回目の開催となる理論計算機科学(要するにアルゴリズムと計算量を扱う分野)の中では最高峰の学会です。例えばCookが初めてNP完全性という概念を提唱したのもSTOCです。
今年は4年に一度のFederated Computing Research Conference (FCRC)というイベントがあり、STOCの他にもEC (ゲーム理論、オークションなど), CCC (計算量)、PODC, SPAA (共に分散/並列アルゴリズム)など18個の学会が同時開催されます。逆に言うと18個のうちのどれかに論文が受理されれば全体に参加出来るお得なイベントで(勿論お金さえ出せば参加は可能ですが)、僕もどれかに当たれば良いなぐらいの気分でした。
折角ですので、今回はSTOCに通った論文の内容を簡単に紹介したいと思います。流石に細部まで話をするのは技術的になりすぎてしまうので、雰囲気だけ感じ取ってもらえれば十分です。もう少し詳しい所まで踏み込んだスライドを最後に添付しておきますので、興味のある方は読んでみてください。’
続きを読む »

Enumerator Package – Yet Another Iteratee Tutorial

preferred

2011-02-10 14:30:18

バレンタインチョコ欲しい! 田中です。

Iterateeの素晴らしいチュートリアルを見つけたので、今回はその翻訳をお届けしようと思います。以前、The Monad Reader Issue 16 のiterateeの記事をベースにした解説記事を書いたのですが、こちらの記事はかなり概念的なところから始まり、結構天下り的にiterateeの定義を受け入れていたのに対して、こちらの記事は、一貫して具体例からの抽象化で話が進み、また易しく書かれているので、比較的理解しやすいと思います。また、実際の実装に即して解説されていますので、読み終えて即実際に使ってみることが出来るでしょう。

このチュートリアルを書かれたMichael Snoymanという方は、現在YesodというHaskellのWebフレームワークを精力的に開発されています。Yesodには実際にiterateeがふんだんに用いられており、それが堅牢でハイパフォーマンスのWebサーバを支えています。このWebフレームワークも大変面白く興味深いものですので、またいずれ紹介したいと思います。

続きを読む »

劣微分を用いた最適化手法について(完)

preferred

2011-02-04 18:27:01

もう2月ですが、新年明けましておめでとうございます。徳永です。残り11ヶ月、頑張ってまいりましょう。

続きを読む »

MinHashによる高速な類似検索

岡野原 大輔

2011-02-02 17:08:17

年が明けてもう一ヶ月経ちましたね.岡野原です.

今日はMinHashと呼ばれる手法を紹介します.これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている).

続きを読む »