日本語かな漢字変換における識別モデルの適用とその考察について

preferred

2011-03-15 20:35:41

豊橋で豊橋カレーうどんを食べてきました。徳永です。

金曜日から大変な地震が発生しています。被災地の皆様のご無事と、救助に向かわれた方のご無事をお祈りいたします。

さて、今回は、3/7〜3/11の間、豊橋技科大で行われた2011年の言語処理学会年次大会の参加報告をしたいと思います。私はC4セッション(日本語入力における言語処理(1))で、「C4-6 日本語かな漢字変換における識別モデルの適用とその考察」というタイトルで発表してきました。

続きを読む »

分散並列環境における機械学習

岡野原 大輔

2011-02-24 14:17:27

もうすぐ春ですね。花粉さえ飛ばなければ最高なのに。岡野原です。

先日、Hadoop Conference Japan 2011で、”MapReduceによる大規模データを利用した機械学習”というタイトルで発表しました。

発表内容は三部構成になっています。

最初に、機械学習の基本と、それがMapReduceとどのような関係にあるかを紹介しました。その中でHadoop上で動く機械学習ライブラリMahoutの簡単な紹介をしました。

次に、機械学習の最前線ではどのような問題が解かれているかを紹介し、グラフィカルモデルの例、一般の最適化(教師付き学習におけるパラメータ学習)の分散並列化についての話題をしました。

最後に、MapReduceの補完として使えるようなシステムの例としてdremelを紹介しました。このシステムはMapReduceがバッチ型処理で、全データが処理対象の場合が得意なのに対し、一部のデータのみを参照して簡単な解析をする場合のアドホッククエリが得意なシステムです。このシステムについては登場の時からずっと興味を持っており、いろいろな発展形が考えられると思います。基本的に検索索引と構造は似ているので、そのあたりでの技術の交流ができそうですし、機械学習の高速推論とか新しい問題でも使えそうです。

また先週は、これと関連する形でT-PRIMAL 公開勉強会 NIPS2010読む会で、LCCC2010のワークショップでの発表を紹介しました。上の資料と使い回しの部分が多いのですが、より数式とか機械学習の部分とか突っ込んだ内容になっていますので興味のある方はこちらも参考にしてください。またスライドでは略証しかありませんがIterative Parameter Mixtureの収束証明とかは元論文のを追って見てみると面白いと思います。

LCCC2010:Learning on Cores, Clusters and Cloudsの解説

私自身、1台の限られたリソース上でいかに高速化し効率的に処理をするかが好きで分散並列に興味を持ったのは遅めだったのですが、この世界はこの世界でいろいろやることがあって面白いです。
もしこれらのスライドで少しでも興味を持つ人が増えていただければ幸いです。

Enumerator Package – Yet Another Iteratee Tutorial

preferred

2011-02-10 14:30:18

バレンタインチョコ欲しい! 田中です。

Iterateeの素晴らしいチュートリアルを見つけたので、今回はその翻訳をお届けしようと思います。以前、The Monad Reader Issue 16 のiterateeの記事をベースにした解説記事を書いたのですが、こちらの記事はかなり概念的なところから始まり、結構天下り的にiterateeの定義を受け入れていたのに対して、こちらの記事は、一貫して具体例からの抽象化で話が進み、また易しく書かれているので、比較的理解しやすいと思います。また、実際の実装に即して解説されていますので、読み終えて即実際に使ってみることが出来るでしょう。

このチュートリアルを書かれたMichael Snoymanという方は、現在YesodというHaskellのWebフレームワークを精力的に開発されています。Yesodには実際にiterateeがふんだんに用いられており、それが堅牢でハイパフォーマンスのWebサーバを支えています。このWebフレームワークも大変面白く興味深いものですので、またいずれ紹介したいと思います。

続きを読む »

劣微分を用いた最適化手法について(完)

preferred

2011-02-04 18:27:01

もう2月ですが、新年明けましておめでとうございます。徳永です。残り11ヶ月、頑張ってまいりましょう。

続きを読む »

MinHashによる高速な類似検索

岡野原 大輔

2011-02-02 17:08:17

年が明けてもう一ヶ月経ちましたね.岡野原です.

今日はMinHashと呼ばれる手法を紹介します.これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている).

続きを読む »

劣微分を用いた最適化手法について(4)

preferred

2010-12-15 17:22:45

徳永です。進撃の巨人3巻が発売される頃までにはこのエントリを公開するつもりだったのですが、無理でした。

前回は、劣勾配法を紹介し、前々回で紹介した確率的勾配降下法と劣勾配法を比較した場合、劣勾配法を用いることによって微分不可能な点があっても最適化が可能になるけれど、解の品質には依然として問題がある場合があり、特にL1正則化に付いてはあまり良い結果が得られない、というところまでお話しました。

続きを読む »

劣微分を用いた最適化手法について(3)

preferred

2010-12-03 16:41:42

進撃の巨人3巻が11月に発売されるものと勘違いして本屋を探し回っていましたが、発売日は12月9日でした。徳永です。

前回は、確率的勾配降下法(SGD)について説明しました。今回はいよいよ、劣微分を用いた最適化手法に付いての説明をおこないます。

続きを読む »

双対分解による構造学習

岡野原 大輔

2010-11-26 21:16:49

入力\(x\)から出力\(y\)への関数を学習する機械学習の中で、出力が構造を有している問題は構造学習(Structured Output Learning)と呼ばれ、自然言語処理をはじめ、検索のランキング学習、画像解析、行動分析など多くの分野でみられます。

今回はその中でも複数の構造情報を組み合わせても効率的に学習・推論ができる双対分解による構造学習について紹介をします。
続きを読む »

劣微分を用いた最適化手法について(2)

preferred

2010-11-26 16:04:12

まちがえて鋼の錬金術師の最終巻を2冊買ってしまいました。研究開発チームの徳永です。

前回は、線形識別器まで説明しました。今回はその続きからです。

続きを読む »

劣微分を用いた最適化手法について(1)

preferred

2010-11-16 17:13:14

みなさん、こんにちは。もしくははじめまして。研究開発チームの徳永です。

とんかつ教室のロースおじさんぐらいにぶっとんだブログを書いていきた 続きを読む »