ウェーブレット木の世界

岡野原 大輔

2013-01-09 20:43:44

岡野原です。ウェーブレット木の解説を統数研チャンネルにて行いました。

統数研チャンネル(プレミアム会員ならしばらくタイムシフト視聴可能)。

ウェーブレット木は万能のデータ構造であり、系列データ、全文検索、グラフ、二次元情報、フィンガープリントなど様々なデータに対して多くの操作をサポートします。

本解説では大規模データの背景、ウェーブレット木の作り方、使い方、様々なデータへの適用、最前線(ウェーブレット行列)などを紹介しています。本解説は拙著「高速文字列解析の世界」とあわせてみていただけたらと思います。

機械学習と自然言語処理とビッグデータ

岡野原 大輔

2012-12-25 11:06:59

岡野原です。

情報処理学会主催の連続セミナー「ビッグデータとスマートな社会」での機械学習の回、自然言語処理の回での講演資料を公開しました。

今年はビッグデータという言葉が広まったということで、このテーマで話す機会が多かったです。今はビッグデータというとそれを支えるインフラ、クラウド、DBなどがまず注目されていますが、我々としては実際それを使って何をするのか、何が実現できるのかというところを注目しています。

PFIは元々こうしたデータを分析して価値を提供する(検索エンジンとかもその範疇に入ると思います)ことをずっと続けてきたわけですが、ビッグデータという言葉が広まってくれたおかげでこの考えがより受け入れられ様々な業界の方と随分と話がしやすくなったと思います。

以下の講演資料では、今ビッグデータの中でも機械学習と自然言語処理の分野において我々がどこに注目しているのかを話をしました。

bigdata2012ml okanohara from Preferred Infrastructure Inc,
  • リアルタイム分析が重要な事例の紹介、
  • それを支えるオンライン機械学習の多値分類の技術例
    (昨年のIBIS2011のチュートリアルからの抜粋、雰囲気がわかれば)
  • 大規模リアルタイム解析Jubatusについて

bigdata2012nlp okanohara from Preferred Infrastructure Inc,
  • 自然言語処理を取り巻く世界の変化(多言語化・大規模リアルタイム化)
  • 情報フィルタリングの重要性の増加
  • 業界における自然言語処理
  • 次の自然言語処理を支えるツール

大規模データ時代に求められる自然言語処理

岡野原 大輔

2012-02-08 12:58:46

岡野原です。

先日、東北大のJEITA講義で話をしてきました。

話の内容は、自然言語処理が実世界で具体的にどのように応用されているのか、またその時に感じた課題についてです。
後半の「何が必要とされているか」、あたりの話からは私や会社が特に重点的に取り組んでいる事そのものの話もなります。
ご興味がある方はご覧ください。コメントや感想などがありましたら、ブログもしくは私宛にいただけたらと思います。

第53回プログラミング・シンポジウムでデモを発表しました

大野 健太
エンジニア

2012-01-10 19:03:49

はじめに

 明けましておめでとうございます.大野です.1月6日から8日にかけて情報処理学会の第53回プログラミング・シンポジウムが行われ,私も参加しました.

続きを読む »

大規模データ処理勉強会でJubatusに関する発表をしました

海野 裕也
リサーチャー

2011-12-11 23:18:01

金曜日はしっかりバルスしました、海野です。先週の木曜日に、NTTデータ様で行われた大規模データ処理勉強会に出席し、Jubatusに関する発表を行いました。実は、前のポストの @tanakh さんの PFI Seminar と、発表時間が完全にかぶってしまいましたw 資料はこちらです。

当日のUSTREAMもあるようです。

11月のJubatus Workshopでの発表の内、機械学習に関する部分をまとめ直したような内容です。こちらにご参加くださった方には物足りない内容だったかもしれません。オンラインかつ分散という設定での機械学習の理論はまだまだ萌芽的で、今後の大規模データ時代に花開くのかもしれないなぁ、ということを最近思うのでした。

文書解析のための簡潔データ構造

岡野原 大輔

2011-12-02 18:41:30

岡野原です。

12/1〜12/2に高松で開催されたALSIP2011で文書解析のための簡潔データ構造の最近の進展について話をしてきました。

ここの業界の進展は速く毎年様々な方法が出てきますが、要点だけを上げると

– Wavelet Treeがアルファベットサイズが大きい場合のRank/Select操作だけではなく、2D矩形探索、最頻要素列挙など様々な問題を効率的に解けることが分かってきて非常に重要なデータ構造であることが分かってきた。2D探索も、もはや数億 x数億とかでも解けてしまうので2D探索を利用するような様々な手法が全部現実的になった。

– Top-K Queryが盛り上がっている。検索などデータ構造に問い合わせをする際に、該当する結果を全部を列挙することの高速化は理論的にも難しいが、スコアが高い順(例えばterm frequencyやPageRankなど)にk個だけ列挙するだけなら非常に高速にできる。この場合も大体Wavelet TreeのGreedy Searchが使われるが、Top-Kを効率的に実現するためのデータ構造(グリット上の優先度付キュー)も研究が盛ん

– CFG (Straight Line Program)をベースにしたGrammer Compressionが実用的になって、いろいろなところで使われ始めている。元々Navarroらのグループが多く利用していたRePairだけではなく、九大の研究グループが中心となってやっている方法などはかなり実用的になってきた。現実的な時間での文法抽出だけでなく、抽出した後のデータに対する簡潔データ構造表現も盛ん。

ちなみに高松ということで、ご飯は、うどん、うどん、鍋+うどん、徳島ラーメンでした。

オンライン凸最適化と線形識別モデル学習の最前線

岡野原 大輔

2011-11-11 23:54:13

岡野原です。

今日まで奈良女子大で行われていたIBIS2011で表題についての講演をしてきました。

続きを読む »

Jubatusを公開しました

岡野原 大輔

2011-10-28 20:15:14

先日、NTTと共同研究開発したJubatusを公開しました。

OSSで公開されてますので、興味がある方は使ってみるなり、ソースコードを眺めるなり、できればプロジェクトに参加していただけたらと思います。

続きを読む »

NLP若手の会で発表しました

海野 裕也
リサーチャー

2011-09-30 19:29:02

海野です。
2011/09/21-09/22まで開催された、NLP若手の会第6回シンポジウム(YANS2011)で発表してきました。私の発表は、奨励賞に選んで頂きました。推薦してくださった皆様、ありがとうございます。

続きを読む »

研究・企業・生き方について – 情報科学若手の会2011

岡野原 大輔

2011-09-19 12:59:00

岡野原です。

2011/9/17〜2011/9/19に熱海で行われた情報科学若手の会2011に参加し、講演をしてきました。
テーマを決めるに当たって、参加者の年齢、興味分野、スキルの幅が非常に広いということもあり、若手の会参加者のみなさんから質問を前もって聞いておき、それについて回答するという形にしました。
続きを読む »