言語処理学会年次大会で文法圧縮チュートリアル講義をしてきました

maruyama
リサーチャー

2014-03-24 15:59:41

まるまるです。春がきてますね。東京はだいぶ暖かくなってきました。

先週(3/17〜3/20)行われた言語処理学会第20回年次大会(NLP2014)において「文法圧縮入門:超高速テキスト処理のためのデータ圧縮」というタイトルでチュートリアル講義をさせて頂きました。

講義資料はSlideShareで公開しています。

文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル) from marugorithm

続きを読む »

ウェーブレット木の世界

岡野原 大輔

2013-01-09 20:43:44

岡野原です。ウェーブレット木の解説を統数研チャンネルにて行いました。

統数研チャンネル(プレミアム会員ならしばらくタイムシフト視聴可能)。

ウェーブレット木は万能のデータ構造であり、系列データ、全文検索、グラフ、二次元情報、フィンガープリントなど様々なデータに対して多くの操作をサポートします。

本解説では大規模データの背景、ウェーブレット木の作り方、使い方、様々なデータへの適用、最前線(ウェーブレット行列)などを紹介しています。本解説は拙著「高速文字列解析の世界」とあわせてみていただけたらと思います。

Compressed Permuterm Index: キーワード辞書検索のための多機能&省メモリなデータ構造

maruyama
リサーチャー

2012-11-06 14:00:23

はじめましてこんにちわ。
4月からPFIで働いているまるまる(丸山)です。最近のマイブームはスダチです。
リサーチブログの更新が再開されたので、私も流れに乗って初ブログを書いてみようと思います。

今回は社内の情報検索輪講で少し話題にあがったCompressed Permuterm Indexを紹介したいと思います。

続きを読む »

Burrows Wheeler TransformとLF mapping

preferred

2012-11-02 13:12:58

最近オープンウォーターダイバーのライセンスを取りました。徳永です。

今日はBurrows Wheeler Transform(BW変換もしくはBWT)の逆変換において用いられるLF mappingを説明します。

続きを読む »

Centroid Path Decompositionを使ったトライでダブル配列と勝負してみた

preferred

2012-06-04 10:58:23

釣りタイトルを付けたかったのですがさっぱり思いつかないのでもう諦めました。徳永です。

今回はCentroid Path Decomposition(以下CPD)についての話を書きます。直訳すると重心パス分解となるでしょうか。Trieを実現するためのテクニック(普通のツリーにも使えるのかな?なかなか難しそうですが…)の一つです。CPDは一年前の弊社岡野原の記事に出てきますが、私のような素人にはあれだけでは理解できない部分があったので、今回はちょっと論文を読んでみました。

続きを読む »