のび太とインターネット・オブ・シングス

hido
Chief Research Officer

2014-03-20 14:55:55

卒業式シーズンですね。比戸です。

今回はIoT (Internet of Things)やM2M(Machine-to-Machine)の話をします。

この2つの単語を日経記事やITニュースサイトで目にすることが増えました。将来PCやケータイ以外の様々なモノやセンサーデバイスがインターネットに繋がって情報を送り合って賢く連携することで、家が、オフィスが、街が、そして社会システム全体が便利で最適になる世の中が実現されると言われています。一方で、言葉やコンセプトは昔から存在しており、一時流行ったものの下火になっていたこともあって懐疑的な見方もあります。

「ドラえも~ん、ジャイアンが『そんなの俺も10年前に考えてた、のび太のくせに生意気だ!』っていじめてくるよ〜」

「スネオのやつも、『僕らが昔やってダメだったのにのび太にできるわけないだろ!』って言うんだ〜」

かわいそうなのび太くん、さて実際のところはどうなのでしょうか。

続きを読む »

技術を実用化する

岡野原 大輔

2013-12-10 17:03:20

論文の最後に「この技術はこれから様々な場面で役に立つだろう」と書いてあるのを読んだり、実際に書いた人がいると思います。研究者の視点からは「十年に一度のすごい発見が起きた」場面に出くわし、世の中にどのような影響を与えるのだろうと思うこともあります。しかし殆どの技術は世の中で活かされることはありません。なぜなら技術を実用化するには非常に多くの困難が必要とされるからです。

そもそも、殆どの技術は誕生したとしても人の頭に留まっています。ものすごくいい手法を思いついた、としてもそれを言語などで外在化させない限り、その技術がその人以上に世の中に広まることはありません。有名な例でBurrows-Wheeler変換という今のゲノムシーケンシングを支える技術はWheeler氏が「あまりにも当然である」ことから論文化していませんでした。Burrowsの勧めでこの技術はDECの社内報として発表され、現在のように広く知られ使われるようになりました。他の人に伝えることで実用化は一歩進みます。

また、多くの研究者は外在化として論文になり有名雑誌に採択されることを目標とします。しかし、その段階ではそのコミュニティの人がたまたまその論文を読んでいた場合にしか知られることはありません。現在コミュニティは非常に細分化されてしまい、効果は限定的です。実用化されるには論文を雑誌に通すだけでは不十分なのです。こうしたことからSNSやマスメディアなど様々な方法を使って研究者達は自分の手法を外部に伝えるようになってきています。

最近多いのは第三者が論文を読んでブログやSNSで紹介したり、勉強会やワークショップで共有するケースです。これは技術が広まるにはすごく良いことです。紹介されなければその技術は永遠に知られず眠ったままでしょう。こうした活動のおかげで眠っていた技術が世の中で再発見されたという例は数多くあります。

私が所属しているコンピューターサイエンスの分野であれば、技術を実際にコーディングし、OSSなどで公開する例も増えてきています。技術を実際に理解できる人(能力的にも時間的にも)はごく一部なのでそれが利用可能な状態になっているのは技術の実用化にとっては大きな進歩です。

同じ分野の人に知られることはなんとかできたとしても、実用化ではありません。ここからが大きな壁になります。技術は、それを全く知らない人や業界に対して役に立つという場合が殆どであり、ここまで実現できればはじめて実用化されたといえるかもしれません。実際に利用してもらうには、製品化、サービス化が必要になります。

こうした製品化、サービス化は一見簡単そうにみえても、多くの問題がでてきます。その実現には元々の技術が解こうとしていた課題以外の無数の課題を解く必要があり、そちらの課題の方が困難だったりする場合も多くあります。

また、製品化、サービス化できても使われないかもしれません。顧客が欲しがっているものは違っているかもしれないし、気づいていないだけかもしれません。ここはシーズベースで考えているからだと言われればそうなのですが、技術がわかっている人だからこそ見える世界もあるとは思います。ユーザーが本当に何を欲しているのかを考えるのは難しいことですし、有名なフォードの言葉を借りれば「馬を乗っている人に何が欲しいかと問えばもっと早い馬が欲しいと言うだろう」という可能性もあります。

昨今、技術の新しい広がり方をみる場合が増えてきました。例えば深層学習という分野では、技術を持っている人が丸ごと企業に取り込まれるという例がいくつかみられますし(google, facebook)、使った技術をOSSで公開して広めたり、自分が所属している企業とは別の団体で広めようとしている例もあります。

最初、技術を実用化するという単純な思いからはじまった会社もいろいろあり、現在に至っています。未だ試行錯誤中です。

今年のSIGKDDベストペーパーを実装・公開してみました

hido
Chief Research Officer

2013-08-16 18:23:11

毎日暑いですね。比戸です。

ちょうど今週シカゴで開かれていたSIGKDD2013でBest research paperに選ばれたEdo Liberty氏 (Yahoo! Haifa Labs)の”Simple and Deterministic Matrix Sketching”のアルゴリズムを実装して公開してみました。

元論文PDFは著者サイトから、私が書いたPythonコードはGithubからそれぞれ入手できます。

続きを読む »

Integral Channel Featuresによる歩行者認識

tabe
エンジニア

2013-07-05 15:59:54

はじめまして、新入社員の阿部です。入社して3ヶ月経ちました。
この記事では、歩行者検出の手法である Integral Channel Features について解説したいと思います。

はじめに

歩行者検出(人検出)は画像認識のメジャーな問題のひとつで、読んで字の如く画像中の歩行者を見つけるという問題です(上図)。たくさんの応用が考えられるため盛んに研究されていましたが、特に「顔検出」の実用化のメドがたった2000年代はじめから顔検出の次の問題として研究が活発になったようです。
続きを読む »

ウェーブレット木の世界

岡野原 大輔

2013-01-09 20:43:44

岡野原です。ウェーブレット木の解説を統数研チャンネルにて行いました。

統数研チャンネル(プレミアム会員ならしばらくタイムシフト視聴可能)。

ウェーブレット木は万能のデータ構造であり、系列データ、全文検索、グラフ、二次元情報、フィンガープリントなど様々なデータに対して多くの操作をサポートします。

本解説では大規模データの背景、ウェーブレット木の作り方、使い方、様々なデータへの適用、最前線(ウェーブレット行列)などを紹介しています。本解説は拙著「高速文字列解析の世界」とあわせてみていただけたらと思います。

NIPS2012に行ってきました

preferred

2013-01-08 10:57:31

先日、NIPS (Neural Information Processing Systems)という学会に参加してきました。今回はその報告です。

続きを読む »

機械学習と自然言語処理とビッグデータ

岡野原 大輔

2012-12-25 11:06:59

岡野原です。

情報処理学会主催の連続セミナー「ビッグデータとスマートな社会」での機械学習の回、自然言語処理の回での講演資料を公開しました。

今年はビッグデータという言葉が広まったということで、このテーマで話す機会が多かったです。今はビッグデータというとそれを支えるインフラ、クラウド、DBなどがまず注目されていますが、我々としては実際それを使って何をするのか、何が実現できるのかというところを注目しています。

PFIは元々こうしたデータを分析して価値を提供する(検索エンジンとかもその範疇に入ると思います)ことをずっと続けてきたわけですが、ビッグデータという言葉が広まってくれたおかげでこの考えがより受け入れられ様々な業界の方と随分と話がしやすくなったと思います。

以下の講演資料では、今ビッグデータの中でも機械学習と自然言語処理の分野において我々がどこに注目しているのかを話をしました。

bigdata2012ml okanohara from Preferred Infrastructure Inc,
  • リアルタイム分析が重要な事例の紹介、
  • それを支えるオンライン機械学習の多値分類の技術例
    (昨年のIBIS2011のチュートリアルからの抜粋、雰囲気がわかれば)
  • 大規模リアルタイム解析Jubatusについて

bigdata2012nlp okanohara from Preferred Infrastructure Inc,
  • 自然言語処理を取り巻く世界の変化(多言語化・大規模リアルタイム化)
  • 情報フィルタリングの重要性の増加
  • 業界における自然言語処理
  • 次の自然言語処理を支えるツール

Compressed Permuterm Index: キーワード辞書検索のための多機能&省メモリなデータ構造

maruyama
リサーチャー

2012-11-06 14:00:23

はじめましてこんにちわ。
4月からPFIで働いているまるまる(丸山)です。最近のマイブームはスダチです。
リサーチブログの更新が再開されたので、私も流れに乗って初ブログを書いてみようと思います。

今回は社内の情報検索輪講で少し話題にあがったCompressed Permuterm Indexを紹介したいと思います。

続きを読む »

Burrows Wheeler TransformとLF mapping

preferred

2012-11-02 13:12:58

最近オープンウォーターダイバーのライセンスを取りました。徳永です。

今日はBurrows Wheeler Transform(BW変換もしくはBWT)の逆変換において用いられるLF mappingを説明します。

続きを読む »

ニューラルネットの逆襲

岡野原 大輔

2012-11-01 16:37:03

岡野原です。Deep Learningが各分野のコンペティションで優勝し話題になっています。Deep Learningは7、8段と深いニューラルネットを使う学習手法です。すでに、画像認識、音声認識、最も最近では化合物の活性予測で優勝したり、既存データ・セットでの最高精度を達成しています。以下に幾つか例をあげます。

続きを読む »