KDD 2019 で発表しました

木下 僚

2019-09-09 17:32:48

8月上旬、KDD 2019 という年次国際学術会議が開催されました。KDD とは「知識発見とデータマイニング」(Knowledge Discovery and Data Mining) の略であり、いわゆる「データサイエンス」分野におけるトップ会議に位置づけられる学会です。

エンジニアの木下です。我々のチームでは、さまざまな産業分野の困難な課題解決のために機械学習技術を応用・実践するための研究開発や、そのような研究開発プロセスを効率化するための技術開発に取り組んでいます。この過程で我々 PFN も、現実のデータと大規模計算機資源 MN-2 を活用した「データサイエンス」に日々取り組んでいます。

このたび PFN は、KDD 2019 にリサーチャー・エンジニア総勢5名で参加し、3件の発表を行いました。本記事では KDD 参加レポートとして、PFN からの発表を含め、会議の様子をお伝えします。

KDD 2019 closing session スライド:筆者撮影

KDD 2019 closing session スライド:筆者撮影

KDD 2019 会議概要

KDD 2019 は8月4日から8日の5日間にかけ、米国アラスカ州アンカレッジにて開催されました。昨年と同様に、初日は「Tutorial Day」2日目は「Workshop Day」3〜5日目が本会議という日程が組まれました。会場はアンカレッジ市街地にある Dena’ina Center(基調講演・企業展・チュートリアル会場)と Egan Center(セッション会場)の2箇所に設けられ、世界各国から 3000 人を超える参加者が集いました。各日とも朝8時から発表が始まり、初日と最終日は夕方5時ごろまで、それ以外の3日間は夜 10 時ごろまで、みっちりと会議や交流が行われました。

会議の予稿やデモ動画はすべて KDD ウェブサイト上で公開されており、誰でも読むことができます。パンフレットも公開されており、本会議に採択された論文数は 321 件、採択率は 17.8% であったと公表されています。本会議は研究の要素が強い Research Track と、現実世界への応用・実践事例紹介の色彩が強い Applied Data Science Track の大きく2部からなり、特に後者は投稿数が昨年比約 40% 増だったそうです。

PFN の発表

今回の KDD では PFN からつぎの3件の発表を行いました。発表はいずれも日程3日目(8月6日)に行われました。

Applied Data Science Track では、タイトルの通りそれぞれ ChainerOptuna の論文発表を行いました。ポスター発表には多くの方にお越しいただき、両フレームワークに対する関心の高さを感じました。

齋藤による Chainer 発表:筆者撮影

齋藤による Chainer 発表:筆者撮影

佐野による Optuna 発表:秋葉撮影

佐野による Optuna 発表:秋葉撮影

齋藤による Chainer 発表:筆者撮影

齋藤による Chainer 発表:筆者撮影

佐野・秋葉による Optuna 発表:筆者撮影

佐野・秋葉による Optuna 発表:筆者撮影

もう1件の発表は KDD Cup での入賞発表です。KDD Cup はデータサイエンス技術を競う世界トップクラスの大会であり、毎年の KDD 本会議に合わせて開催されています。KDD Cup としては今回初めて設定された AutoML(自動機械学習)トラックにおいて、PFN から参加したチームが第5位に入賞しました。KDD Cup Workshop では、この大会で今回 PFN チームが用いた手法についての口頭発表とポスター発表を行いました。なお、この発表については、入賞者本人によるブログ記事公開を後日予定しております。

賞状を持つ吉川:秋葉撮影

賞状を持つ吉川:秋葉撮影

吉川による受賞発表:筆者撮影

吉川による受賞発表:筆者撮影

会場の雰囲気

ここからは KDD 2019 会場の様子をお伝えします。

舞台裏

冒頭でも述べたとおり、今回の KDD には世界各国から主催者発表で 3000 人を超える参加者が集まりました。アンカレッジの人口が約 30 万人だそうですので、その 1% に相当する人が殺到したことになります。学会が提供した宿泊施設ではオーバーブッキングが相次ぎ、予約したホテルに宿泊できない参加者が続発してしまいました。PFN でも2人がこのトラブルに巻き込まれてしまいました。救済策としてアラスカ大学アンカレッジ校の大学寮が当日提供されましたが、そちらでも大きな混乱があったようです。

深刻な宿不足問題はありましたが、KDD の会議は予定通り進行しました。セッション会場の Egan Center は参加者数に対してあまりにも部屋が狭く、椅子に座りきれず立ち見が続出したり、部屋から人が溢れたりする光景が目につきました。たとえばこちらは AutoML Workshop が行われた会議室ですが、参加者が廊下まで溢れてしまっていました。このワークショップに参加した PFN メンバーによれば、室内もやや酸欠状態だったとのことです。今回の KDD は何かと苦労の多い会議になってしまいました。

AutoML Workshop の外側:筆者撮影

AutoML Workshop の外側:筆者撮影

ワークショップ

KDD 2019 では 34 のワークショップが開催されました。少しピックアップして紹介します。ワークショップの発表内容も、多くはそれぞれのウェブサイトで公開されています。

上述の AutoML Workshop は機械学習の自動化に関するワークショップです。機械学習の研究開発は多くの試行錯誤を伴いますが、この作業を自動化・効率化する動きが近年活発になっています。PFN でもハイパーパラメータ最適化フレームワーク Optuna の開発などを進めています。こちらのワークショップには多くの参加者が集まっており、関心の高さが伺えました。

IADSS Workshop は「データサイエンス」という仕事そのものについてのワークショップです。「データサイエンティスト」の仕事は増えていますが、その内容やスキルセットは会社・個人によって千差万別です。これがどのような仕事であり、どのような能力を必要とし、どのように評価されるかについては、まだはっきりとした共通理解がありません。このことは「データサイエンス」(あるいは「AI」)プロジェクトの失敗を増やし、「データサイエンティスト」の教育・採用・人事評価を難しくする要因になっています。会議では必要なスキルセットやプロジェクトの進め方についての提案や調査などの発表・議論が行われました。このワークショップは人事・教育担当者向けの色彩が強いものですが、エンジニアの観点からも、どのようなスキルセットを自分が身につけていくべきかを考える参考になるものだと思いました。ワークショップでの発表資料がいくつか公開されていますので、ご興味のある方はご覧ください。

本会議

基調講演2件のほか、300 件を超える口頭発表・ポスター発表が会議を通じて行われました。KDD は技術の実応用を重視する学会ということもあり、現実の「データサイエンス」に関わる問題意識に根ざした発表が今回も多く行われました。予稿はすべて公開されています

米デューク大学の Cynthia Rudin 教授による基調講演のトピックは主にモデル選択でした。現実世界を説明する機械学習のモデルは、識別や予測の精度の高さだけではなく、モデルの簡潔さ・わかりやすさもその良し悪しを評価する重要な要素です。講演の前半では新しい指標を用いてモデル選択を行う研究が紹介されました。スクリーンに「Rashomon」と映し出されたとき、初めは海外の研究者の名前か何かかと思ってしまいました。この研究では「Rashomon effect」すなわち羅生門効果の考え方を用いています。羅生門効果は映画『羅生門』にちなんだ専門用語であり、同じ現象について異なる説明が多くなされることを表しています。機械学習の文脈において、同じタスクに対して自分と同程度以上の精度を達成できるモデルがどれだけ存在するかを見積もるような値である「Rashomon ratio」なる指標を定義します。モデルの複雑さ・説明力によって経験損失と Rashomon ratio が変化し、その関係に基づいてモデル選択を行うという研究が紹介されました。

異なる分野で考えられてきたアイディアや技術を新しい問題に持ち込んで解決するということは、現実の問題解決の現場ではよく行われています。要素技術そのものはすでに知られたものであっても、その適用・応用に新しさや面白さ・インパクトがあると、KDD での議論の対象になります。今回の本会議セッションでは、Web 広告の入札に PID 制御を応用する協調フィルタリングを AutoML のモデル選択に応用する逆強化学習を異常検知に応用するなどの事例が発表されていました。Web マーケティング系のアプリケーションに関する別の発表では、発表者・参加者に制御理論に関する知識が不足したために質疑が成立しない場面もありました。まさに Learn or Die といったところで、他分野・異分野への広い興味や知識が現実の「データサイエンス」を支えています。

個人的に好きだった発表は配車サービスのマッチングをフェアにする研究です。配車サービスは「乗客」と「運転手」の2つの集団間でのマッチングを解き続けるものです。一般的には二部グラフマッチングの問題といえますが、保育園や婚活などのマッチングとは異なり、比較的短い時間に同じものが繰り返しマッチする点で配車サービスはやや特殊なケースとなっています。乗客の利便性を重視して待ち時間の短い運転手と常にマッチさせると、うまく稼げる運転手と稼げない運転手が出てくるという運転手間格差の問題が生じます。一方、収入の低い運転手から優先的にマッチするような「平等性」を導入すると、乗客にとっては待ち時間の増大につながります。部分最適ではなく全体最適を目指し、この研究では乗客と運転手それぞれの観点での不平等さ・効用を含めた形で最適化問題を設計することで、乗客の待ち時間の悪化を抑えながらも収入の不平等を緩和するマッチング手法を提案しました。真に実現すべき「全体最適」とは何か、リアルタイムに動作させるにはどうするか、などの課題は残っていますが、複雑な課題をシンプルな発想で解こうとする、良い発表だと思いました。

企業展

Dena’ina Center の1階が昼食会場を兼ねた展示会場となっており、多くの企業がブースを出していました。しかし今回の KDD の企業展示は、個人的な感想ですが、昨年に比べると規模が小さくなったように感じました。出展数は変わらないかもしれませんが、一つ一つのブースが小さめに感じました。また今回の KDD は Google がスポンサーに入っておらず、Google ブースがなかったことも意外に感じました。

コーヒー休憩の際にも展示場やロビーで軽食が提供されました。アラスカ名物スモークサーモンも出ていました。塩気が強めでしたがおいしかったです。

ケータリング:筆者撮影

ケータリング:筆者撮影

アンカレッジの雰囲気

今回の KDD で初めてアラスカに行きました。行く前はどんなところかと不安でしたが、いざ行ってみると、夏のアンカレッジは非常によい都市でした!

北緯60度に位置するアンカレッジでの夏は日がたいへん長く、開催当時の日没時刻は午後 10 時半ごろでした。KDD 2019 は毎日夜まで行われましたが、午後8時ごろのポスターセッションは「西日が差す」中で行われました。ポスターセッションを終えて外に出ても、この写真のような青空で、まだまだ夕方前といった感覚でした。夏は遅い時間でも明るく、歩きやすい街だと感じました。会議中はほとんど晴れて、朝晩はやや涼しく、日中も T シャツ1枚で過ごして暑くない程度の心地よい空気でした。

午後8時すぎ Dena’ina Center 前にて:筆者撮影

午後8時すぎ Dena’ina Center 前にて:筆者撮影

アンカレッジへの出張旅行には、日本から遠い(アメリカ本土を経由するため片道 20 時間以上かかる)とか物価(特に宿泊費)が高いとか、宿の確保でトラブルがあったなどといった難点もありましたが、個人的にはこれまで行った海外の都市の中でいちばん居心地の良いところでした。

おわりに

機械学習技術を現実に役立てるために「データサイエンス」は様々な場面で活躍しており、その事例や最新技術が KDD で多く報告されています。会議での発表内容は多くが学会の Web サイト上で公開されていますので、技術的な内容はそちらである程度追いかけることができます。本記事では、そこにはない現地の空気感や個人的な印象を中心に KDD 2019 をレポートしました。世界的な技術動向をにらみながら、我々 PFN も、機械学習技術を応用・実践して現実の問題を解決するための研究開発に引き続き取り組んでまいります。

Leave a Reply