スポーツ映像に対するシーンのアノテーション効率化

Tatsuya Takamura

2019-10-02 12:03:57

本記事は、2019年インターンシップとして勤務した佐々木 克仁さんによる寄稿です。


はじめまして。PFNの2019年夏季インターンシップに参加させていただいた東京大学修士1年の佐々木克仁です。大学ではHCIの研究をしています。WEB開発が好きです。

テーマとその背景

今回のインターンシップで私が取り組んだ研究テーマは「スポーツ映像に対するシーンのアノテーション効率化」です。

PFNでは、スポーツ映像の中でチームが取っている戦術を推定し、スポーツの戦術解析に応用するシステムを開発しています。このような推定を実現する機械学習モデルを学習するためには、チームが取っている戦術とその時間範囲(以降シーンと呼びます)がスポーツ映像にアノテーションされた大量のデータセットが要求されます。しかし、スポーツ映像におけるシーンの戦術レベルでの詳細な区別を一般の人々が行うのは困難で、そのスポーツに精通した専門家しかアノテーションできず、彼らの限られたリソースを効率的に利用するためにアノテーションの効率化が必要となります。

今回私が着目したのは「シーンの境界線を決めるのに時間がかかっている」という課題でした。アノテーターは先頭からスポーツ映像を見ていって各シーン間の境界線の時間を記録することでアノテーションしていきます。境界線はルールに基づいて決定するのですが、この作業に時間がかかっており、またアノテーターのストレスに繋がっています。インターンシップではこの課題を解決するための取り組みを行いました。

手法

私が取り組んだ手法では、各シーンに対してアノテーターは「シーンの境界線を決める」代わりに「シーンの中の適当な一時点を決める」作業を行います。これによってシーンの境界線を決める労力が削減されるためアノテーションが効率化されると考えられます。以降では「シーンの境界線を決める」アノテーションを「Boundary型」、「シーンの中の適当な一時点を決める」アノテーションを「Timestamp型」と呼びます。Timestamp型アノテーションの考え方は[1]から取り入れました。

annotation-image

図1: アノテーターはシーンの中の適当な一時点を決める

しかし、Timestamp型のアノテーションはそのままデータセットとして利用することはできず、一つのTimestampを元にそのTimestampが示すシーンの境界線を推定する必要があります。そこで今回は、学習させた機械学習モデルの反応を見て、与えられたTimestampを元に暫定的に決めた境界線から徐々に境界線を更新させるという方法を採用しました(図2)。境界線の更新と機械学習モデルの学習を並行して行うことで、相互に作用しながら解に近づいていきます。

iteration

図2: Timestampから境界線を推定する手法の概要

境界線は、機械学習モデルが出力した各クラスの確率分布に基づいて更新されます(図3)。図2は、クラスAとクラスBのシーンの境界線を示しています。現在の境界線(点線)において機械学習モデルが出力したAの確率とBの確率の差Δが、閾値よりも大きい場合に境界線をB方向に更新します。更新の大きさは、Aの確率を示す曲線とBの確率を示す曲線の交点を基準に学習率をかけたものとなります:

eq1

ここで、bは境界線の時刻、cは曲線の交点の時刻、rは学習率です。

boundary-update

図3: 境界線の更新

この境界線の更新手法は、[2]を参考にして改良を加えたものになっています。[1]の方法は、Backgroundクラスが大部分を占めるAction Recognitionのタスクでは有効ですが、スポーツ映像のようなほぼ全てのフレームがBackgroundでないクラスを持つタスクではうまく機能しないと考えられるため採用しませんでした。

実験・評価

境界線の推定精度

まず、境界線を推定する手法が適切に機能するかどうかをシミュレーションによって評価しました。アノテーターによるTimestamp型アノテーションのシミュレーションを、Ground-Truthのデータにおけるそれぞれのシーンの時間範囲からガウス分布に基づいてサンプリングすることで行います。推定された境界線の精度は、Ground-Truthの境界線と推定された境界線のIoU(Intersection over Union)によって評価しました。IoUは2つの領域が重なっている割合を示す値であり、IoUが高いほど境界線の推定精度が高いことを示しています。

以下に結果を示します(図4)。「学習→境界線の更新」の繰り返しを行うたびにIoUの平均値が向上することが示されています。最終的に0.76まで到達しています。今回推定された境界線に基づいたデータセットの有用性の検証は今後の課題となります。

estimated boundary

図4: IoUの平均値(横軸は境界線の更新回数)

Timestamp型アノテーションの効率

次に、Timestamp型アノテーションによって実際にアノテーションの速度が向上することをユーザースタディによって検証しました。ユーザースタディに向けてBoundary型とTimestamp型のWEBインターフェースを実装しました(図5)。被験者としてスポーツ解析の専門家2人にご協力いただきました。被験者は制限時間内に可能な限りのアノテーションを行い、それぞれの方式でアノテーションできる数を比較します。今回は被験者数が十分ではありませんが、初期検討の材料としての実験とし、追加実験は今後の取り組みとします。

compare mode

図5: アノテーションツールの実装(左はBoundary型、右はTimestamp型)
※スポーツ映像の部分はイメージ図です

ユーザースタディの結果、Timestamp型ではBoundary型の約2倍の速度でアノテーションできることが分かりました。アノテーションが速くなった原因としては、当初想定していた境界線を決める時間が削減されたこと以外にも、Timestamp型のほうがツールとして操作が容易であったこともあるようでした。被験者となっていただいた専門家の方からは「直感的」「映像を見ている感覚でできるのでストレスが少ない」という今回の手法に対する肯定的なフィードバックをいただくことができました。一方で、アノテーターによってシーンの中のどのタイミングでアノテーションするかの傾向が異なるという課題も発見されました。シーンの中のどのタイミングでアノテーションするるかは境界線の推定における初期値を決める重要な因子です。ユーザスタディを実際に行ったからこそ判明した重要な発見でした。

研究のまとめ

今回の研究では、スポーツ映像に対するシーンのアノテーションを効率化するための手法として、Timestamp型のアノテーションに取り組みました。Timestampからシーンの境界線を推定する手法では、Ground-Truthと比較してIoUで0.76の精度を実現しました。また、スポーツ解析の専門家2名によるユーザースタディによってTimestamp型のアノテーションでは従来の方式より2倍速くアノテーションできることが分かりました。今後の課題としては、シーンの境界線推定の精度が得られた結果で十分であるかどうか検証する必要があり、またユーザによるアノテーションのタイミングのばらつきに対処する必要があります。

インターンシップの感想・謝辞

今回2ヶ月間のインターンシップに参加させていただき、非常に充実した時間を過ごすことができました。2ヶ月もの間1つの研究について考え続けるのはとても楽しく、かつてない経験をさせていただきました。PFN社員の方々のレベルが非常に高く、せっかくこの環境にいるのだから難しい問題に取り組んでみようと前向きな気持ちでチャレンジすることができました。また、インターンの同期も同世代と思えないほど実力のある人ばかりで自分の至らない部分を知ることができ、多大な刺激を受けました。本当に参加してよかったと思えるインターンシップでした。

最後に、メンターをはじめとしたチームの皆さま、研究のサポートをして頂き誠にありがとうございました。また、ポスターセッションでフィードバックをくださった皆さま、適切な助言をありがとうございました。

参考文献

[1] Moltisanti, Davide, Sanja Fidler, and Dima Damen. “Action Recognition from Single Timestamp Supervision in Untrimmed Videos.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[2] Ding, Li, and Chenliang Xu. “Weakly-supervised action segmentation with iterative soft boundary assignment.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

Leave a Reply