メタバースや自動運転の世界で必要になる動画を使ったリアルタイム行動予測

シリコンバレーから現役データサイエンティストのインサイトをお届けする「The Insight」。今回は、DeepMindによる論文とAWSブログに紹介された動画によるAction Recognition（行動認識）ついてご紹介します。

この記事から得られる３つのナレッジ

コンピュータービジョンについての知識
大規模データセット「ImageNet」と「Kinetics」の重要性と活用方法
動画認識、行動認識と画像認識の相違点とポテンシャル

論文データ：
今回のディスカッション対象の論文とブログ記事をご紹介します。

論文タイトル：Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset　『行動認識はどこへいくのか？新しいモデルとKineticsデータセット』
著者：Joao Carreira, Andrew Zisserman (DeepMind)
掲載サイト、国際会議：arXiv、ICCV 2017 / CVPR 2017
発行日：2017年5月2日　最終更新日：2018年2月12日 (バージョン3)
引用数：3498
URL：https://arxiv.org/abs/1705.07750

コンピュータビジョンでの動画・画像認識

　近年、注目を集めている領域にComputer Vision（CV：コンピュータビジョン）があります。コンピュータビジョンは、コンピュータで画像や動画内の対象物を識別・理解する手法を研究する分野です。画像や映像をアプリケーションの対象とするため、応用する対象が多岐の産業にわたります。そのため、技術革新やイノベーションに大きく関連する分野であることが注目に値する理由のひとつです。今回の論文では、動画を活用した行動予測についての実験とその結果が紹介されています。

　動画認識は、Image Recognition（画像認識）の技術を応用して発展を続けてきました。画像認識とは、画像から特徴をつかみ、対象物が何かをコンピュータがパターン認識により識別する技術を指します。画像認識と動画認識の違いは何でしょうか。例えば、以下のような点が挙げられます。

画像認識と動画認識での大きな違いは、レイヤーが、空間情報による２次元（画像ベース）で扱われている画像認識に対して、動画では時間を加えた３次元（ビデオベース）となることです。
動画認識には、動きをコンピュータに理解させるための、Action Recognition（行動認識）というタスクが必要となります。行動認識では動画を入力として、行動ラベルを予測し、出力します。

　今までの研究の成果により、画像認識では、事前に準備された大規模データセット（ある対象について集められ、形式が整えられた標本データ）で事前学習を行ったモデルを活用し、トレーニングすることで非常によい精度での画像認識を実現できることが分かっていました。

画像認識の飛躍的成長を支えた「ImageNet」とは

　コンピューターによる画像認識の精度が飛躍的に向上したきっかけに「ImageNet」があります。そして、このImageNetによる2012年のコンペティションが現在のAIのブームや爆発的発展のきっかけとなったと言われています。

　ImageNetとは、2万種以上の写真に対して、何が写っているかというラベルの説明（ラベル定義）がつけられた1400万枚以上の自然画像のデータセットで、スタンフォード大学コンピュータサイエンス学部教授であるFei-Fei Li（李飛飛）博士によって、2009年に発表されました。Li博士は、当時の学術会でスタンダードであった「データに関係なく、より良いアルゴリズムがより良い判断を下す」という考え方に限界を感じ、多くの研究者がモデルに注目している中「データに注目し、より優れたデータセットを構築する」というパラダイムシフトをImageNetを通じて起こしました。

　ImageNetの開発にあたっては、膨大な画像収集と教師ラベル付け作業がありました。ラベル付けは、画像内の物体の特徴を抽出するための前処理として行われます。「教師あり学習」のラベル品質は、AIの学習精度を大きく左右することもあり、データの前処理が開発時間全体の80%を占めるとも言われています。このImageNetの完成までに、学部生の作業では90年かかることが判明したため、クラウドソーシングサービスである「Amazon Mechanical Turk」の167カ国約5万人のクラウドワーカーが約10億枚の画像を整理、ラベル付けすることによって、2年半で発表にこぎつけました。

　教師データのラベル付け作業がなぜここまで大変なのでしょうか。その背景には様々な要因が挙げられますが、主な要因として以下の3点があります。

https://www.paloaltoinsight.com/membership-checkout/?level=4

　PAIoneerPRO会員に登録 ▷　
PAIoneer PRO
詳細はこちら

Already a member? ここでログイン

おすすめ／関連記事こちらの記事も合わせてどうぞ

画像認識の分野で欠かせない「CNN（畳み込みニューラルネットワーク）」とは

AIアートの最新技術「DALL·E 2」の創造力の凄さ

YOLO – 物体検知AIの仕組みと発展の過程

弱教師あり学習によるデータ不足への対処法

訓練データ量を劇的に減らす新たな機械学習

画像認識における物体検出、その仕組みと応用例

パロアルトインサイトについて

AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏（CEO）が2017年に創業したシリコンバレー発のAI企業。

社名：パロアルトインサイトLLC
設立：2017年
所在：米国カリフォルニア州（シリコンバレー）
メンバー数：17名（2021年9月現在）

パロアルトインサイトHP：www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで：info@paloaltoinsight.com

＜CEO 石角友愛（いしずみともえ）＞

2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。東急ホテルズ&リゾーツのDXアドバイザーとして中長期DX戦略への助言を行うなど、多くの日本企業に対して最新のDX戦略提案からAI開発まで一貫したAI・DX支援を提供する。2024年より一般社団法人人工知能学会理事及び東京都AI戦略会議　専門家委員メンバーに就任。

AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授（AI企業戦略）及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート＆テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。

毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ！」内「マイ！Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。

著書に『AI時代を生き抜くということ　ChatGPTとリスキリング』（日経BP）『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』（ディスカヴァー・トゥエンティワン）、『経験ゼロから始めるAI時代の新キャリアデザイン』（KADOKAWA）、『才能の見つけ方　天才の育て方』（文藝春秋）など多数。

実践型教育ＡＩプログラム「ＡＩと私」：https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで：info@paloaltoinsight.com