シリコンバレーから現役データサイエンティストのインサイトをお届けする「The Insight」。今回は、DeepMindによる論文とAWSブログに紹介された動画によるAction Recognition(行動認識)ついてご紹介します。
この記事から得られる3つのナレッジ
論文データ:
今回のディスカッション対象の論文とブログ記事をご紹介します。
論文タイトル:Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset 『行動認識はどこへいくのか?新しいモデルとKineticsデータセット』
著者:Joao Carreira, Andrew Zisserman (DeepMind)
掲載サイト、国際会議:arXiv、ICCV 2017 / CVPR 2017
発行日:2017年5月2日 最終更新日:2018年2月12日 (バージョン3)
引用数:3498
URL:https://arxiv.org/abs/1705.07750
近年、注目を集めている領域にComputer Vision(CV:コンピュータビジョン)があります。コンピュータビジョンは、コンピュータで画像や動画内の対象物を識別・理解する手法を研究する分野です。画像や映像をアプリケーションの対象とするため、応用する対象が多岐の産業にわたります。そのため、技術革新やイノベーションに大きく関連する分野であることが注目に値する理由のひとつです。今回の論文では、動画を活用した行動予測についての実験とその結果が紹介されています。
動画認識は、Image Recognition(画像認識)の技術を応用して発展を続けてきました。画像認識とは、画像から特徴をつかみ、対象物が何かをコンピュータがパターン認識により識別する技術を指します。画像認識と動画認識の違いは何でしょうか。例えば、以下のような点が挙げられます。
今までの研究の成果により、画像認識では、事前に準備された大規模データセット(ある対象について集められ、形式が整えられた標本データ)で事前学習を行ったモデルを活用し、トレーニングすることで非常によい精度での画像認識を実現できることが分かっていました。
コンピューターによる画像認識の精度が飛躍的に向上したきっかけに「ImageNet」があります。そして、このImageNetによる2012年のコンペティションが現在のAIのブームや爆発的発展のきっかけとなったと言われています。
ImageNetとは、2万種以上の写真に対して、何が写っているかというラベルの説明(ラベル定義)がつけられた1400万枚以上の自然画像のデータセットで、スタンフォード大学コンピュータサイエンス学部教授であるFei-Fei Li(李飛飛)博士によって、2009年に発表されました。Li博士は、当時の学術会でスタンダードであった「データに関係なく、より良いアルゴリズムがより良い判断を下す」という考え方に限界を感じ、多くの研究者がモデルに注目している中「データに注目し、より優れたデータセットを構築する」というパラダイムシフトをImageNetを通じて起こしました。
ImageNetの開発にあたっては、膨大な画像収集と教師ラベル付け作業がありました。ラベル付けは、画像内の物体の特徴を抽出するための前処理として行われます。「教師あり学習」のラベル品質は、AIの学習精度を大きく左右することもあり、データの前処理が開発時間全体の80%を占めるとも言われています。このImageNetの完成までに、学部生の作業では90年かかることが判明したため、クラウドソーシングサービスである「Amazon Mechanical Turk」の167カ国約5万人のクラウドワーカーが約10億枚の画像を整理、ラベル付けすることによって、2年半で発表にこぎつけました。
教師データのラベル付け作業がなぜここまで大変なのでしょうか。その背景には様々な要因が挙げられますが、主な要因として以下の3点があります。
AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏(CEO)が2017年に創業したシリコンバレー発のAI企業。
社名 :パロアルトインサイトLLC
設立 :2017年
所在 :米国カリフォルニア州 (シリコンバレー)
メンバー数:17名(2021年9月現在)
パロアルトインサイトHP:www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com
2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。東急ホテルズ&リゾーツのDXアドバイザーとして中長期DX戦略への助言を行うなど、多くの日本企業に対して最新のDX戦略提案からAI開発まで一貫したAI・DX支援を提供する。2024年より一般社団法人人工知能学会理事に就任。
AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授(AI企業戦略)及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート&テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。
毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ!」内「マイ!Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。
著書に『AI時代を生き抜くということ ChatGPTとリスキリング』(日経BP)『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』(ディスカヴァー・トゥエンティワン)、『経験ゼロから始めるAI時代の新キャリアデザイン』(KADOKAWA)、『才能の見つけ方 天才の育て方』(文藝春秋)など多数。
実践型教育AIプログラム「AIと私」:https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com
※石角友愛の著書一覧
毎週水曜日、アメリカの最新AI情報が満載の
ニュースレターを無料でお届け!
その他講演情報やAI導入事例紹介、
ニュースレター登録者対象の
無料オンラインセミナーのご案内などを送ります。