OpenAIが音声認識に関する新たなアプローチを提唱した論文「Robust Speech Recognition via Large-Scale Weak Supervision」で紹介された、教師あり学習と教師なし学習の中間に位置する「弱教師あり学習」という新たな手法について紹介します。研究では、インターネット上の多言語・多タスクデータセットを用いて、全体で68万時間にも及ぶ大規模な学習を行いました。その結果は、従来の教師あり学習に匹敵するもので、新たな可能性を提示しています。これにはどのような技術が使われ、どのような成果が得られたのか、前編と後編に分けて紹介していきます。
💡 この記事から得られる3つのナレッジ
・モデルワーク
・弱教師あり学習
・音声認識研究
論文タイトル:Robust Speech Recognition via Large-Scale Weak Supervision
発行日:2022年 9月21日
URL:https://cdn.openai.com/papers/whisper.pdf
音声認識技術は、バーチャルアシスタントやテープ起こしサービス、言語学習、障がい者のアクセシビリティなどの分野で活用されていますが、自然言語の多様性と複雑性が課題となっています。従来の音声認識モデルは、大量のラベル付きデータが必要な「教師あり学習」に依存していました。
そのような中発表されたOpenAIの論文「Robust Speech Recognition via Large-Scale Weak Supervision」について紹介します。この論文を発表したOpenAIの研究者らは、弱教師あり学習(weakly supervised learning)を用いた音声処理システムの能力を調査しています。これはインターネット上に存在する680,000時間に及ぶ多言語・多タスクのデータセットを使用したモデルで、標準的なベンチマークにおいて先行する完全教師あり学習の結果と競るほど良好な結果を出しています。
弱教師あり学習のメリットは、非構造化データソースから自動生成されたノイズや不完全なラベルを利用することで、アノテーションを必要とせずに学習データ量を拡大することができる点にあります。
Whisperモデルは、音声認識と翻訳タスクのために開発され、音声を話した言語のテキストに書き換える(ASR)だけでなく、英語に翻訳する(音声翻訳)ことが可能です。OpenAIの研究者は、大規模な弱教師あり学習で訓練された音声処理システムのロバスト性(様々な外部の影響によって影響されにくい性質)を研究するために、このモデルを開発しました。Whisper のモデルカードに記載されている下記の表は、サイズや機能の異なる9つのモデルテーブルです。
(画像引用:https://github.com/openai/whisper/blob/main/model-card.md)
モデルカードとは、AIモデルをつくる際に特定のアルゴリズムについて簡潔に説明するフレームワークで、モデルの基本情報、利用目的、要因、指標、評価データ、学習データ、定量的分析、倫理的配慮、注意書きと推奨事項、などにより構成されています。
モデルカードについては、過去記事「InstructGPTとアライメントとは」で詳しく解説しています。併せてご覧ください。
機械学習における一般的なアプローチは教師あり学習ですが、これには大量のラベル付きデータが必要であり、一般化や自然言語の多様性の把握に限界があります。一方で教師なし学習は、ラベル付きデータが不要であり、教師あり学習より優れる面がありますが、自然言語の意味や構文構造を理解するのが難しいという限界もあります。
AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏(CEO)が2017年に創業したシリコンバレー発のAI企業。
社名 :パロアルトインサイトLLC
設立 :2017年
所在 :米国カリフォルニア州 (シリコンバレー)
メンバー数:17名(2021年9月現在)
パロアルトインサイトHP:www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com
2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。東急ホテルズ&リゾーツのDXアドバイザーとして中長期DX戦略への助言を行うなど、多くの日本企業に対して最新のDX戦略提案からAI開発まで一貫したAI・DX支援を提供する。2024年より一般社団法人人工知能学会理事に就任。
AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授(AI企業戦略)及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート&テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。
毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ!」内「マイ!Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。
著書に『AI時代を生き抜くということ ChatGPTとリスキリング』(日経BP)『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』(ディスカヴァー・トゥエンティワン)、『経験ゼロから始めるAI時代の新キャリアデザイン』(KADOKAWA)、『才能の見つけ方 天才の育て方』(文藝春秋)など多数。
実践型教育AIプログラム「AIと私」:https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com
※石角友愛の著書一覧
毎週水曜日、アメリカの最新AI情報が満載の
ニュースレターを無料でお届け!
その他講演情報やAI導入事例紹介、
ニュースレター登録者対象の
無料オンラインセミナーのご案内などを送ります。