シリコンバレーから現役データサイエンティストのインサイトをお届けする「The Insight」。今回取り上げるのは、自然言語処理AIの分野における国際的なプロジェクトです。
・BigScienceはどんなプロジェクトか
・BLOOMを実現した学習プロセス
・倫理面の課題とライセンスによる対処方法
- LLM(Large Language Model)
- NLP(Natural Language Processing)
- GPT-3(Generative Pre-trained Transformer-3)
関連記事「自然言語処理の世界に衝撃をもたらした「GPT-3」」
目次
BigScienceとHugging Faceの紹介
BLOOMはどんなモデルか
BLOOMが行った事前学習
倫理面の課題と対処法である「RAIL」
AIビジネスデザイナーのワンポイントアドバイス
BigScienceとHugging Faceの紹介
まずは大規模言語モデル「BLOOM」を生み出したBigScienceプロジェクトと、Hugging Faceについて紹介します。
BigScienceは国際的な研究プロジェクト
BigScienceは、大規模言語モデル(LLM:Large Language Model)の国際的な研究プロジェクトです。
その目的は、自由に使えるLLM(Large Language Model)を世界中の研究者に提供して、AI研究を促進すること。素粒子物理学の分野における「CERN」や「LHC」のプロジェクトに着想を得て発足されました。
BigScienceで中心的な役割を担っているのは、以下の3つの組織です。
- Hugging Face社
- GENCI(フランスの公的機関によって設立された、高度なデータ処理を支援する組織)
- IDRIS(フランス国立科学研究センターが管理する、高度な計算を扱う組織)
プロジェクトは2021年5月から2022年5月まで、世界60ヶ国の250以上の機関から1,000人以上の研究者が協力して実施されました。AI研究のプロジェクトとしては、過去に例がないほど巨大な規模です。
Hugging Face社はオープンソースプラットフォームを運営
Hugging Face社は、著名なオープンソースプラットフォームである「Hugging Face」を運営しています。BLOOMはHugging Face上のこちらのページで公開されており、誰でもアクセス可能です。
Hugging Face社は2016年に創業され、拠点はニューヨークにあります。当初Hugging Face社は、自社での対話型AIの開発を目指していました。しかし、その後に方針を転換。自社の自然言語処理(NLP:Natural Language Processing)技術をオープンソースで提供するようになっていきました。
Hugging Face社は、2019年にNLPモデル「Transformers」を発表したことで有名になりました。いまではNLPに限らず、機械学習モデルに関するあらゆるものがHugging Face上で公開され、世界中の開発者に活用されています。
なおNLPについては、過去記事「Tokenizer(トークナイザ)とは何か?なぜ、日本語はAIにとって難しいとされているのか」で詳しく解説しています。ぜひあわせてお読みください。
BLOOMはどんなモデルか
BLOOMはBigScienceによって開発されたLLM(Large Language Model)です。そもそもLLMとは何かについて解説し、さらにBLOOMの特徴を紹介します。
大規模言語モデル(LLM:Large Language Model)とは
LLMは端的に言えば、事前に学習した文章に基づいて単語を予測する統計ツールです。LLMを使うことで、AIは以下のようなタスクを行えます。
- 文章の分類
- 要約
- 翻訳
- 自動生成
- 情報の抽出
- 質問への自動回答
これらの組み合わせによって、チャットボットや自動翻訳など、ビジネスでさまざまなサービスを提供できます。
しかし、LLMの開発には莫大なコストがかかるため、一般の研究者の手には負えず、以下のような大企業によって独占されてきました。
- Meta
- Microsoft
そこでオープンソースで誰でも自由に使えるLLMを求めて、BigScienceプロジェクトが立ち上げられたのです。
BLOOMの特徴
BigScienceによって生み出されたBLOOMは、他社が開発したLLMに引けをとらない性能を備えています。BLOOMの特徴は以下の通りです。