アメリカ最新AI情報満載!セミナーや講演情報など交えて毎週水曜配信 無料ニュースレター 下記へメールアドレスを入力し無料で登録
CLOSE
パロアルトインサイト/ PALO ALTO INSIGHT, LLC.
ブログBLOG
パロアルトインサイト/PALO ALTO INSIGHT, LLC. > ブログ > 大規模言語モデルとは?注目のオープンソース「BLOOM」解説
大規模言語モデルとは?注目のオープンソース「BLOOM」解説
2022/08/03 ブログ, The Insight人気記事, The Insight 
by kohei 

大規模言語モデルとは?一般企業も注目のオープンソース「BLOOM」を解説

Hugging Face 社を中心とする国際的な巨大プロジェクト「BigScience」の成果

今週のテーマ:技術開発

パロアルトインサイトの石角です。2022年7月、オープンソースの大規模言語モデル「BLOOM」が発表されました。これはHugging Face社を中心とする「BigScience」プロジェクトによる成果です。

「BLOOM」は非常に高性能でありながらオープンソースで公開されているため、今後の自然言語処理AIの開発を大きく加速させる可能性があります。

 

シリコンバレーから現役データサイエンティストのインサイトをお届けする「The Insight」。今回取り上げるのは、自然言語処理AIの分野における国際的なプロジェクトです。

この記事から得られる3つのナレッジ
・BigScienceはどんなプロジェクトか
・BLOOMを実現した学習プロセス
・倫理面の課題とライセンスによる対処方法
この記事に登場する技術キーワード
  • LLM(Large Language Model)
  • NLP(Natural Language Processing)
関連記事「Tokenizer(トークナイザ)とは何か?なぜ、日本語はAIにとって難しいとされているのか
  • GPT-3(Generative Pre-trained Transformer-3)
関連記事「自然言語処理の世界に衝撃をもたらした「GPT-3」

目次

BigScienceとHugging Faceの紹介

BLOOMはどんなモデルか

BLOOMが行った事前学習

倫理面の課題と対処法である「RAIL」

AIビジネスデザイナーのワンポイントアドバイス


BigScienceとHugging Faceの紹介

まずは大規模言語モデル「BLOOM」を生み出したBigScienceプロジェクトと、Hugging Faceについて紹介します。

BigScienceは国際的な研究プロジェクト

BigScienceは、大規模言語モデル(LLM:Large Language Model)の国際的な研究プロジェクトです。

その目的は、自由に使えるLLM(Large Language Model)を世界中の研究者に提供して、AI研究を促進すること。素粒子物理学の分野における「CERN」や「LHC」のプロジェクトに着想を得て発足されました。

BigScienceで中心的な役割を担っているのは、以下の3つの組織です。

?BigScience の中心組織
  • Hugging Face社
  • GENCI(フランスの公的機関によって設立された、高度なデータ処理を支援する組織)
  • IDRIS(フランス国立科学研究センターが管理する、高度な計算を扱う組織)

プロジェクトは2021年5月から2022年5月まで、世界60ヶ国の250以上の機関から1,000人以上の研究者が協力して実施されました。AI研究のプロジェクトとしては、過去に例がないほど巨大な規模です。

Hugging Face社はオープンソースプラットフォームを運営

Hugging Face社は、著名なオープンソースプラットフォームである「Hugging Face」を運営しています。BLOOMはHugging Face上のこちらのページで公開されており、誰でもアクセス可能です。

Hugging Face社は2016年に創業され、拠点はニューヨークにあります。当初Hugging Face社は、自社での対話型AIの開発を目指していました。しかし、その後に方針を転換。自社の自然言語処理(NLP:Natural Language Processing)技術をオープンソースで提供するようになっていきました。

Hugging Face社は、2019年にNLPモデル「Transformers」を発表したことで有名になりました。いまではNLPに限らず、機械学習モデルに関するあらゆるものがHugging Face上で公開され、世界中の開発者に活用されています。

なおNLPについては、過去記事「Tokenizer(トークナイザ)とは何か?なぜ、日本語はAIにとって難しいとされているのか」で詳しく解説しています。ぜひあわせてお読みください。

BLOOMはどんなモデルか

BLOOMはBigScienceによって開発されたLLM(Large Language Model)です。そもそもLLMとは何かについて解説し、さらにBLOOMの特徴を紹介します。

大規模言語モデル(LLM:Large Language Model)とは

LLMは端的に言えば、事前に学習した文章に基づいて単語を予測する統計ツールです。LLMを使うことで、AIは以下のようなタスクを行えます。

?LLM で可能なタスク
  • 文章の分類
  • 要約
  • 翻訳
  • 自動生成
  • 情報の抽出
  • 質問への自動回答

これらの組み合わせによって、チャットボットや自動翻訳など、ビジネスでさまざまなサービスを提供できます。

しかし、LLMの開発には莫大なコストがかかるため、一般の研究者の手には負えず、以下のような大企業によって独占されてきました。

LLM の開発を独占してきた大企業
  • Meta
  • Google
  • Microsoft

そこでオープンソースで誰でも自由に使えるLLMを求めて、BigScienceプロジェクトが立ち上げられたのです。

BLOOMの特徴

BigScienceによって生み出されたBLOOMは、他社が開発したLLMに引けをとらない性能を備えています。BLOOMの特徴は以下の通りです。

おすすめ/関連記事こちらの記事も合わせてどうぞ

パロアルトインサイトについて

AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏(CEO)が2017年に創業したシリコンバレー発のAI企業。

社名 :パロアルトインサイトLLC
設立 :2017年
所在 :米国カリフォルニア州 (シリコンバレー)
メンバー数:17名(2021年9月現在)

パロアルトインサイトHP:www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com

石角友愛
<CEO 石角友愛(いしずみともえ)>

2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。東急ホテルズ&リゾーツのDXアドバイザーとして中長期DX戦略への助言を行うなど、多くの日本企業に対して最新のDX戦略提案からAI開発まで一貫したAI・DX支援を提供する。2024年より一般社団法人人工知能学会理事に就任。

AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授(AI企業戦略)及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート&テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。

毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ!」内「マイ!Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。

著書に『AI時代を生き抜くということ ChatGPTとリスキリング』(日経BP)『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』(ディスカヴァー・トゥエンティワン)、『経験ゼロから始めるAI時代の新キャリアデザイン』(KADOKAWA)、『才能の見つけ方 天才の育て方』(文藝春秋)など多数。

実践型教育AIプログラム「AIと私」:https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com

 

※石角友愛の著書一覧

NEWSLETTERパロアルトインサイトの
無料ニュースレター

毎週水曜日、アメリカの最新AI情報が満載の
ニュースレターを無料でお届け!
その他講演情報やAI導入事例紹介、
ニュースレター登録者対象の
無料オンラインセミナーのご案内などを送ります。

BACK TO BLOG
« »
PAGE TOP