LLM(大規模言語モデル)

「Large Language Models」の略称。日本語では「大規模言語モデル」という。大量のテキストデータを使って学習された自然言語処理(NLP、Natural Language Processing)の技術。代表的なLLMとして、Googleの「BERT」(2018年)や、OpenAIの「GPT-3」(2020年)などが挙げられる。2022年に発表されて話題となった「ChatGPT」は、「GPT-3.5」を対話向けにファインチューニングしたLLM応用例の一つ。

LLMは入力された文脈に基づいて、次に来る単語やフレーズを予測して文章を生成する。高度な文章生成、質問応答能力を持ち、一つの言語に限定されていない多言語のモデルが多いという特徴がある。LLMの学習にはウェブ上の文章、書籍、ニュース記事など、さまざまソースから収集された大量のテキストデータが使用される。そのため、データに含まれたバイアスや偏りも反映される可能性がある。また、誤った情報も取り込まれるので、生成結果が必ずしも正確であるとは限らない。適切なデータの選択や事前処理の工夫が重要。

既存のLLMは英語を中心に学習されているため、日本語の精度が英語より低いことが課題だった。しかし、サイバーエージェント社が最大68億パラメータの日本語LLMをHugging Face(オープンソース・ライブラリ)で一般公開。ほぼ同時期に、rinna社からも36億パラメータの日本語LLMが公開された。

日本語モデルのオープンソース化が加速している。東京工業大学、東北大学、富士通、理化学研究所など、AI研究で日本を代表する研究機関や企業が結集し、日本語能力の高いLLMの開発に乗り出した。開発には、スーパーコンピューター「富岳」の政策対応枠が活用される。2023年5月から、富岳の超大規模な並列計算環境でLLMの学習を実施、2024年度内の公開を目指す。国産の生成AIの開発や商用サービスへの利用につなげるという。
(青木逸美)

ICTサプライヤーのためのビジネスチャンス発見マガジン
  • Find us on
  • X(Twitter)
  • iDATEN(韋駄天)
  • iKAZUCHI(雷)
  • 教育ICT総合サイト