ChatGPTの大規模言語モデル
ChatGPT以降、世間をにぎわせた生成AIは「大規模言語モデル(LLM)」などと呼ばれます。これはその名の通り、モデルが大規模であることを示しています。生成AIの性能にはモデルが大規模であることが重要なのでしょうか。
モデルを大規模にすることは言語モデルの性能を向上させることにつながります。「スケーリング則」という考え方があり、これによると言語モデルの性能は、モデルサイズ、学習に使用するデータセットの量、学習に使う計算量で決まります。これらの3変数を同時に大きくする、スケーリングさせることで言語モデルの性能は上がっていくという法則です。
大規模言語モデルは莫大な投資がかかる
ChatGPT以前の人工知能研究では、いかに賢いアルゴリズムを開発するかが競われていました。しかし、このスケーリング則を用いるChatGPT、大規模言語モデルの成功が示したのは、アルゴリズムの設計にこだわるよりも、大規模なパラメータを持つモデルに、大量のデータで、長時間学習させると性能が上がるという規模の論理で、いかに大量にお金を投下して大規模な学習ができるかに置き換わってしまいました。
このような大規模な言語モデルの学習に際しては、強力な計算リソースの有無が肝要になってきます。GPUやスーパーコンピュータ、高性能なクラウドコンピューティングこういったものがここで使われます。

生成AIのブームと同時に、米国のNVIDIAという会社の株価が急上昇したのはご存じでしょうか。2024年7月には一時的にですがとうとう時価総額世界一に上り詰めたほどです。NVIDIAはGPUを発明し、GPUを専門に開発する半導体メーカーです。生成AIの普及にはNVIDIAのGPUが不可欠なものと考えられこのような動きになったのです。
そしてGPUの利用は、非常に大きな電力を消費します。GPUを大量に搭載したコンピュータが稼働するデータセンターは「AIデータセンター」と呼ばれ、この大量の電力消費に耐える特別仕様のデータセンターも各社が競って拡大を始めました。
NVIDIAのAI向けGPUとしては「H100」や「H200」などがありますが、大規模言語モデルの学習に適したサーバーはこのGPUを8個以上搭載します。すると、このサーバーは1台で10キロワットもの電力を消費します。私は以前データセンターでシステム・サーバー構築をしていたことがありますが、その時のデータセンターでは1ラックあたり6キロVA程度が供給電力の上限でした。このラックでも、最大40台程度のサーバーを詰め込むことができるのです(電力、耐荷重、配線、空調などの調整もあるので実際はそこまで詰めないですが)。ですが、AI向けサーバーの諸元に照らすとこのラックではAI向けサーバー1台すら稼働させることができません。AIデータセンターがいかに膨大な電力を必要とするか、おわかりいただけますでしょうか。

AIデータセンター各社はNVIDIAのGPUを奪い合い、GPUは市場から枯渇します。米国では、こういった電力消費増加に向けて発電所を増やすなどの動きすらとっています。さらに、バイデン前大統領の政権においては、国家安全保障上の重大なリスクがあるとして中国など懸念国へのAIチップの輸出を規制しました。
DeepSeek現る
米国を中心とした大量の計算リソースや大量の電力をつぎ込んだ大規模言語モデルの高性能化の流れがこのまま未来永劫続くと思われたところに、DeepSeekが登場します。

DeepSeekは、上述したような膨大な投資が当たり前となった生成AI開発のシナリオを覆し、圧倒的な低コストでGPTに匹敵する性能を示す生成AIをリリースしたのでした。OpenAI社はGPT-4oの開発に1億ドル投資したといいますが、DeepSeekの開発はその10分の1未満でした。しかもバイデン政権がAIチップを輸出規制した中国から登場したのです。これにはAI開発の関係者も、半導体祭りとなっていた株式市場も大変な衝撃を受けます。
DeepSeekは、運用面でもGPU負荷を低減する工夫がなされているそうです。開発コスト、運用コストを小さくすることで、DeepSeekはユーザーの利用料金の部分で優位性を生み出すことができます。例えばAPI利用料金でDeepSeek-v3とGPT-3.5 turboを比較した場合、その料金は10分の1以下となっています。
こういった低コストの開発・運用に成功したという部分だけでなく、個人的に驚いたのは、DeepSeekとの提携を米国Microsoft社が早々に決めたことでした。Microsoft社はすでにChatGPTを開発したOpenAI社と提携し、自社製品の中にGPT技術を組み込んでいました。Azure OpenAIサービスはじめ、MicrosoftのAI関連製品・サービスにはGPTの技術が組み込まれています。OpenAIとの提携で相当な投資も行ったであろうというのに、DeepSeekの拡大を確信しあっという間にこのフォーメーションを見直しました。そしてその後すぐに米国Amazon社もAWS上でDeepSeekの利用を可能にしたのでした。DeepSeekは、セキュリティ面や政治面で様々な疑惑・リスクをまだ抱えているとされていますが、こういったしがらみにとらわれずにクイックに決断し、さらに成長しようというMicrosoft・Amazonの姿勢は外資らしい、見習いたいところだと感心しました。
生成AIのすそ野は拡大する
ご自身のAIの利用方法を想像していただくとそうだと思うのですが、Chat-GPTも使えばClaudeも使うし、CopilotやGeminiなど含めても、どれか唯一しか使わない!ということはないでしょう。生成AIの存在は排他的なモノではないので、DeepSeekが登場したからといって、これまでの大規模言語モデルの開発方法が無くなるわけではありません。大きな資産を持つ企業からそうではない企業まで、いろいろなAIの開発の仕方、使い方の選択があり、より一層このムーブが広がっていくであろうことが想定されます。
AIを使う側として、あるいはAIを開発する側として、このAIブームの上昇気流に乗りたいですね。
最後までお読みいただきありがとうございました。当ブログは日常のICTの困りごとを解決するためのノウハウを発信しているサイトです。トップページもご覧ください。