Azure OpenAI ServiceのGPT-4に関して、トレーニングに使用されたデータの期間、トークン制限、価格(料金)をまとめました。
学習データ期間
ChatGPTが登場した時のGPT-3.5はコロナウイルスを知らなかったですが、GPT-4だとコロナや巣籠もりにも言及しますね。
トレーニングデータの期間含めたモデルに関する情報は以下のリンクから確認できます。
Azure OpenAI Service モデル – Azure OpenAI | Microsoft Learn
下表のようになっています。
プレビュー版のGPT-4 Turboを除くと、トレーニングデータは2021年9月までです。
GPT-4 Turboは、トレーニングデータが2023年4月または12月までとなっています。
なお、GPTが生成したテキストの情報ソースはよくわからないですが、2024年3月29日、OpenAIは「X」のポストで情報ソースを分かりやすくする対応を進めると発表しました。(「ChatGPT Plus」「ChatGPT Team」「ChatGPT Enterprise」のみ)
トークン制限
最大トークンについても、前出の表に記載があります。
Azure OpenAI Service モデル – Azure OpenAI | Microsoft Learn
gpt-4が8kトークン、gpt-4-32kが32kトークンになります。
これは、入力と出力の合計です。
GPT-4 Turboになると、最大トークンが128kトークン(入力)と大幅に増えます。
トークンとは、テキストを機械学習モデルが処理できるように分割した小さな単位のことです。
英語での一般的な単語は1トークンとして数えられることが多いですが、長い単語や特殊文字は複数のトークンに分割されることがあります。
日本語の場合、1文字1~3トークンくらいですが、たまに確認すると、平均1文字あたり1.1~1.2トークンという印象です。
GPT-4 Turboのトークン制限が入力と出力に分かれているのはよいなと思いました。
価格
GPT-4の価格については、以下のページで確認できます。
Azure OpenAI Service – 価格 | Microsoft Azure
東日本リージョンの価格は以下の画像のとおりです。
gpt-4-32kはgpt-4の2倍です。
GPT-4と長文で会話しながら試行錯誤していると(特に32kのAPIを何度も使っていると)LLM利用の効果に対して高くつく印象です。
GPT-4 Turboは、日本のリージョンでは提供されておらず、スウェーデンのリージョンで表示します。
GPT-4 Turboは、最大トークンが増え、学習データも新しくなっていますが、価格は下がっています。
プレビュー版(GPT-4 Turbo)を運用環境で使うことは非推奨とされています。
おわりに
今後も新しいモデルが続々と登場すると思いますので、要チェックです。
GPT-4 Turboは最大トークン、トレーニングデータ期間、価格の点でメリットのあるモデルですが、日本のリージョンでは提供されておらず、プレビュー版を運用環境で使うことは非推奨と記載されています。
また、レート制限がややきつめでした。
GPT-5の話題も挙がっていますが、より精度の高いモデルが使いやすくなる期待はできると思います。