NTTが30BのLLM「tsuzumi2」を発表したけど、なんでオープンモデル使わないの?という話

AI

はじめに:国産LLM開発競争の現実

2025年10月20日、NTTが純国産LLM「tsuzumi2」を発表しました。パラメータ数を前バージョンの7Bから30Bに拡大し、日本語性能でGPT-5に匹敵すると主張しています。

NTTのAI関連事業の受注額は今年1500億円に達する見込みですが、その中で「tsuzumiが使いたい」という案件は数十件程度。現状ではほとんどの企業がChatGPTのようなクラウドAIを使っているそうです。

NTTの主張は「段々とオンプレミス環境でAI動かさなアカンと気付けばtsuzumiみたいなクローズモデルに食いついてくるはずだ」とのこと。

でも待てよ。オンプレミスで動かすなら、優秀なオープンモデルがすでに山ほどあるのでは?

tsuzumi2って何に向いているのか

基本スペック

  • パラメータ数: 30B(300億)
  • 日本語性能: MT-benchでGPT-5と同等レベル
  • 特化分野: 金融・自治体・医療
  • 得意タスク:
    • ドキュメントに対するQA(RAG検索要約)
    • ドキュメントからの情報抽出・要約
    • ビジネス文書処理

ChatGPTで言うとどのモデルに相当?

公式発表では「日本語のMT-benchでGPT-5と同等」とされていますが、これには注意が必要です。

重要なポイント

  • 日本語タスクに限定した評価
  • ビジネス文書処理という特定用途に特化
  • 前バージョン(7B)はGPT-3.5より上とされていたが、独立検証ではGPT-3.5以下という結果も

現実的な評価

  • 日本語のビジネス文書処理に限定すれば → GPT-4〜GPT-5級
  • 総合的な汎用LLMとしては → GPT-4前後

分析レポート生成には向いているのか?

結論:向いています

tsuzumi2はビジネスシーンで頻繁に使われる能力を重点強化していて:

  • ユースケースの80%を占める「RAG検索要約」に最適化
  • NTT社内の「財務システム問い合わせ対応」で他社先進モデルと同等以上の性能

ただし注意点: 独立検証では「入力プロンプトが増えるほど挙動が怪しくなる」という報告もあります。

Llama 4 Maverickとの比較

Llama 4 Maverickの基本スペック

  • 総パラメータ数: 400B(4000億)
  • アクティブパラメータ: 17B(MoEアーキテクチャ)
  • アーキテクチャ: Mixture of Experts(128個のエキスパート)
  • 対応言語: 12言語(公式には日本語未対応だが、200言語で事前学習済み)
  • 性能: Chatbot ArenaでGemini 2.5 Proに次ぐ世界2位

日本語性能はどちらが上?

これは難しい比較です:

tsuzumi2の強み

  • 日本語に完全特化
  • 日本の金融・医療・公共分野の専門知識を強化
  • RAGとの相性が良い

Llama 4 Maverickの強み

  • 総合的な性能は圧倒的に上(GPT-4oやGemini 2.0 Flashを上回る)
  • 日本語も実用十分(Llama 4 Scoutでも「長文で完璧な返答」という報告)
  • マルチモーダル対応(画像も理解可能)

結論

  • 汎用的な日本語タスクなら → Llama 4 Maverickが上回る可能性大
  • 日本の専門分野文書に限定すれば → tsuzumi2が優位かも

衝撃の事実:必要なハードウェアスペック

tsuzumi2のハードウェア要件

  • 必要VRAM: 40GB程度
  • 推奨GPU: NVIDIA A100 40GB × 1基
  • ハードウェアコスト: 約500万円

NTTは「1GPUで動作可能な軽量モデル」と主張していますが、そのGPUがA100という時点で、個人やスタートアップには厳しい価格帯です。

Llama 4 Maverickのハードウェア要件

ここが驚愕のポイントです。

総パラメータ数400Bと聞くと「とんでもないハードウェアが必要」と思いますよね?

しかし実際は

  • 推奨GPU: RTX 4060以上(8GB VRAM)
  • 推奨RAM: 64GB以上(CPUオフロード用)
  • 価格帯: 5〜15万円(ゲーミングPC)

なぜRTX 4060(8GB)で400Bモデルが動くのか?

1. MoE(Mixture of Experts)アーキテクチャ

400B総パラメータのうち、推論時にアクティブになるのは17Bだけです。128個のエキスパートから最適なものを選んで使う仕組みです。

2. 量子化技術

  • 完全な非量子化版: 422GB
  • 1.78ビット量子化版: 122GB(70%削減)
  • さらにQ4やQ2量子化で8GB VRAMに収まる

3. CPUオフロード

VRAMに乗り切らない部分をシステムRAM(CPU側のメモリ)に配置して協調処理します。

# llama.cppでの実行例
./llama-cli \
  --model llama4-maverick-q4.gguf \
  --n-gpu-layers 12 \      # GPUに12レイヤーをロード
  --cpu-offload-gb 64 \    # CPUに64GBオフロード
  --threads 16             # CPU処理用スレッド数

ハードウェア要件の比較表

項目tsuzumi2Llama 4 Maverick(量子化)
総パラメータ30B400B(17Bアクティブ)
必要VRAM40GB8-16GB
推奨GPUA100 40GB × 1RTX 4060以上
ハードウェアコスト約500万円5-15万円
環境データセンター級ゲーミングPC

なんでクローズモデル使わなあかんねん問題

ここまで見てきて、素朴な疑問が湧いてきます。

オンプレミスで動かすなら、なぜオープンモデルじゃダメなのか?

NTTが主張するtsuzumi2の利点

  1. フルスクラッチ開発による信頼性
    • 学習データの完全コントロール
    • データの権利、品質、バイアスの管理が可能
    • 日本の国内法に準拠
  2. セキュリティ
    • 機密性の高い情報も安全に取り扱える
    • オンプレミスやプライベートクラウドで運用可能
  3. 専門分野への最適化
    • 金融・医療・公共分野の知識を事前学習
    • 少ない追加学習データで高精度(FP2級試験で200問でGemma-2の1900問と同等)

しかし現実は…

性能面

  • Llama 4 Maverickは総合性能でGPT-4oを上回る
  • 日本語も実用十分
  • マルチモーダル対応

コスト面

  • tsuzumi2: 500万円のA100が必要
  • Llama 4 Maverick: 10万円前後のRTX 4060で動作

アクセシビリティ

  • tsuzumi2: NTT経由での導入が必要
  • Llama 4 Maverick: Hugging Faceから誰でもダウンロード可能

独立検証の結果

興味深いことに、tsuzumi(初代7B)について独立した検証が行われています:

テスト内容: 13問(知識問題4問、センター数学3問、SPI読解6問)

モデル正解率
GPT-4o77%
GPT-4.053%
GPT-3.5 turbo12%
Tsuzumi 7B4%

検証者のコメント:

「入力プロンプトが増えれば増えるほど挙動が怪しくなる。RAGのような大量の文章を入れるのはやめたほうがいい」

もちろんtsuzumi2では改善されている可能性がありますが、独立検証の重要性を示す事例です。

結論:で、どっち使えばいいの?

tsuzumi2を選ぶべきケース

  1. 法的リスクを完全に回避したい
    • 学習データの出所が完全に明確
    • 著作権問題のリスクゼロ
  2. 日本の特定専門分野に特化
    • 金融・医療・公共の日本語文書処理
    • NTTのサポートが必要
  3. 予算が潤沢
    • 500万円のハードウェアが問題ない
    • または、NTTのクラウドサービスを利用

Llama 4 Maverickを選ぶべきケース

  1. コストを抑えたい
    • ゲーミングPCレベルのハードウェアで十分
    • オープンソースで無料
  2. 汎用性が必要
    • 総合的な性能はトップクラス
    • マルチモーダル対応
  3. 柔軟性が必要
    • 自由にカスタマイズ可能
    • 量子化やファインチューニングが容易

技術的な面白ポイント:MoEの威力

Llama 4 Maverickが8GB VRAMで動く理由は、MoE(Mixture of Experts)アーキテクチャの面白さを示しています。

従来のDenseモデル

  • 全てのパラメータが常に動作
  • 30Bなら30B全部が必要

MoEモデル

  • 400Bの総パラメータを持つが、実際には17Bしか使わない
  • タスクに応じて最適な「専門家」を選択
  • メモリ効率と性能を両立

これに量子化技術を組み合わせることで、100万円超のサーバー級GPUが必要だったモデルが、10万円のゲーミングGPUで動くという革命が起きています。

おわりに

NTTのtsuzumi2発表を見て「なんでクローズモデルやねん」と思ったのは、多分多くの技術者が感じていることでしょう。

技術的には

  • オープンモデルの方が高性能
  • オープンモデルの方が低コスト
  • オープンモデルの方がアクセスしやすい

しかし現実には

  • 大企業や自治体は「法的リスク」を重視
  • 学習データの出所が不明確なモデルは使いにくい
  • 日本語の専門文書処理では独自の強みがある可能性

結局のところ、「技術的に最適」と「ビジネス的に選ばれる」は別物なのかもしれません。

ただ、個人的にはLlama 4 MaverickがRTX 4060で動くという事実に興奮を隠せません。AI民主化の時代が本当に来ているのを実感します。


参考情報

技術仕様まとめ

tsuzumi2

  • パラメータ数: 30B
  • 必要VRAM: 40GB
  • 推奨GPU: NVIDIA A100 40GB
  • 特化分野: 日本語ビジネス文書、金融・医療・公共
  • ライセンス: クローズド(NTT提供)

Llama 4 Maverick

  • 総パラメータ数: 400B(17Bアクティブ)
  • 必要VRAM: 8-16GB(量子化時)
  • 推奨GPU: RTX 4060以上
  • 特化分野: 汎用(マルチモーダル対応)
  • ライセンス: Llama 4 Community License(商用利用可、条件付き)

コメント

タイトルとURLをコピーしました