NTTが30BのLLM「tsuzumi2」を発表したけど、なんでオープンモデル使わないの？という話

はじめに：国産LLM開発競争の現実
tsuzumi2って何に向いているのか
Llama 4 Maverickとの比較
1. Llama 4 Maverickの基本スペック
2. 日本語性能はどちらが上？
衝撃の事実：必要なハードウェアスペック
ハードウェア要件の比較表
なんでクローズモデル使わなあかんねん問題
1. NTTが主張するtsuzumi2の利点
2. しかし現実は…
独立検証の結果
結論：で、どっち使えばいいの？
1. tsuzumi2を選ぶべきケース
2. Llama 4 Maverickを選ぶべきケース
技術的な面白ポイント：MoEの威力
おわりに
参考情報
技術仕様まとめ
1. tsuzumi2
2. Llama 4 Maverick

はじめに：国産LLM開発競争の現実

2025年10月20日、NTTが純国産LLM「tsuzumi2」を発表しました。パラメータ数を前バージョンの7Bから30Bに拡大し、日本語性能でGPT-5に匹敵すると主張しています。

NTTのAI関連事業の受注額は今年1500億円に達する見込みですが、その中で「tsuzumiが使いたい」という案件は数十件程度。現状ではほとんどの企業がChatGPTのようなクラウドAIを使っているそうです。

NTTの主張は「段々とオンプレミス環境でAI動かさなアカンと気付けばtsuzumiみたいなクローズモデルに食いついてくるはずだ」とのこと。

でも待てよ。オンプレミスで動かすなら、優秀なオープンモデルがすでに山ほどあるのでは？

tsuzumi2って何に向いているのか

基本スペック

パラメータ数: 30B（300億）
日本語性能: MT-benchでGPT-5と同等レベル
特化分野: 金融・自治体・医療
得意タスク:
- ドキュメントに対するQA（RAG検索要約）
- ドキュメントからの情報抽出・要約
- ビジネス文書処理

ChatGPTで言うとどのモデルに相当？

公式発表では「日本語のMT-benchでGPT-5と同等」とされていますが、これには注意が必要です。

重要なポイント：

日本語タスクに限定した評価
ビジネス文書処理という特定用途に特化
前バージョン（7B）はGPT-3.5より上とされていたが、独立検証ではGPT-3.5以下という結果も

現実的な評価：

日本語のビジネス文書処理に限定すれば → GPT-4〜GPT-5級
総合的な汎用LLMとしては → GPT-4前後

分析レポート生成には向いているのか？

結論：向いています

tsuzumi2はビジネスシーンで頻繁に使われる能力を重点強化していて：

ユースケースの80%を占める「RAG検索要約」に最適化
NTT社内の「財務システム問い合わせ対応」で他社先進モデルと同等以上の性能

ただし注意点：独立検証では「入力プロンプトが増えるほど挙動が怪しくなる」という報告もあります。

Llama 4 Maverickとの比較

Llama 4 Maverickの基本スペック

総パラメータ数: 400B（4000億）
アクティブパラメータ: 17B（MoEアーキテクチャ）
アーキテクチャ: Mixture of Experts（128個のエキスパート）
対応言語: 12言語（公式には日本語未対応だが、200言語で事前学習済み）
性能: Chatbot ArenaでGemini 2.5 Proに次ぐ世界2位

日本語性能はどちらが上？

これは難しい比較です：

tsuzumi2の強み：

日本語に完全特化
日本の金融・医療・公共分野の専門知識を強化
RAGとの相性が良い

Llama 4 Maverickの強み：

総合的な性能は圧倒的に上（GPT-4oやGemini 2.0 Flashを上回る）
日本語も実用十分（Llama 4 Scoutでも「長文で完璧な返答」という報告）
マルチモーダル対応（画像も理解可能）

結論：

汎用的な日本語タスクなら → Llama 4 Maverickが上回る可能性大
日本の専門分野文書に限定すれば → tsuzumi2が優位かも

衝撃の事実：必要なハードウェアスペック

tsuzumi2のハードウェア要件

必要VRAM: 40GB程度
推奨GPU: NVIDIA A100 40GB × 1基
ハードウェアコスト: 約500万円

NTTは「1GPUで動作可能な軽量モデル」と主張していますが、そのGPUがA100という時点で、個人やスタートアップには厳しい価格帯です。

Llama 4 Maverickのハードウェア要件

ここが驚愕のポイントです。

総パラメータ数400Bと聞くと「とんでもないハードウェアが必要」と思いますよね？

しかし実際は：

推奨GPU: RTX 4060以上（8GB VRAM）
推奨RAM: 64GB以上（CPUオフロード用）
価格帯: 5〜15万円（ゲーミングPC）

なぜRTX 4060（8GB）で400Bモデルが動くのか？

1. MoE（Mixture of Experts）アーキテクチャ

400B総パラメータのうち、推論時にアクティブになるのは17Bだけです。128個のエキスパートから最適なものを選んで使う仕組みです。

2. 量子化技術

完全な非量子化版: 422GB
1.78ビット量子化版: 122GB（70%削減）
さらにQ4やQ2量子化で8GB VRAMに収まる

3. CPUオフロード

VRAMに乗り切らない部分をシステムRAM（CPU側のメモリ）に配置して協調処理します。

# llama.cppでの実行例
./llama-cli \
  --model llama4-maverick-q4.gguf \
  --n-gpu-layers 12 \      # GPUに12レイヤーをロード
  --cpu-offload-gb 64 \    # CPUに64GBオフロード
  --threads 16             # CPU処理用スレッド数

ハードウェア要件の比較表

項目	tsuzumi2	Llama 4 Maverick（量子化）
総パラメータ	30B	400B（17Bアクティブ）
必要VRAM	40GB	8-16GB
推奨GPU	A100 40GB × 1	RTX 4060以上
ハードウェアコスト	約500万円	5-15万円
環境	データセンター級	ゲーミングPC

なんでクローズモデル使わなあかんねん問題

ここまで見てきて、素朴な疑問が湧いてきます。

オンプレミスで動かすなら、なぜオープンモデルじゃダメなのか？

NTTが主張するtsuzumi2の利点

フルスクラッチ開発による信頼性
- 学習データの完全コントロール
- データの権利、品質、バイアスの管理が可能
- 日本の国内法に準拠
セキュリティ
- 機密性の高い情報も安全に取り扱える
- オンプレミスやプライベートクラウドで運用可能
専門分野への最適化
- 金融・医療・公共分野の知識を事前学習
- 少ない追加学習データで高精度（FP2級試験で200問でGemma-2の1900問と同等）

しかし現実は…

性能面：

Llama 4 Maverickは総合性能でGPT-4oを上回る
日本語も実用十分
マルチモーダル対応

コスト面：

tsuzumi2: 500万円のA100が必要
Llama 4 Maverick: 10万円前後のRTX 4060で動作

アクセシビリティ：

tsuzumi2: NTT経由での導入が必要
Llama 4 Maverick: Hugging Faceから誰でもダウンロード可能

独立検証の結果

興味深いことに、tsuzumi（初代7B）について独立した検証が行われています：

テスト内容: 13問（知識問題4問、センター数学3問、SPI読解6問）

モデル	正解率
GPT-4o	77%
GPT-4.0	53%
GPT-3.5 turbo	12%
Tsuzumi 7B	4%

検証者のコメント：

「入力プロンプトが増えれば増えるほど挙動が怪しくなる。RAGのような大量の文章を入れるのはやめたほうがいい」

もちろんtsuzumi2では改善されている可能性がありますが、独立検証の重要性を示す事例です。

結論：で、どっち使えばいいの？

tsuzumi2を選ぶべきケース

法的リスクを完全に回避したい
- 学習データの出所が完全に明確
- 著作権問題のリスクゼロ
日本の特定専門分野に特化
- 金融・医療・公共の日本語文書処理
- NTTのサポートが必要
予算が潤沢
- 500万円のハードウェアが問題ない
- または、NTTのクラウドサービスを利用

Llama 4 Maverickを選ぶべきケース

コストを抑えたい
- ゲーミングPCレベルのハードウェアで十分
- オープンソースで無料
汎用性が必要
- 総合的な性能はトップクラス
- マルチモーダル対応
柔軟性が必要
- 自由にカスタマイズ可能
- 量子化やファインチューニングが容易

技術的な面白ポイント：MoEの威力

Llama 4 Maverickが8GB VRAMで動く理由は、MoE（Mixture of Experts）アーキテクチャの面白さを示しています。

従来のDenseモデル：

全てのパラメータが常に動作
30Bなら30B全部が必要

MoEモデル：

400Bの総パラメータを持つが、実際には17Bしか使わない
タスクに応じて最適な「専門家」を選択
メモリ効率と性能を両立

これに量子化技術を組み合わせることで、100万円超のサーバー級GPUが必要だったモデルが、10万円のゲーミングGPUで動くという革命が起きています。

おわりに

NTTのtsuzumi2発表を見て「なんでクローズモデルやねん」と思ったのは、多分多くの技術者が感じていることでしょう。

技術的には：

オープンモデルの方が高性能
オープンモデルの方が低コスト
オープンモデルの方がアクセスしやすい

しかし現実には：

大企業や自治体は「法的リスク」を重視
学習データの出所が不明確なモデルは使いにくい
日本語の専門文書処理では独自の強みがある可能性

結局のところ、「技術的に最適」と「ビジネス的に選ばれる」は別物なのかもしれません。

ただ、個人的にはLlama 4 MaverickがRTX 4060で動くという事実に興奮を隠せません。AI民主化の時代が本当に来ているのを実感します。

参考情報

技術仕様まとめ

tsuzumi2

パラメータ数: 30B
必要VRAM: 40GB
推奨GPU: NVIDIA A100 40GB
特化分野: 日本語ビジネス文書、金融・医療・公共
ライセンス: クローズド（NTT提供）

Llama 4 Maverick

総パラメータ数: 400B（17Bアクティブ）
必要VRAM: 8-16GB（量子化時）
推奨GPU: RTX 4060以上
特化分野: 汎用（マルチモーダル対応）
ライセンス: Llama 4 Community License（商用利用可、条件付き）