はじめに:国産LLM開発競争の現実
2025年10月20日、NTTが純国産LLM「tsuzumi2」を発表しました。パラメータ数を前バージョンの7Bから30Bに拡大し、日本語性能でGPT-5に匹敵すると主張しています。
NTTのAI関連事業の受注額は今年1500億円に達する見込みですが、その中で「tsuzumiが使いたい」という案件は数十件程度。現状ではほとんどの企業がChatGPTのようなクラウドAIを使っているそうです。
NTTの主張は「段々とオンプレミス環境でAI動かさなアカンと気付けばtsuzumiみたいなクローズモデルに食いついてくるはずだ」とのこと。
でも待てよ。オンプレミスで動かすなら、優秀なオープンモデルがすでに山ほどあるのでは?
tsuzumi2って何に向いているのか
基本スペック
- パラメータ数: 30B(300億)
- 日本語性能: MT-benchでGPT-5と同等レベル
- 特化分野: 金融・自治体・医療
- 得意タスク:
- ドキュメントに対するQA(RAG検索要約)
- ドキュメントからの情報抽出・要約
- ビジネス文書処理
ChatGPTで言うとどのモデルに相当?
公式発表では「日本語のMT-benchでGPT-5と同等」とされていますが、これには注意が必要です。
重要なポイント:
- 日本語タスクに限定した評価
- ビジネス文書処理という特定用途に特化
- 前バージョン(7B)はGPT-3.5より上とされていたが、独立検証ではGPT-3.5以下という結果も
現実的な評価:
- 日本語のビジネス文書処理に限定すれば → GPT-4〜GPT-5級
- 総合的な汎用LLMとしては → GPT-4前後
分析レポート生成には向いているのか?
結論:向いています
tsuzumi2はビジネスシーンで頻繁に使われる能力を重点強化していて:
- ユースケースの80%を占める「RAG検索要約」に最適化
- NTT社内の「財務システム問い合わせ対応」で他社先進モデルと同等以上の性能
ただし注意点: 独立検証では「入力プロンプトが増えるほど挙動が怪しくなる」という報告もあります。
Llama 4 Maverickとの比較
Llama 4 Maverickの基本スペック
- 総パラメータ数: 400B(4000億)
- アクティブパラメータ: 17B(MoEアーキテクチャ)
- アーキテクチャ: Mixture of Experts(128個のエキスパート)
- 対応言語: 12言語(公式には日本語未対応だが、200言語で事前学習済み)
- 性能: Chatbot ArenaでGemini 2.5 Proに次ぐ世界2位
日本語性能はどちらが上?
これは難しい比較です:
tsuzumi2の強み:
- 日本語に完全特化
- 日本の金融・医療・公共分野の専門知識を強化
- RAGとの相性が良い
Llama 4 Maverickの強み:
- 総合的な性能は圧倒的に上(GPT-4oやGemini 2.0 Flashを上回る)
- 日本語も実用十分(Llama 4 Scoutでも「長文で完璧な返答」という報告)
- マルチモーダル対応(画像も理解可能)
結論:
- 汎用的な日本語タスクなら → Llama 4 Maverickが上回る可能性大
- 日本の専門分野文書に限定すれば → tsuzumi2が優位かも
衝撃の事実:必要なハードウェアスペック
tsuzumi2のハードウェア要件
- 必要VRAM: 40GB程度
- 推奨GPU: NVIDIA A100 40GB × 1基
- ハードウェアコスト: 約500万円
NTTは「1GPUで動作可能な軽量モデル」と主張していますが、そのGPUがA100という時点で、個人やスタートアップには厳しい価格帯です。
Llama 4 Maverickのハードウェア要件
ここが驚愕のポイントです。
総パラメータ数400Bと聞くと「とんでもないハードウェアが必要」と思いますよね?
しかし実際は:
- 推奨GPU: RTX 4060以上(8GB VRAM)
- 推奨RAM: 64GB以上(CPUオフロード用)
- 価格帯: 5〜15万円(ゲーミングPC)
なぜRTX 4060(8GB)で400Bモデルが動くのか?
1. MoE(Mixture of Experts)アーキテクチャ
400B総パラメータのうち、推論時にアクティブになるのは17Bだけです。128個のエキスパートから最適なものを選んで使う仕組みです。
2. 量子化技術
- 完全な非量子化版: 422GB
- 1.78ビット量子化版: 122GB(70%削減)
- さらにQ4やQ2量子化で8GB VRAMに収まる
3. CPUオフロード
VRAMに乗り切らない部分をシステムRAM(CPU側のメモリ)に配置して協調処理します。
# llama.cppでの実行例
./llama-cli \
--model llama4-maverick-q4.gguf \
--n-gpu-layers 12 \ # GPUに12レイヤーをロード
--cpu-offload-gb 64 \ # CPUに64GBオフロード
--threads 16 # CPU処理用スレッド数
ハードウェア要件の比較表
| 項目 | tsuzumi2 | Llama 4 Maverick(量子化) |
|---|---|---|
| 総パラメータ | 30B | 400B(17Bアクティブ) |
| 必要VRAM | 40GB | 8-16GB |
| 推奨GPU | A100 40GB × 1 | RTX 4060以上 |
| ハードウェアコスト | 約500万円 | 5-15万円 |
| 環境 | データセンター級 | ゲーミングPC |
なんでクローズモデル使わなあかんねん問題
ここまで見てきて、素朴な疑問が湧いてきます。
オンプレミスで動かすなら、なぜオープンモデルじゃダメなのか?
NTTが主張するtsuzumi2の利点
- フルスクラッチ開発による信頼性
- 学習データの完全コントロール
- データの権利、品質、バイアスの管理が可能
- 日本の国内法に準拠
- セキュリティ
- 機密性の高い情報も安全に取り扱える
- オンプレミスやプライベートクラウドで運用可能
- 専門分野への最適化
- 金融・医療・公共分野の知識を事前学習
- 少ない追加学習データで高精度(FP2級試験で200問でGemma-2の1900問と同等)
しかし現実は…
性能面:
- Llama 4 Maverickは総合性能でGPT-4oを上回る
- 日本語も実用十分
- マルチモーダル対応
コスト面:
- tsuzumi2: 500万円のA100が必要
- Llama 4 Maverick: 10万円前後のRTX 4060で動作
アクセシビリティ:
- tsuzumi2: NTT経由での導入が必要
- Llama 4 Maverick: Hugging Faceから誰でもダウンロード可能
独立検証の結果
興味深いことに、tsuzumi(初代7B)について独立した検証が行われています:
テスト内容: 13問(知識問題4問、センター数学3問、SPI読解6問)
| モデル | 正解率 |
|---|---|
| GPT-4o | 77% |
| GPT-4.0 | 53% |
| GPT-3.5 turbo | 12% |
| Tsuzumi 7B | 4% |
検証者のコメント:
「入力プロンプトが増えれば増えるほど挙動が怪しくなる。RAGのような大量の文章を入れるのはやめたほうがいい」
もちろんtsuzumi2では改善されている可能性がありますが、独立検証の重要性を示す事例です。
結論:で、どっち使えばいいの?
tsuzumi2を選ぶべきケース
- 法的リスクを完全に回避したい
- 学習データの出所が完全に明確
- 著作権問題のリスクゼロ
- 日本の特定専門分野に特化
- 金融・医療・公共の日本語文書処理
- NTTのサポートが必要
- 予算が潤沢
- 500万円のハードウェアが問題ない
- または、NTTのクラウドサービスを利用
Llama 4 Maverickを選ぶべきケース
- コストを抑えたい
- ゲーミングPCレベルのハードウェアで十分
- オープンソースで無料
- 汎用性が必要
- 総合的な性能はトップクラス
- マルチモーダル対応
- 柔軟性が必要
- 自由にカスタマイズ可能
- 量子化やファインチューニングが容易
技術的な面白ポイント:MoEの威力
Llama 4 Maverickが8GB VRAMで動く理由は、MoE(Mixture of Experts)アーキテクチャの面白さを示しています。
従来のDenseモデル:
- 全てのパラメータが常に動作
- 30Bなら30B全部が必要
MoEモデル:
- 400Bの総パラメータを持つが、実際には17Bしか使わない
- タスクに応じて最適な「専門家」を選択
- メモリ効率と性能を両立
これに量子化技術を組み合わせることで、100万円超のサーバー級GPUが必要だったモデルが、10万円のゲーミングGPUで動くという革命が起きています。
おわりに
NTTのtsuzumi2発表を見て「なんでクローズモデルやねん」と思ったのは、多分多くの技術者が感じていることでしょう。
技術的には:
- オープンモデルの方が高性能
- オープンモデルの方が低コスト
- オープンモデルの方がアクセスしやすい
しかし現実には:
- 大企業や自治体は「法的リスク」を重視
- 学習データの出所が不明確なモデルは使いにくい
- 日本語の専門文書処理では独自の強みがある可能性
結局のところ、「技術的に最適」と「ビジネス的に選ばれる」は別物なのかもしれません。
ただ、個人的にはLlama 4 MaverickがRTX 4060で動くという事実に興奮を隠せません。AI民主化の時代が本当に来ているのを実感します。
参考情報
- NTT公式: tsuzumi 2の提供開始
- NTT R&D: tsuzumi 2技術詳細
- Meta: Llama 4発表
- Hugging Face: Llama 4 Maverick
技術仕様まとめ
tsuzumi2
- パラメータ数: 30B
- 必要VRAM: 40GB
- 推奨GPU: NVIDIA A100 40GB
- 特化分野: 日本語ビジネス文書、金融・医療・公共
- ライセンス: クローズド(NTT提供)
Llama 4 Maverick
- 総パラメータ数: 400B(17Bアクティブ)
- 必要VRAM: 8-16GB(量子化時)
- 推奨GPU: RTX 4060以上
- 特化分野: 汎用(マルチモーダル対応)
- ライセンス: Llama 4 Community License(商用利用可、条件付き)


コメント