4月3日に国立情報学研究所から国産のフルスクラッチモデルである llm-jp-4が発表されました!!
我々のチームは5ヶ月前にクローズドで頂いていたのでそれに対して900万件のデータ生成を行い, 学会コンペに出したところ2位(オープン部門)をいただくことができました
そこで,本書ではその際に得た「権利的にクリーンなデータを900万件用意する方法」「学習手法」「推論システムの構築」「評価手法」などの知見をギュッと一冊に詰め込んだものになります.
この本でわかること:
国立情報学研究所主催の「第2回 FT-LLM 2026」数学タスクで、複数大学混成の8人チーム「ビクトリー」がオープン部門2位・総合部門3位を獲得するまでの、試行錯誤の全工程を包括的に解説します。
- 合成データ大量生成の実務:gpt-oss-20bを使い900万件を生成し、LLM-as-a-Judgeで800万件に絞り込んだ方法
- モデルアーキテクチャの拡張:OpT-DeUSを使い8B(32層)→ 12B(48層)へ深さ拡張した経緯と実装
- 長文SFT:16,384トークン対応のための DoRA → フルパラメータSFTの二段構成
- GRPOによる強化学習:Open Instructベースの非同期RLを1ノードで安定運用するための実装ノウハウ
- Self-Consistency(多数決)と文字列正規化:cons@160まで積み上げ、表記ゆれを潰して票を集める提出戦略
- 撤退判断の判断軸:RAG・TIR・s1・RSAを試して「本番に使えない」と判断した具体的な理由
こんな人に読んでほしい:
- 日本語LLMをファインチューニングしてみたい人
- SFT・GRPO・Self-Consistencyのつながりを実例で理解したい人
- クリーンな大規模合成データをどう作るか知りたい人
- LLMコンペやチーム開発の雰囲気を知りたい人
- llm-jp-4の新モデルで何か試してみたいと思っている人