同人誌・52ページ・50部頒布・紙/電子・1,000円

チェックする

4月3日に国立情報学研究所から国産のフルスクラッチモデルである llm-jp-4が発表されました！！
我々のチームは5ヶ月前にクローズドで頂いていたのでそれに対して900万件のデータ生成を行い, 学会コンペに出したところ2位(オープン部門)をいただくことができました
そこで,本書ではその際に得た「権利的にクリーンなデータを900万件用意する方法」「学習手法」「推論システムの構築」「評価手法」などの知見をギュッと一冊に詰め込んだものになります.

この本でわかること：

国立情報学研究所主催の「第2回 FT-LLM 2026」数学タスクで、複数大学混成の8人チーム「ビクトリー」がオープン部門2位・総合部門3位を獲得するまでの、試行錯誤の全工程を包括的に解説します。

合成データ大量生成の実務：gpt-oss-20bを使い900万件を生成し、LLM-as-a-Judgeで800万件に絞り込んだ方法
モデルアーキテクチャの拡張：OpT-DeUSを使い8B（32層）→ 12B（48層）へ深さ拡張した経緯と実装
長文SFT：16,384トークン対応のための DoRA → フルパラメータSFTの二段構成
GRPOによる強化学習：Open Instructベースの非同期RLを1ノードで安定運用するための実装ノウハウ
Self-Consistency（多数決）と文字列正規化：cons@160まで積み上げ、表記ゆれを潰して票を集める提出戦略
撤退判断の判断軸：RAG・TIR・s1・RSAを試して「本番に使えない」と判断した具体的な理由

こんな人に読んでほしい：

日本語LLMをファインチューニングしてみたい人
SFT・GRPO・Self-Consistencyのつながりを実例で理解したい人
クリーンな大規模合成データをどう作るか知りたい人
LLMコンペやチーム開発の雰囲気を知りたい人
llm-jp-4の新モデルで何か試してみたいと思っている人