Evolutionary Model Merge徹底解説：SakanaAIが導く進化的アルゴリズムでLLMを“合体”させる新時代

2025年1月15日

Evolutionary Optimization of Model Merging Recipes 徹底解説：進化的アルゴリズムでLLMを“掛け合わせる”新潮流とは？

こんにちは、ゆずかきです。
今回は、「Evolutionary Optimization of Model Merging Recipes」 という、2024年3月にarXivへ投稿されたばかりの興味深い論文を深堀りしてみたいと思います。著者は Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha (Sakana AI) の皆さん。この研究では、既にコミュニティで話題となっている “モデルのマージ（合成）” を進化的アルゴリズムで自動化し、より強力なファウンデーションモデルを生み出す方法を提案しています。

私が個人的に感じたポイントとしては、「単なる重みの平均」や「一部レイヤーの置換」など、“マージの職人芸” とも呼ばれるモデルの合成テクニックが、この論文では「進化的アルゴリズム」という切り口で大幅にシステム化されているところが画期的だと感じました。日本語LLMに英語数学モデルを混ぜるとか、日本語LLMにVisionモデルを混ぜるとか、いわゆる “クロスドメインのマージ” まで見通しをつけて実装されている点は非常に面白いです。

今回はこの論文を、技術者向けに、大ボリュームで解説していきたいと思います。どうぞ最後までお付き合いください！

§本記事の構成

はじめに: モデルマージとは？
論文の背景：なぜ進化的アルゴリズムなのか？
Evolutionary Model Mergeの概要と2つの空間
Parameter Space (PS) でのマージ
Data Flow Space (DFS) でのマージ
PS + DFS のハイブリッド戦略
主要な実験結果と考察
実験1：日本語LLM × 数学モデルマージ
実験2：日本語LLM × ビジョン言語モデルマージ
本手法のポイント：モデルの巨大化・多様化をどう活かす？
課題と今後の展望
まとめ
参考文献（論文リンク）

さあ、順を追って見ていきましょう。

§はじめに: モデルマージとは？

「モデルマージ」(Model Merging) とは、すでにStable Diffusion や LLM合成 のコミュニティで広く行われているテクニックを指します。たとえば、ベースモデルAに対し、スタイル特化のモデルBを線形補間 (linear interpolation) やスフェリカル補間 (SLERP) などでブレンドすることで、それぞれの特徴を兼ね備えた新しいモデルを作る、というような手法です。

これによって、追加の学習をほとんど行わずとも、多様な能力を兼備するモデルを低コストに生み出せるのが強み。ただ、その一方で“どのモデルをどんな比率で混ぜるか”といったレシピが「職人芸」や「感覚頼み」になりがちでした。

実際、オープンソース界隈のStable DiffusionモデルやLLM界隈では、

「一度fine-tuneしたモデル同士を平均する“モデルスープ”」
「TIES-MergingやDAREなどの高度なレシピ」
「フランケンマージ（特定のレイヤー単位で積み替え）」
など多彩なアプローチが乱立していますが、その最適解は「やってみないと分からない」状態でした。

今回の論文が注目しているのは、このモデルマージを自動化する というアイデア。特に、進化的アルゴリズム (Evolutionary Algorithm) を使うことで、「各モデルのどのパラメータをどう混ぜるか」「どのレイヤーをどんな順番で繋ぐか」といった複雑な探索空間を効率的に走破し、“人間の直感では思いつかない” レシピを発見しようというものです。

§論文の背景：なぜ進化的アルゴリズムなのか？

大規模言語モデル (LLM) や拡散モデルが日進月歩で登場する一方、それらの “マージによる効率的活用” も盛り上がっています。代表例として、HuggingFaceの「Open LLM Leaderboard」上位モデルの多くは、実はいくつかのfine-tuneモデルを合成した“マージモデル” になりつつあるんですね。

モデルマージは追加学習なしで能力を集約できる反面、複数モデルの重み干渉(interference)や、アーキテクチャの差異をどう扱うか、など難しい問題が山積み。
そのため、人間の勘所に頼った“試行錯誤”をしがちで、ノウハウが一子相伝になりやすい。
さらに、英語LLMに日本語LLMを混ぜたり、テキストモデルにビジョンモジュールを足す「クロスドメイン・クロス言語」のマージとなると、手探り感が一層大きい。

こうした背景から、本論文では「進化的アルゴリズムを導入して自動探索 すれば、何かブレイクスルーが起きるはず」と仮説を立てています。進化的アルゴリズムといえば、ニューラルアーキテクチャサーチ (NAS) 分野では古くから盛んに研究されており、膨大な探索空間の中から“意外な”構造を発見してくれることで知られています。

今回の研究は、「学習済みLLMブロックを組み合わせる」というNAS風アプローチ ですが、既存の重い勾配学習はしない（少なくともフルのfine-tuningはしない）というのがポイント。つまり、膨大な量のモデルパラメータを “すでに学習済みのもの” として利用し、そこを遺伝的操作 (crossover, mutation) でうまく組み合わせる ことで、新しいファウンデーションモデルを作るわけです。

§Evolutionary Model Mergeの概要と2つの空間

では、論文のメイン技術である「Evolutionary Model Merge」はどのようなフレームワークなのか、大きく3つの段階で解説します。

Parameter Space (PS)でのマージ
Data Flow Space (DFS)でのマージ
PS + DFSのハイブリッド

1) Parameter Space (PS) でのマージ

まず最もオーソドックスなアプローチが、「同じアーキテクチャを持つ複数のモデルの重み」を合成する手法です。いわゆる“モデルスープ” として知られる線形結合・スフェリカル結合などの方法に加え、TIES-Merging、DARE、Task Arithmeticなどが提案されてきました。

TIES-Merging では、異なるfine-tuneモデル間でパラメータ符号が逆転していないか検出し、それを整合的にそろえようとするテクニック
DARE では、重要でない差分を打ち消し、重要な差分を強調するなどして、モデル間の干渉を減らす

論文では、進化的アルゴリズム (例えばCMA-ES) を使って、各レイヤーごとの合成係数 や 差分をどうスパース化するか など多くの超パラメータを自動最適化しています。

ポイント:

単純に「全部のレイヤーを同じ比率で混ぜる」より、レイヤーごとに異なる混ぜ方を採用した方が性能が上がる場合がある。

しかし、それを完全に人手で調整するのは困難。

そこで進化的アルゴリズムを使い、目的関数 (例: 日本語のベンチマーク精度) を最大化するようなPSマージ設定 を探しに行く。

2) Data Flow Space (DFS) でのマージ

次に、「レイヤーの順番自体を組み替える」アプローチを提案しています。これを論文ではData Flow Space (DFS) と呼び、もっと大胆に「複数モデルのレイヤーを連結してしまう」やり方です。

たとえば、

前半はモデルAの1～5層を通り、
途中でモデルBの10層目へジャンプして、
またAに戻る…
といったように、推論パス (inference path) を柔軟に繋ぎ直すことで、新たな合成モデルを作るわけです。

ただし、これは一種のフランケンマージ に近く、レイヤー間の入出力分布のミスマッチが大きくなる可能性があります。そこで論文では、“入力をスケーリングする行列W” も同時に進化的アルゴリズムで最適化し、分布のズレを抑える戦略を採用。

DFSの探索空間は膨大で、「レイヤー数×レイヤー数」の組み合わせパターンをすべて網羅するのは不可能ですが、CMA-ESなどのメタヒューリスティックを活用してうまく漸進的に最適解へ近づける、と述べられています。

補足:
このDFSマージは特に「アーキテクチャが異なるモデル」や「多様なモジュール」を連結できる利点があると期待されています。単に同系統モデル (例: Mistralファミリー同士) だけでなく、全く違うモデル系列でもレイヤーを繋いでしまうという夢のような合成が可能になるわけです。

3) PS + DFSのハイブリッド戦略

最後に、この2つのマージ空間 (PS と DFS) を連携させるハイブリッドも実験しています。

まずPSで複数モデルをうまく混ぜた “部分的な統合モデル” を作る
それも再度DFSのレイヤー候補としてプールに加え、DFSでさらにレイヤーを繋ぐ
または、多目的最適化 (例えば「日本語性能」「数学性能」「サイズ」など) の観点で、PSマージモデルが複数生成され、それらをDFSで複合的にブレンドする

こうした多段の合成を行うことで、より柔軟かつ高精度なモデル を生み出せるとのことです。

§主要な実験結果と考察

では、論文で示された実験を2つ見ていきましょう。

(1) 実験1：日本語LLM × 数学モデルマージ

まずは、“日本語で書かれた数学問題” を解くLLMを自動で作るというタスクに挑戦。

実験セットアップ

ソースモデル:
日本語LLM: ShisaGamma-7B-v1
英語Math LLM: WizardMath-7B-V1.1, Abel-7B-002
いずれもMistral-7Bがベース
学習データ:
GSM8Kテストセットの一部を日本語に翻訳した約1,000問を使用し、これを進化的探索の“訓練” として用いる。
テストとしてはMGSM (Multilingual GSM8K) の日本語部分を利用 (全250問)。
評価指標:
最終的な数値回答が合っているか (zero-shot pass@1)
出力文が日本語で書かれているか (fasttext判定)

PSマージの結果

PSマージのみ で得られたモデルは、なんと日本語数学問題で約52% の正解率を達成。
個々の元モデル (日本語LLMは9.6%、英語数学モデルは30%前後) を大幅に上回る結果に。
「日本語の理解力」と「数式推論能力」を一つのモデルにまとめ上げることに成功した形。

DFSマージの結果

DFSで2モデルを繋ぎ合わせた場合でも、元モデルより大幅に精度向上し36～40%程度を達成。
ただしPSマージほどの爆発的伸びはなかったが、それでも“レイヤー連結”だけで数学推論能力が引き出せるのは興味深い。

PS + DFSハイブリッド

さらに、まずPSで作ったモデル(52%精度)と、日本語LLMをDFSで重ね合わせたところ、約55.2% まで精度が向上。
このように「進化的に合成したモデルをさらにDFS空間で進化」という段階的プロセスが有効だと報告されています。

この結果から見えてくるのは、「日本語LLM」「英語Math LLM」という異質な能力を、最適な形で融合することで、想定外に高性能なモデルが低コストで得られる」 という点。しかも7B～10Bパラメータ程度で、同じく日本語LLMの70B級モデルを上回るベンチマーク性能を示したというのはかなり衝撃的です。

なお、日本語能力に関しては「JP-LMEH」というベンチマーク群 (JNLI, JSQuAD等) でも評価され、70B日本語モデルを上回るスコア(平均70.5など) を達成していたのが非常に印象的です。

(2) 実験2：日本語LLM × ビジョン言語モデルマージ

次に、多モーダル対応 (VLM) の実験です。

実験セットアップ

ソースモデル:
LLaVA-1.6-Mistral-7B (英語VLMモデル) のLLMパート
ShisaGamma-7B-v1 (日本語LLM)
マージ方式:
Parameter Space (PS) のTIES-Merging + DAREなど
Vision EncoderとProjection Networkは固定し、LLMパートの重みをPSマージする
評価指標:
JA-VG-VQA-500 (日本語VQAタスク) → ROUGE-L
JA-VLM-Bench-In-the-Wild (日本文化に特化した画像QA) → ROUGE-L

結果

JA-VG-VQA-500 では、元のLLaVA (14.3) や日本語Stable VLMと比べ、19.7 → さらに向上したスコア19.7 を達成したと報告。
JA-VLM-Bench-In-the-Wild (日本文化要素の質問が多数) では、51.2 というスコアをマーク。元の英語VLMや日本語VLMを上回る結果に。
定性的にも、「鯉のぼり」や「原爆ドーム」など、日本の独特な文化的概念に正確かつ詳細に答えられるようになったとのこと。

ここで面白いのは、日本語LLMが持つ“日本文化や言語の知識”を、そのままVLMに注入 できた点。普通はVLMを日本語に対応させるには追加のデータでfine-tuneが必要ですが、今回は進化的アルゴリズムでマージしただけ で済んでいるところが革新的だと思います。

§本手法のポイント：モデルの巨大化・多様化をどう活かす？

論文には、さらに多くの考察が示されています。ここでは主要なポイントをまとめてみます。

クロスドメインの合成 (日本語とMath、ビジョンなど) が有効

進化的手法が「意外なレイヤー接続や重み合成の妙」を発見し、高性能化を実現する。
実際、日本語モデル × Mathモデル → 小規模ながら70B相当を上回る性能達成。

アーキテクチャの違いを“DFS”でつなぐ

同じベースモデル系列だけでなく、全く別の系列や構造でも、レイヤースケーリングなどを盛り込めば合成可能。
これは既存のNAS (Neural Architecture Search) の発想に近いが、すでに学習済みブロックを活用するため膨大な学習コストは不要。

驚きの汎化性能

本来はある特定タスクで進化的探索をしただけなのに、他のベンチマークでも思わぬ高スコアを出すことがある (“emergent generalization”)。
論文中の例では、日本語Mathタスク最適化だけやったにもかかわらず、日本語QAや要約など多方面でスコア向上が見られた。
これはモデル間の内部表現が上手く統合されることで「思わぬ能力の相乗効果」が発揮されるのではないか、と推測されている。

“モデルの生態系” への発展

オープンソースのLLMが増えれば増えるほど、合成の組み合わせは爆発的に広がる。
今後は「モデル同士が勝手に合成を繰り返し、新しい能力を獲得する“スワーム” (群知能) 的な発展」も期待できる。
まさに「進化×モデルマージ」というアプローチは、安価かつ高速に多数の原型モデルからハイブリッドを生成 する未来を示唆している。

§課題と今後の展望

もちろん、課題もあります。

ソースモデルの制限

本手法は「どのモデルを材料として進化検索に入れるか」をユーザが指定する必要がある。
現状、「モデルの海」から完全自動で最適ソースを探す、という段階には至っていない。

合成元モデルのバイアスや誤りを継承

合成によって得られるモデルは、元となったモデルの制限や誤情報を引きずる可能性がある。
論文でも「論理破綻や事実誤認が残るケース」を指摘。今後はアライメントや追加の手動修正が課題。

大規模モデル同士のDFSマージの計算コスト

レイヤー数が多いとDFS空間は膨大になるため、CMA-ESなどでの探索が大変。
論文ではスケーリングを意識した設計 (指示子配列を使う等) を提案しているが、さらなる工夫が要りそう。

ライセンス問題

複数モデルを混ぜる場合、それぞれのライセンスに従った合成モデルの再配布が可能か検討が必要。
著者は実際に「全モデルがApache 2.0やMIT等のOSSライセンスで統一されているバージョン」を別途用意し、公的リリースしている。

とはいえ、著者は「この手法で既存モデルを組み合わせれば、安価にプロトタイプを作って実用性の検証ができる」と強調しています。大規模企業や政府機関が何百億パラメータ級のモデルを最初から学習するより、既存モデルを進化的に掛け合わせてPoCを作る方がはるかに手軽、というわけですね。

§まとめ

以上が、「Evolutionary Optimization of Model Merging Recipes」 論文の概要と実験内容です。主なポイントを再掲すると：

モデルマージ は既にコミュニティで人気だが、手動レシピに頼る “職人芸” で止まっていた
進化的アルゴリズム を活用して、パラメータ空間 (PS) とデータフロー空間 (DFS) の両方を自動探索
日本語LLM + 英語Math LLMのマージで、7Bモデルながら70B相当を超えるMath性能 + 日本語性能 を達成
VLM (視覚モデル) と日本語LLMを混ぜて、日本文化に強い日本語VLM を作り、既存モデルを上回る結果
課題はライセンスやアライメント、推論の計算コストなど。だが「既存学習済みモデルの再利用」という利点は非常に大きい

実際、本論文で公開された EvoLLM-JP や EvoVLM-JP は、「日本語Math LLM」や「日本文化に強いVLM」 としてSOTA級の性能を達成しており、GitHubでの公開もアナウンスされています。個人的には、今後さらにいろいろなLLM同士のマージが進み、「進化的アプローチでユニークなアーキテクチャがどんどん生まれる」 未来に期待したいところです。

§おわりに

「モデルのマージ」はすでに大きな潮流になりつつありますが、それを自動化・網羅化する方法論はまだまだ手探りです。そこに「進化的アルゴリズム」を持ち込み、しかもクロスドメインLLM まで視野に入れた論文は非常に先進的だと思いました。

実際の応用では、たとえば「英語の法律LLM × 中国語の歴史LLM × 画像特化モデル」みたいに、専門特化型モデルをガンガン混ぜ合わせる時代が来るかもしれません。追加学習やデータ準備が不要 というのは本当に魅力で、資源が限られたプロジェクトや企業でも試しやすいですよね。

もちろん、元モデルの品質やライセンス、合成後の評価コストなど課題は多いですが、LLM開発コストの劇的な節約 という観点でも大いに注目を集めそうです。これからの「モデルマージ最適化」研究、要チェックですね。

ここまで読んでいただきありがとうございました！

🔑この記事のポイントまとめ

Model Merging: 既存モデル (LLMや拡散モデル) を合成するテクニック。追加学習なしで能力を融合できるがレシピが職人芸化しやすい
進化的アルゴリズムによる自動化: Parameter Space (重み) と Data Flow Space (レイヤー構成) をCMA-ESなどで探索し、最適合成を見つける
日本語LLM × 英語Math LLM: 7Bモデルでも数学精度が50%超に飛躍し、70Bモデル並みの日本語能力も発揮
日本語LLM × VLM: 文化特化の日本語ビジョン言語モデルが誕生し、日本固有の事象を正確に説明可能
ライセンスとアライメント: 混ぜるモデルそれぞれのライセンスを考慮する必要があるほか、解答品質や事実性の担保など課題は多い