【必見テク】Stable Diffusionの「CFG Scale」とは?概要とおすすめ設定を比較しながら解説

最新記事

押さえておきたいポイント
  • CFG Scaleはプロンプトへの忠実度を指定するパラメーター
  • 高いほど高精度な画像を生成できるが高すぎるとノイズが出る
  • CFG Scaleのおすすめ設定はプロンプト次第で変わる

Stable Diffusionで目的にかなう画像を生成するには、重要なパラメータである「CFG Scale(Classifier-Free Guidance Scale)」の理解と活用が欠かせません。

CFG Scaleにより、入力したプロンプトや画像の忠実度を手軽に調整できるので便利です。しかし、最適なCFG Scaleの設定が分からないという方もいるのではないでしょうか。

今回は、CFG Scaleの基本や設定方法を解説し、数値を変えて画像を比較してみます。おすすめの設定も記載しているため、CFG Scaleを駆使して思い通りの画像生成が可能になるでしょう。

ぜひ最後までご覧ください。

\生成AIを活用して業務プロセスを自動化/

CFG Scaleとは

CFG Scaleは、Stable Diffusionにおける重要なパラーメーターの1つです。「入力したプロンプトや画像に対してどれだけ忠実な画像をつくるか」を調整できます。

CFG Scaleの値を高く設定すると、プロンプトや「img2img」でアップロードした画像に沿った画像を生成できます。しかし、値が高過ぎると画像生成の自由度が減るため、画質の悪化やノイズが大きくなるなど悪影響もあります。CFG Scaleの値を低く設定すると創造性やランダム性が増加しますが、低過ぎるとプロンプトの影響が弱まって意図しない画像を生成してしまう可能性があります。

生成したい画像の特徴に合わせて最適なCFG Scaleを採用すれば、目的とする画像に近づくでしょう。

なお、Stable Diffusionについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

CFG Scaleの仕組み

CFG Scaleは、生成したい画像がどの程度プロンプトに忠実に従うかを制御するパラメータです。CFG Scaleを変化させることでプロンプトの影響力を調整し、モデルの生成自由度のバランスを取ります。特に、複雑で細かい描写が必要な画像を生成する際に重要な役目を果たします。

モデルはプロンプトありの予測とプロンプトなしの予測を行い、その差分を計算します。その後、以下の式を用いて差分をどれだけ強調するかを決定します。

プロンプトなし予測 +(プロンプトあり予測 - プロンプトなし予測)x CFG Scale

プロンプトなし予測とは、何も指示を与えず自由に生成する予測です。

仮にCFG Scaleを10とした場合、「プロンプトなし予測×1」と「プロンプトあり予測×10」を組み合わせて画像が生成されます。

CFG Scaleの値が生成画像に与える変化

CFG Scaleの値は、おおまかに低い値(1〜4)・中間値(5〜20)・高い値(21以降)に分けられます。それぞれの値に設定した際に生成される画像の特徴をまとめました。

スクロールできます
CFG Scaleの値生成画像の特徴
低い値(1〜4)・プロンプトの忠実度が低く自由度が高い
・生成画像の品質は悪い
中間値(5〜20)・プロンプトの忠実度と自由度のバランスが取れている
・生成画像の品質が良い
高い値(21以降)・プロンプトの忠実度は高いが自由度が低い
・ノイズが出やすく画像の品質が悪い
CFG Scaleの値による画像の変化一覧

CFG Scaleが低い値だとプロンプトの忠実度が低く、全く意図しない画像が出来上がりやすいです。一方、CFG Scaleが高すぎるとノイズが出やすくなり、画像の品質も悪くなります。

したがって、CFG Scaleは5〜20の間でちょうど良い値を探すのがおすすめです。

CFG Scaleのメリット

CFG Scaleを調整することにより「プロンプトへの忠実度の調整」「創造性の強化」「画像品質の向上」の3つのメリットが期待できます。

目的とする画像を生成するには、プロンプトへの忠実度と創造性のバランスを取る必要があります。細部まで細かく指示して精度の高い画像を生成したい場合は、CFG Scaleを高くしてプロンプトへの忠実度を上げると効果的です。

CFG Scaleを低く設定すると、プロンプトの影響力が低下してモデルはより自由な解釈ができるようになり、創造性を引き出します。意図しないユニークな画像が生成される可能性があり、アートなど創造性の高い領域で効果を発揮するでしょう。

数値を極端に設定すると、意図しない画像や不自然な画像が生成されやすくなります。中程度のCFG Scaleを設定すれば、魅力的な内容で品質の高い画像生成が可能です。

Stable DiffusionでのCFG Scale変更方法

参考:https://stablediffusionweb.com/ja/WebUI

Stable DiffusionでCFG Scaleを変更する際は、上記画像の赤枠部分に注目します。パラメーターが数字で表示されており、数字横の上下の矢印をクリックする、もしくは数字を直接入力すればパラメーターを変更できます

CFG Scaleを設定したら「Prompt」に生成したい画像の特徴を入力して「Generate」をクリックしましょう。画像生成に時間はかかりますが、しばらくすると画像が「Generated images」に表示されます。

CFG Scaleで理想の値を見つけるコツ

CFG Scaleで理想の値を見つけるためには、以下のコツを実践するのがおすすめです。

  • 低い値から始めて徐々に上げていく
  • シード値を固定して比較する

ポイントはシード値を固定したうえで、CFG Scaleのみを低い値から徐々に上げていく点です。条件を統一することで、CFG Scaleの理想の値を見つけやすくなります。コツの詳細は以下で詳しく解説していくので、ぜひ参考にしてみてください。

低い値から始めて徐々に上げていく

CFG Scaleを調整する際は、低い値から徐々に上げていくのがおすすめです。最初はプロンプトの忠実度が低く生成画像の品質も悪いですが、徐々に高精度で綺麗な画像が生成されていきます。

なお、CFG Scaleを調整しても理想の画像にならなかった場合は、Sampling stepsやプロンプト自体に問題がある可能性があります。

シード値を固定して比較する

CFG Scaleの効果を正しく見極めるためには、シード値を固定して実験することが重要です。シード値を毎回ランダム(-1に設定)にすると、生成される画像の構図や細部が変わってしまい、CFG Scaleによる違いなのか単なるランダム性による差なのか判別しにくくなります。同じシード値で生成すれば、構図や要素が揃った状態で「CFG Scaleの強弱による違い」だけを比較できます。

その結果、細部の描写やプロンプトの反映度合いがどう変化するかを明確に把握でき、理想の数値を見つけやすくなる仕組みです。

CFG Scaleの変化を検証

今回は、CFG Scaleのパラメーターを変更して画像にどのような変化が起きるのか比較しました。CFG Scaleは1から30で設定し、以下3つのパターンで検証しています。

  • CFG Scale1~10
  • CFG Scale11~20
  • CFG Scale21~30

早速、CFG Scaleの設定が画像に与える変化をみていきましょう!

検証に使用するモデル

今回の検証では「Stable Diffusion WebUI」を使用しています。モデルは「Stable Diffusion XL」です。

プロンプトに一貫性を持たせるため、以下のようにすべて同じプロンプトを入力しています。

Red sports car on the highway

DeepLの翻訳

高速道路を走る赤いスポーツカー

どのCFG Scaleでもプロンプトが反映されやすいよう簡単なプロンプトを設定し、CFG Scaleの数値のみを変更して画像を生成しました。下図は、CFG Scaleを1〜10の間で設定して生成した画像です。

CFG Scale1~10

画像を比較してみると、1〜4までのCFG Scaleが低い画像はスポーツカーのリアルさに欠けていることが分かります。数値が高くなるにつれてスポーツカーのリアルさや臨場感が増していますね!

特に、CFG Scaleを10に設定した画像は画質も綺麗で、スポーツカーにも迫力が感じられます。

CFG Scale11~20

上記は、CFG Scaleを11〜20に設定して生成した画像です。所々でブレている画像があるものの、全体的には赤いスポーツカーがリアルに表現されていてクオリティが高いといえます。

特に、CFG Scaleを18にして生成した画像は、道路標識のようなものも写っているので高速道路らしさも表れていますね!

今回生成した画像の中では、CFG Scale18が最もプロンプトの条件を満たしているといえそうです。

CFG Scale21~30

最後に、CFG Scaleを21〜30の間で設定した生成画像を紹介します。CFG Scaleが21を超えてくると、画像がブレていたり、暗くなったりしています。

唯一、CFG Scale27の画像だけは鮮明に表現されていますが、それ以外の画像では色の使い方が微妙でした。したがって、基本的にCFG Scaleの設定は20以下にするのがよさそうです。

CFG Scaleのおすすめ設定はどれくらい?

CFG Scaleはどの設定がちょうどよいのか、気になっている方は多いでしょう。CFG Scaleを1〜30で設定した画像を見比べてみましたが、筆者の体感ではCFG Scale18が1番おすすめです。

プロンプトの条件を満たしているのはもちろん、スポーツカーの見た目がくっきりと写っており、かなりリアルに再現されていました。ただ、ほかのプロンプトでも同様にハイクオリティな画像を生成できるか気になるため、確認してみましょう。

まずは、以下のプロンプトで試してみました。

Girl in white dress crossing the crosswalk

DeepL翻訳

横断歩道を渡る白いワンピースを着た少女

生成された画像が以下のとおりです。

確かに「横断歩道」「白いワンピースを着た少女」というプロンプトはクリアしていますが、肝心の画質は微妙ですね。CFG Scaleの数値が高い分プロンプトに沿った画像を出力できていますが、画質を重視するならもう少しCFG Scaleを下げる必要がありそうです。

次に試したのは以下のプロンプトです。

A tanned Japanese woman is making a peace while looking at us.

DeepL翻訳

日焼けした日本人女性がこちらを見ながらピースをしている

生成されたのが以下の画像です。

上記の画像に関しては、「日焼けした日本人女性」という要素は満たしていますが、ピースはしていないですね。ポーズまでは反映されなかったようです。

このように、ちょうどよいCFG Scaleの設定値はプロンプトの内容や複雑さによって変動するものと思われます。明確にどの数値が1番よいかは決めにくいですが、およそ10〜20の間で設定するとよさそうです。 

CFG Scaleを変更しても精度が悪い時の対処法

CFG Scaleを変更しても精度が悪いときは、ほかに原因がある可能性があります。

そのような場合は以下3つの対処法を試してみてください。

  • プロンプトの順番を変える
  • プロンプトを変更する
  • Sampling stepsを確認
  • モデルを変更する

以下でそれぞれみていきましょう!

プロンプトの順番を変える

画像の精度を向上させるのに有効なのが、「プロンプトの順番を変える」という方法です。例えば、今回の記事では「高速道路を走る赤いスポーツカー」と入力していますが、これを「赤いスポーツカーが高速道路を走っている」と入力してみましょう。

確実に精度が向上するとはいえませんが、生成AI最初と最後に入力した情報を重視して出力結果に反映する傾向があるので、生成画像の精度が向上する可能性は十分にあります。

特に、長くて複雑なプロンプトを入力しているときほど高い効果が期待できるので、ぜひ一度試してみてください。

プロンプトを変更する

プロンプトの内容がうまく画像に反映されない場合は、プロンプトの内容を見直すのも1つの手です。複雑で分かりにくい内容になっていると、生成AIがプロンプトの意図を正確に読み取れません。できる限りシンプルで分かりやすいプロンプトに変更しましょう。

プロンプトがシンプルすぎる場合は、もっと詳しく記載したほうが良いケースもあります。人物であれば着用している服の色を指定したり、動きや表情を指定するとよりリアルな画像を生成できます。

Sampling stepsを確認

Sampling stepsとは、Stable DiffusionにおいてCFG Scaleの上に配置されているパラメーターのことです。ノイズを除去する回数のことを示しており、上記の画像の場合だとノイズを20回も除去することを意味しています。

CFG Scaleを調整しても満足のいく画像を生成できないなら、Sampling stepsの数値を少し上げてみましょう。ノイズを多く繰り返すほど綺麗な画像を生成しやすくなるので、試してみる価値は十分にあります。

ただし、Sampling stepsの数値が高すぎると画像を生成するまでに多くの時間がかかるので、作業時間も考慮しながらバランスを意識して調整しましょう。

拡張機能の追加

Stable Diffusionには、数多くの拡張機能が存在します。

なかでも、筆者のおすすめは以下4つの拡張機能です。

  1. SD WebUI Tag Autocomplete : プロンプトの入力支援
  2. Multi Diffusion:画像の高精度化
  3. ControlNet: ほかの画像の構図を真似する
  4. Adetailer : イラストの顔や手を自動認識して補正する

特に、画質の低さで悩んでいるなら「Multi Diffusion」がおすすめです。一方、指定したポーズが反映されなくて困っている方は「ControlNet」を使用してみましょう。

モデルを変更する

CFG Scaleを調整しても思ったような精度が得られない場合は、使用しているモデル自体を見直すのも効果的です。

例えば、アニメ風のイラストを生成したい場合は、アニメ調の表現に特化したモデルを選ぶことで、線の描き方や色使いが格段に安定します。逆に、リアル風の画像を目指すなら、フォトリアル系に強いモデルを利用した方が自然な質感や立体感を再現可能です。

アニメ風表現に強いモデル

  • illustrious系モデル
  • pony系モデル…etc

フォトリアル系表現に強いモデル

  • Dream2Reality
  • yayoi_mix…etc

illustriousやponyはどちらもStable DiffusionのSDXLモデルをファインチューニングしたモデルです。アニメ風表現には適していますが、リアル風の画像を生成するなら別のモデルが適しています。
このように、モデルごとに得意分野が異なるため、生成したいスタイルに合ったモデルを選ぶことが大切です。

それぞれ生成画像に大きな変化を加えられるので、生成画像の精度で悩んだら一度試してみてください。

なお、Stable Diffusionで使えるさまざまなモデルをダウンロードできるCivitaiについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

CFG Scaleを調整して高精度な画像を生成しよう!

CFG ScaleはStable Diffusionのパラメーターの1つで、生成画像の精度やプロンプトへの忠実度を調整する手段として有効です。数値を高く設定すればプロンプトへの忠実度が増し、低く設定すれば画質が安定しやすくなります。

ただ、CFG Scaleの数値は高くても低くても画像の精度が落ちるため、ちょうどよい塩梅を見つけましょう。設定方法は簡単で、CFG Scaleの横にある数字を手入力で任意の値に設定するだけです。

なお、筆者が1〜30の間で実際にCFG Scaleを設定して画像を生成したところ、18が最もバランスのよい画像に仕上がりました。

プロンプトの内容や複雑さによってCFG Scaleの最適値は変動するので、色々試しながら画像を生成してみてください。

WEELが“失敗しないAI導入”を伴走します。

最後に

いかがだったでしょうか?

生成AIを自社のプロダクトや業務に活用すれば、制作コスト削減と品質向上を同時に実現できます。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

tamura

監修者田村 洋樹

株式会社WEELの代表取締役として、AI導入支援や生成AIを活用した業務改革を中心に、アドバイザリー・プロジェクトマネジメント・講演活動など多面的な立場で企業を支援している。

これまでに累計25社以上のAIアドバイザリーを担当し、企業向けセミナーや大学講義を通じて、のべ10,000人を超える受講者に対して実践的な知見を提供。上場企業や国立大学などでの登壇実績も多く、日本HP主催「HP Future Ready AI Conference 2024」や、インテル主催「Intel Connection Japan 2024」など、業界を代表するカンファレンスにも登壇している。

タイトルとURLをコピーしました