高品質な画像生成モデル「Qwen2vl-Flux」のライセンスや使い方を解説

押さえておきたいポイント

より正確でコンテキストを意識した画像生成が可能
img2img、インペインティングなど様々な生成モードを利用できる
最大1536×1024までの高解像度出力が可能

Qwen2vl-Fluxは優れた視覚理解能力を持つQwen2VLを利用しFluxを強化した画像生成モデルです。

複雑な画像への処理や変換、修復などを可能にしています。テキストから画像への変換、画像から画像への変換を正確に行えるのも強みです。さらに目的に応じて複数の生成モードを使うこともできます。

今回の記事では、Qwen2vl-Fluxの使い方と使用例を解説します。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

Qwen2vl-Fluxの概要
Qwen2vl-Fluxのライセンス
Qwen2vl-Fluxの使い方
1. Qwen2vl-Fluxの実装方法
最後に

Qwen2vl-Fluxの概要

Qwen2vl-Fluxは、テキスト入力と視覚情報の両方に基づいて高品質な画像を生成できるマルチモーダルなモデルです。

Qwen2vl-Fluxの最大の特徴は、視覚言語理解モジュールにアリババクラウドが発表した視覚言語モデルのQwen2VLを活用している点となります。

参考：https://huggingface.co/Djrango/Qwen2vl-Flux

この言語モデルは、長時間の動画や手書きテキスト、複数のオブジェクトが描かれた画像の内容を正確に理解できるという特徴があります。これにより複雑な画像でも正確に内容を把握できるようになっています。

元の画像の本質を保ったまま多様なバリエーションで生成したり、複数の画像をブレンドしたりと、画像生成のモードが豊富なのもポイントの一つ。また、テキストプロンプトを入力することで画像生成に条件を付けることも可能です。

Qwen2vl-Fluxの基本的な生成モードの例は以下の通りです。

Image Variation

インプットした画像の本質を維持して画像を作り替える機能。テキストプロンプトによりバリエーションの幅を広げられます。

Image Variationのコード例

python main.py --mode img2img \
--input_image source.jpg \
--reference_image target.jpg \
--prompt "xxxxxxxxxxxx" \
--denoise_strength 0.75

img2img

インプットした画像に基づいて画像を変換する機能。画像から画像への変換が可能です。

img2imgのコード例

python main.py --mode img2img \
               --input_image source.jpg \
               --reference_image target.jpg \
               --prompt "xxxxxxxxxxxx" \
               --denoise_strength 0.75

inpaint

マスクを使って画像を修復する機能。

inpaintのコード例

python main.py --mode inpaint \
               --input_image image.jpg \
               --mask_image mask.png \
               --prompt "Fill with beautiful flowers"

controlnet

構造ガイダンスに基づいて正確に画像を生成する機能。

以下のオプションがあります

depth-anything-v2
mistoline
segment-anything-v2

controlnetのコード例

python main.py --mode controlnet \
               --input_image image.jpg \
               --line_mode \
               --depth_mode \
               --line_strength 0.4 \
               --depth_strength 0.2 \
               --prompt "xxxxxxxxxxxxxxxxxxxxx"

controlnet-inpaint

controlnetガイダンスとinpaintingを組み合わせる機能。

controlnet-inpaintのコード例

# ライン検出なしで深度モデルのみをロードします
python main.py --mode controlnet \
               --input_image image.jpg \
               --depth_mode \
               --depth_strength 0.3 \
               --prompt "xxxxxxxxxxxxxxxxxxxxxxxx"

# 深度モデルなしでライン検出のみをロードします
python main.py --mode controlnet \
               --input_image image.jpg \
               --line_mode \
               --line_strength 0.4 \
               --prompt "xxxxxxxxxxxxxxxxxxxxxxxxxxx"

Qwen2vl-Fluxのライセンス

利用用途	可否
商用利用
改変	（コピー表記など条件あり）
配布	（コピー表記など条件あり）
特許使用	不明（記載なし）
私的使用

Qwen2vl-Fluxのライセンスは下記2つのライセンスを継承しています。

Qwen2-VL (Apache 2.0)
FLUX.1 [dev] (Non-Commercial License)

Qwen2-VLはApache 2.0のライセンスなので、商用利用も無料です。

一方、FLUX.1 [dev]は(Non-Commercial Licenseと表記されているため商用利用は不可となっています。
そのため、Qwen2vl-Fluxを商用利用する場合にはFLUXチームに問い合わせる必要があります。

Qwen2vl-Fluxのライセンスについて、詳しくは下記ページをご確認ください。

https://huggingface.co/Djrango/Qwen2vl-Flux

＼画像生成AIを商用利用する際はライセンスを確認しましょう／

Qwen2vl-Fluxの使い方

ここからは、Huggingfaceを参考にQwen2vl-Fluxを実際に使う方法を解説します。

Qwen2vl-Fluxの実装方法

Qwen2vl-Fluxの動作環境は下記のとおりです。

Python version : 3.12.4
pip version : 24.3.1
PyTorch 2.4.1 以上
メモリ要件: 48GB以上のVRAM

まずはGitHubのリポジトリをクローンして、各種ライブラリをインストールします。

git clone https://github.com/erwold/qwen2vl-flux
cd qwen2vl-flux

次に、仮想環境を作成します。

python -m venv venv
source venv/bin/activate  # Linux/Mac
# or
venv\Scripts\activate  # Windows

そして、依存関係をインストールします。

pip install -r requirements.txt

必要なパッケージ

PyTorch >= 2.4.1
Transformers 4.45.0
Diffusers 0.30.0
Accelerate 0.33.0

最後にモデルチェックポイントをダウンロードします。HuggingFace からQwen2VL-Fluxモデルファイルをダウンロードし、指定のディレクトリに配置します。

from huggingface_hub import snapshot_download
snapshot_download("Djrango/Qwen2vl-Flux")

モデルファイルの格納先ディレクトリ

【ディレクトリ構造】
checkpoints/
├── flux/              # Main Flux model files
├── qwen2-vl/          # Qwen2VL model files

ただ、2024年12月時点で、上記のコードを実行してもモデルファイルのダウンロードができなくなっています。動作が確認できるデモサイトでも同じくエラーが出力されており、何かしらの問題があると思われます。

最後に

いかがだったでしょうか？

テキストがデザインを描き出す時代。生成AIを貴社の新しい事業価値のエンジンに変える第一歩として踏み出しませんか。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです！

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70％自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80％削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
︎株式会社WEELのサービスを詳しく見る。