素人がVRAM8GB環境でAIを使って画像生成できるか挑戦

高スペックPCが必要ってイメージで、あまりローカル環境で画像生成は興味なかったんだけど、最近は猫も杓子もAIAIお猿さんかよって

御多分に漏れずボクもLLMは利用していて、息抜き程度にイメージ出力して楽しむこともあった

生成した画像をそのままに背景を変えたり、小物を消したり、人物のポーズ変更できるようになっても、わーすごい程度だった

やっぱり、心から楽しめなかったのは、何度の何度もコンテンツブロックされて出力を拒否されるのが原因だと思う

思考錯誤の結果、昔見て残念な気分になったスーチーパイのようなT首なしまでなら生成できるようになった

いつもは二次か2.5で遊んでるけど、１度リアル系を出されたのを見てプラスチック肌とは別物で本物のような質感ですごい驚いた

動画にすれば多少の性度は上げられるが、肉が食べたいのに野菜ばかり食べさせられている気分で欲求は高まる

欲求を鎮めるためにモザイク（コンテンツブロック）を取るにはどうすればいいか少し考えた

ローカル環境で使うには高スペックのグラボが必要というのは知っていたし、グラボをポイポイ買い替える財力はないです
いつの間にかサービスを開始していたGPUクラウドサービス。クラウド上でGPUが使えるらしいが、OneDriveでクラウドのイメージが悪いからパス
「AI　低スぺ」で検索したらGGUFというのがヒット！とりあえずComfyUIというソフトをインストールすればいいらしい

タイトルにあるように3のComfyUIでいこうと思う

Stable Diffusionは聞いたことがある程度の知識。救世主に成りうるComfyUIは初めて聞いた

AIに聞いてもよく分からなかったから調べたら、ComfyUIはゲーム機本体でモデル（GGUF）はゲームソフト、Loraは追加コンテンツって詳しい人が書いていた。なるほど

そしてComfyUIのパッケージ版をダウンロードすれば安心らしい

ここまで一気に情報を仕入れたせいで認知的過負荷になってしまい、どこからダウンロードしたかはよく覚えていない。たぶんGitHub

インストールの仕方やComfy managerのインストール方法も調べれば一杯でてくるのでここではスルーしますよ

本題のGGUFが何なのか軽く調べた。どうやら今まで読み込めなかった何かを読み込めるようになってVRAM8GBでもイケるのかもしれない

理解できないが考える前に動く。必要なファイルとワークフローの設定方法を親切に教えてくれるサイトを参考に作業を進める

参考にしながら必要なファイルをインストール（決まったフォルダに入れるだけ）する

指示通りComfy managerからカスタムノードインストールをクリックすると必要なノードを自動でインストールしてくれる優れもの

ワークフローもよく分からないままUNetにGGUFを入れて準備は進んで、ようやく生成するまでは整った

画像サイズは全部1054×1054で生成

生成できたのは嬉しかったけども、初めての生成は180秒も掛かった
2回目は30秒くらい短縮されたが、遅くて話にならん遅さ

海外のサイトじゃ数秒で抽出したって語ってたから間違ってるんじゃないかと思い、
２番目のサイトを参考に今度はUnet（GGUF）は使わずcheckpointを使って表示できる方法を試す

２番目の方法で出力した絵柄は好みじゃなかったから生成時間は忘れてしまったし、今となってはモデルも捨てた

3番目のサイトの方法は同じGGUFモデルを使ってノード配置が違うパターン

ここはワークフローの配布はしていなで、説明を見ながら自分でノードを繋げていく方法

一見不親切に見えるが、一度自分で配置することで理解が深まるから、初心者はセルフでやったほうが覚えられるからありがたい

四苦八苦しながらノードの配置を終わらせ生成するとエラー

エラー原因が表示されるがチンプンカンプン

DualClip(GGUF)のタイプが間違ってただけだけど色々調べてかなり時間をロス

エラーも直り、お楽しみの生成タイム
結果は300秒！30秒じゃなくて300秒！
画像を２枚出したらカップラーメン食べ終わっちゃうよ！
300秒待ちたくないからワークフローとモデルを捨てた

方法が間違ってるのかもしれないがGGUFを使うと逆に遅くなってる気がする

２番目の方法はGGUFを使わなくても生成できたから、ダメ元でFLUX.1-devの別モデルをcheckpointに入れて生成してみる

でた
SDXLやPONYなど種類はあるが、どれも拡張子はSAFETENSORSになっているので分かりにくい
モデルを大量に入れると、どれがどれか分からなくなる
結果40秒

まとめ

１番目：180秒VRAM6.8GB、２番目：忘れた、３番目：300秒VRAM7GB、４番目：40秒VRAM6.3GB
使用メモリはどれも16GB

試した順番	モデル	使用VRAM	生成時間（秒）
１	GGUF	6.8	180
２	忘れた	忘れた	忘れた
３	GGUF	7	300
４	FLUX.1-dev	6.3	40

この他にもLoraで時短できる方法を試すも時間に変化はなかった

使うモデルとプロンプトにもよると思うけど、生成時間が早いやつはAIっぽい画像

Fujifilm Superia, –ar 3:4 –stylize 600みたいにカメラ指定しても反映されない

使うモデルによって出来は違うっぽい
それでもローカルで個人で楽しむには十分の出来栄えなので満足してます

この他にも、VAEを変えたりKサンプラーの設定をいじると変化が出るから面白いし
LLMで生成した画像も読み込ませて、再生成させることもできるらしいのでひん剥いたりして楽しみたい

いまはリアル系を堪能して、次はアニメ系を試してみて、動画もロースペックでも出来るみたいなので、ゆくゆくは動画も挑戦しようと思います。

追記

動画生成に挑戦してみました。
生成したイメージに動きを付けられたら捗るだろうなぁと夢みてEasyWanVideoに手を出す。

VRAM8GBでも作れるが、メモリーが32GBだと高負荷で張り付いて1秒生成したところで進まなくなった。使い方なのか、設定なのかは詳しく調べても分からなかった。

そのすぐあとにメモリー暴騰して手が出なくなったし、負荷を掛けすぎて壊れても困るし、〇penAIが嫌いになった。

動画生成はあきらめて、AITuberKitに進路を変更して挑戦しました。