【ComfyUI】ComfyUIとLM Studioを使って自然言語とdanbooruタグでLoRA用のキャプション付けをする方法【LM Studio】

今回はLoRAなどを作成する際に必要となるキャプション付けについての話です。

画像を読み込ませて自動で.txtファイルを書き出してくれる拡張機能も多いので、多くのLoRA作成記事で紹介されていることもあり、多くの方はdanbooruタグでキャプションを付けているかと思います。

アニメ系のベースモデルはdanbooruタグで学習されていることがほとんどなので、今まではそれでも良かったのですが、Animaという自然言語にも強いアニメ系モデルが登場したことにより、自然言語でのキャプション付けも必要となってきました。

ですが、自然言語での自動キャプション付けの記事は少なく、NSFWに対応しているものは更に少ないというのが現状です。

そこで目を付けたのがVLMです。

VLMとは、画像を読み込むとそれを言語で表現してくれるモデルです。モデルは品質の高いものが無料で配布されており、それをNSFWに対応させたモデルもあります。

なので今回は、このVLMを使ってdanbooruタグと自然言語を同時にキャプション付けする方法を書いていきます。

使用するツール
LM Studioの設定
使用するカスタムノード
ワークフローの配布
配布ワークフローの解説
最後に

使用するツール

使用するツールは以下です。

・ComfyUI
・LM Studio

この2つのツールと、任意のVLMモデルの導入が済んでいる事を前提として進めていきます。

LM Studioの設定

ComfyUIとLM Studioを連携させる為の設定をしていきます。

左側から「Developer」を開き、「Status:」のスイッチをONにしてください。

これでComfyUIと連携出来るようになります。

使用するカスタムノード

使用しているカスタムノードは以下。

・ComfyUI-Custom-Scripts
・was-node-suite-comfyui
・ComfyUI-WD14-Tagger
・EA_LMStudio

LM Studio系のカスタムノードは他を使用しても問題ありませんが、思考ステップ(reasoning)と応答ステップ(response)を分けて出力出来るカスタムノードを使用してください。

思考ステップまで出力されてしまうとキャプションとして機能しなくなってしまいます。

例として、EA_LMStudioのノードと、他のカスタムノードで追加されるノードで出力をしてみました。

システムプロンプトで「自然言語でキャプションを付ける事。キャプション以外は書かない事」と指示しています。

EA_Studioの応答ステップ“response”から出力された結果が以下。

Could you describe the scene or subject you'd like a caption for?

EA_Studioの思考ステップ“reasoning”から出力された結果が以下。

User says "こんにちは" (Hello). We need to respond with a caption? The instruction: "
Write captions for image generation AI models in natural language." But user didn't
provide an image. Maybe we should ask for description? Probably respond 
asking what they want.

別カスタムノードのLM Studio (Text Gen)から出力された結果が以下。

<|channel|>analysis<|message|>Need to respond with caption only. But user said "こん
にちは". Probably they want a caption? Maybe just reply greeting? But instruction:
 do not write anything other than the caption. So we need to produce a caption. 
Could be something like "A cheerful wave in a bright, sunny setting." Let's give
 a generic greeting caption.<|end|><|start|>assistant<|channel|>final<|message|>
A friendly “hello” written in vibrant calligraphy against a soft pastel background.

このように思考ステップまで反映されてしまうとキャプションとして機能しません。

思考ステップ自体をいらないという場合は、LM Studioのモデルごとの設定にある「プロンプトテンプレート」に以下のコードを記述してください。