AIテクノロジー2023.06.302023.10.14

ドラッグするだけで画像が動くウェブツール DragGAN の使い方

フルタニ

こんにちは、フルタニです。放送局で番組作りをしてました。 DragGAN を書きます。

少しだけ横を向かせたい、口を開かせたいなど、Stable Deffusionで生成した画像の一部だけ修正したいことありませんか。

一部だけ修正するにはinpaintなどの拡張機能が使われますが、画像が大きく描き変わってしまうこともあります。

基本のティストは変えずに、画像を修正してくれるウェブツールが「DragGAN」です。

生成した画像の動かしたい部分をマウスでドラッグするだけでAIが自動で修正してくれるから驚きです。

Contents

DragGAN とは
DragGANの設定方法
DragGANの使い方
チュートリアル動画
DragGANの商用利用

DragGAN とは

ドラガン AI イメージジェネレーターは、2D のリアルな画像を生成し、ユーザーが望むようにその画像をリメイクするために作られた 2D AIジェネレーターです。

作者はXingangPanさん。6月、GitHub上にソースコードが公開されました。

生成した画像の中で、動かしたい部分を自在に動かすことができます。

動かしたい部分を赤い点と青い点で指定すると、AIが指定した画像を赤から青い点の位置に来るように修正してくれます。

「口の開閉」「目を大きく」「顔の向きの変更」などはお手のもの。

すごいのは、同時に周囲の画像も違和感のないように補完してくれること。

画面の背景に隠れて見えなかった画像も、AIが推定してそれらしい画像にしてくれます。

衣装の丈を変えたり、腕や足などの体のパーツの位置を変えたするのも自由。

なので、簡単なカタログ商品撮影などは、プロのモデルやカメラマンに頼むことなくできそうです。

DragGANの設定方法

DragGANはcolab上で動作するウェブツールです。

Stable Deffusion webUIをcolab上で利用したことがある人なら土地勘があるかもしれませんが、colabの基礎知識がないと分かりにくいかもしれません。

まず、colab.ipynb – ColaboratoryからDragGANのデモページを開きます。

このデモはブラウザ上で動作することから、ブラウザを閉じると初めから設定し直すことになります。

[ファイル]から[ドライブにコピーを保存]をクリックします。

[編集]から[ノートブックの設定]をクリックします。

[ハードウェアアクセラレーター][GPU]を選択します。

画像生成するには画像生成に特化した高価なグラフィックボードが不可欠です。[ハードウェアアクセラレーター][GPU]を指定することで、グラフィックボードのない非力なPCでもネット上に画像生成を代行させることで画像生成ができるようになります。

[Installation]の左横の歯車アイコンをクリックしてコードを実行します。

実行が終わると画面下に別の実行コードが現れるので実行します。

するとDragGANのurlが表示されるので、リンクをクリックします。

これで画面に猫が映っているDragGANのデモページが起動します。

DragGANの使い方

画像の一部を動かすには画像の上にある[Drew a Mask]をクリックしてマスクモードに切り替えます。

画像の真ん中に[start drawing]という表示が出ます。

ペンマークのアイコンをクリックするとスライダーが現れます。

スライダーを左右に動かすことでマスクの大きさが変わります。

読み込んだ画像の動かしたい部分をマウスを使って黒く塗りつぶし、マスクします。

[set up handle point]に戻り、始点と終点をマウスで一回ずつクリックします。

ここでは、画面の部分をどこからどこまで移動するかを指定します。

設定が終わったらオレンジのボタンをクリックします。

すると[progress]が起動します。

をダウンロードします。

再生するとマスクした部分が違和感なく動くことがわかります。

デモ版でできるのはマスクをかけた部分を動作させるだけです。

本家のデモビデオを見ると顔の向きを変えるだけでなく、人物の目をつぶらせたり、口を開くこともできるようになっています。

閉じた口元を指定すると、画像では見えなかった歯ならびが自動的に生成されて笑顔として表現されます。

チュートリアル動画

DragGANの商用利用

DragGANは開発中のサービスであるため商用利用はできません。

生成する画像には「AI Generated」の透かしを入れる必要があるほか、ライセンスはDragGAN関連部分が「CC BY-NC 4.0」で、それ以外のほとんどのコードが「NVIDIA Source Code License for StyleGAN3」となっており、ともに商用利用は不可となっている点に注意が必要です。
「顔を右に」「口を開く」など画像の動かしたい部分をAIがいい感じに修正してくれるツール「DragGAN」のソースコード＆デモが公開される – GIGAZINE

しかし、加速する画像生成サービスの流れを見ると実用化も遠い先ではなさそうです。

関連

【初心者向け】Webcam Motion Captureの使い方＆導入方法を完全解説！VTuberデビューも簡単！

別人の声に変身? EaseUS VoiceWave Pro 無料ライセンスをゲットしてみた