3秒の動くピカ

昨日からPika Labsというサービスを試してみて、いよいよ静止画から数秒の、正確に言うと3秒の動画を作る世界に突入したので、ブログのコンセプトを画像生成から広く生成AIをどうかするものに変えてブログタイトルもそれに準じてみた。もう少し捻りたい気持ちもあるんだけど、まあ。

Pika Labsいいね、何がいいってDiscord上で同じように環境を構築できるのがまずひとつ。これがあまりにデカい。ミッドジャーニーから派生してニジジャーニーが誕生したときなみにスムーズに共存できる。そしてふたつめは動画にするなら付け加えたいエフェクトがもういくつか実装されてること。もっとあると助かるけど、最初のうちはこんなもんでしょ。ピカラブス…ネーミングの元ネタは何なんだろ。

静止画から動画にする過程で解像度が下がるのと、右下にロゴが貼り付くのは無料のベータ版だから仕方ないやつだろうか。多分そうだな。そういうことにしとこう。

具体的な流れとしてはプロンプトだけで作るやつと画像の続きを作るやつの2種類があって、でも0から生成するのはそれほど得意ではないらしいと小耳に挟んだので、ミッドジャーニーなりで生成した画像を選んで放り込むことに。というかそれがやりたくて乗り込んだんだという。

“the girl is taking her foot on a rusty steel suspended bridge, in the middle of a forest in ruin city, in the style of maroon and brown, video art, fujishima takeji, chen zhen, vacation dadcore, zigzags, i can't believe how beautiful this is”

7月に作った吊り橋画像。

それをPikaLabsの下の方の入力欄に「/animate」と入れて

例によって出てくる貼りつけ欄に

貼りつけて、エンターキーを押す。

すると作業を開始するので

その状態で30秒だか待つ。こっちにはファストやリラックスのモード切り替えは無い。

出来上がり。画面内にカーソルを合わせると右上に出てくるボタンを押すとダウンロードできる。mp4形式。

ただmp4をはてなブログに貼るのは出来ないっぽくて詰まる。テスト動画をいちいちYouTubeにアップするのもなー

というわけで、とりあえずGIFに変換してみた。10MB以下ならいけるとのことで、3秒の動画でまあまあギリギリ。3秒以上生成できる状態になったらどうしような。Twitterにmp4を貼って、そのツイートをここに貼るとか?まぁいいや、GIFを貼ろう。

やーそれっぽく動いてるなこれ。

といってまあこれは手当たり次第に生成してみたなかでもかなり出来のいいやつで、実際はかなりモーフィングっぽい不自然な動きになってしまってたり、思いもよらない箇所(背景の建物とか)がやにわにぐわっと動いたり、寄生獣なみにキャラクターが丸ごと変形してしまってたりで、素材の時点での向き不向きがかなりある。

青地に白の矢印が交錯してるボタンを押すとプロンプト欄が開くので、そこに「カメラを上に振る」というコマンド(“-camera pan up”)を加えてこの動画は出来ている。

元ネタ画像を貼り付けるときに右下に出てる「他1」を押すと出てくる「prompt」を更に押すことで最初からプロンプトを加えておくことも出来る。

出来るけど最初っからはそんな使わないかも。可能性が見たいというか。

そんなわけでなんかこう、うまくいくと3秒とはいえちょっと一皮剥ける感覚というか、真実に肉薄するような感覚が得られる。脳がいよいよ「これは本当に実在してるんでは?」と認識し始めるというか。

そんでもってこれから、ちょっと先行して話題になってたRunwayのGen-2というサービスを試してみるかどうするかというところ。そっちはもう少し長く動画が作れるとのことなんで挑戦しがいはある。でも無料分使い切ると有料になるということなんで、絞り込んで生成して見極めたい。

Twitterに貼ってみたのも貼っておこう

 

我が名はRegion

マルコ第5章です(何も聞かれてない)。リージョンだよ。

本日より、ミッドジャーニーおよびニジジャーニー同時に、「Vary(Region)」ボタンが導入されて*1

これがまあお待ちかねの機能だったんで今までの数々の追加機能の記録記事を置いといて更新しちゃう。いやそのうち書く…たぶん…

ということで。

最近はだいぶ減ったけど、それでも生成やってれば嫌でも出てくる指や手足の変なイラスト。

一部スパム垢で妙に有名になった三本脚。それに多指。逆関節。これまではUボタン押さなかったけど(そして下のVボタン押しても芳しくない結果になりがちだったけど)あえて押して1枚絵を生成。

今まではVaryは2種類(強弱)だったけど第3のボタンが。これを押すと編集画面がポップアップ。

そこで修正したい範囲を指定する。脚もさることながら、右下の変な文字列も何なのか。まあサインのつもりなんだろうけど。こっちは修正というより消したい。

どうかなと思ったけど特に説明を読まずともマウスで直感的に指定できた。よくある範囲指定のやり方で。点線の四角の隣の風船みたいなボタン*2を押すと、範囲指定が斜めとか色々自由にやれるんだろうけど、ちょっとうまいやり方がわからなかった。とりあえずはデフォルトのまま四角をいくつも指定することで十分対応できると思う。多分。

この機能があれば、あの不意に出る、ワイプで抜いたみたいに隅っこに四角く出る謎のイラストもこれで消せる。何きっかけで出てくるのかわからないあれが。

あとプロンプト欄に何か書き加えたり逆にシンプルにすることも出来る。参考画像のURLを冒頭に入れるのもOKらしい。でもとりあえずは明らかにおかしい部分の修正を優先することに。そして右矢印の白ボタンを押すと実行。

修正された4案が出るのでいいのを選ぶ。例によって青のやり直しボタンを押せば次の4案が出る。

完了。あ、どっちみち右下にサインは入れたいんだ?まぁいいや。

ギャラリーがゴチャゴチャするので最初に出した一枚絵あたりは消したり。


やーでもこれ、本当に待ってた機能だよ。全体の雰囲気とかキャラクターの表情とかはいいのに指だけがマズいとか数えきれないくらいあったもんね。特にこれは惜しかった…って目印つけといたようなもんはないからすぐ出せないけど、これからは惜しい画像にこれ試すの必須だわ。看板の文字とかはまだ直せないだろうけど、それもいずれは来るだろう。

*1:Fireタブレットで確認したらAndroidのSilkブラウザではこのボタンだけ出なかった。何でだろ。

*2:投げ縄だそうだ。

「/describe」でスクライブ

スクライブ(英語: Scribe)は「書く人」という意味で、文字で書くことがそれほど一般的でなかった古代に王の命令を書き物にしたり、歴史的・宗教的なものを複写する人を指し、また印刷機が発明される以前の中世にさまざまな写本を複製する職業に従事する人を…

じゃなくて、

ディスクライブ。(動詞・他動詞 発音:diskráib)「説明する、記述する、特徴づける、見なす」みたいな意味。新しい機能。

本日より入力欄に「/describe」と打ち込むと、こんな感じの

画像貼りつけ欄が出てくるようになったので、上の枠をクリックして自分の画像フォルダに飛んでそこの画像を呼び出してもいいし、下の欄にコピーした画像を直に貼りつけてもいい。そしてエンターキーを押すと、今までコツコツ入力してたような、その画像を生成するであろうプロンプトの案が逆に4つ提示される。

アスペクト比も元ネタ画像のものが一応適用される(妙に細かくズレる時もある)。

おお、これなら今まで詰まってた「何て説明したらいいかわからん…」が解消される!元ネタたる概念図を描いて放り込めば難しい設定の画像もバンバン量産できるぞ!

 

と、思うじゃん?(急に米屋先輩

結論から言うと現時点ではそこまで万能じゃなかったね。

なんとなくの印象しか伝わってないというか、シチュエーションとかキャラや物の配置とか男女どっちとか何の動物なのかとか、そういう理解はまだまだ全然(絵が下手なんじゃないですか?は禁句)。結局プロンプトで説明を尽くさなきゃダメだし、ダメ押しでプロンプト冒頭に元ネタのURLを入れれば多少は方向つけられるけど、まあもどかしさは拭えない。

あとユーザーが今まで打ち込んだ膨大なプロンプトから学習したのか、元々仕組み的にそういうものなのかは知らないけど、とにかく固有名詞(それも実在のクリエイターの。大半は絵を描く人の)がバンバン出てくるのも何かこう、ええんかいな本当に、という気持ちになる。まあよくはないだろうな、検索汚染…はDiscord発であるのか無いのかちょっとわからないけど、ユーザー側のメンタリティー的な意味でも。

だからこう、いちばんいい使い方としては、本当に簡単な概念図を描いて放り込んで、ネイティブならぬ身では思いもよらないプロンプトを捻り出してもらい、参考画像など入れずにそのまま生成させる…なのかなあ…という感じ。参考画像URLとか入れない方がとにかく絵の勢いはあるので。まあアスペクト比くらいは好きに変えていいかな。そして個人的にはこの機能で捻り出した画像、プロンプトにアーティスト名や作品名があるやつはここに貼るのを避けるかな…という感じ。律儀に逐一プロンプトを貼ってるから、こんなアクセス数が少ないブログだって検索で引っかかりはするだろうし、それにエゴサで辿り着いたご本人とか万一いたら超迷惑だろうし。そもそもAIによる画像生成じたい、これからどうなるのかも正直わからんし、最終的に「プロンプトに個人名入れるのは全部だめ」という話に世界的になるかもだし。

Niji5爆発

本日よりニジジャーニーは「Niji5」モードを実装し、描画能力がまたえらい向上を遂げてしまった。いやちょっと待って、ミッドジャーニーのV5の消化がまだ全然済んでないのに。

“プールの底に潜っている14歳の少女が尖らせた口から吐く息がいくつもの泡になって連なって上に昇っていく様子をリアルに描いたカラーイラスト”

そろそろ何らかの書籍の表紙やポスターに使えそうな。にしても、一行二行の文字でよくここまでディテールを詰めたな。自動で盛ってきてるというか、手癖でやってそうでもある。そして試してみたけど、Niji5の描画力の真価は参考画像を入れない方が思う存分に発揮される感じ。ってV5と同じだそれ。

“艶やかな黒髪を白いヘアピンでぴしっと押さえて丸い額を出し、ノンフレームの眼鏡をかけて口を尖らせながら黒い傘をさしてこちらを冷ややかな視線で見下ろしている、白いワイシャツの上に黒いセーターを着て黒いタイツを履いて革のショートブーツを履いた13歳の少女の全身像を精緻に描いたカラーイラスト”

こないだまで手こずっていたイラスト形態での傘表現も形がほぼ完璧になっていた*1。むしろ今まで何であんなヘナヘナだったのか。手書き風のキャラと揃えたアレンジとしても変だった。傘を持つときの棒、中棒が一直線ですらなかったもんね。でもまあ、生成されるキャラクターの顔はあまりに定型のアニメ顔*2になりがちなので結局その辺を工夫しないと瞬時に埋没するな、と。ただでさえ画像生成AI・イラスト界隈は火薬庫みたいになってんのに、その上で十把一絡げのものをこしらえても。

*1:よく見ると棒の先端がズレている。

*2:マスピ顔という表現があることを最近知った。悪口として。

V5襲来

昨日よりV5モードがテスト実装とのことなのだけど、これがもう、ちょっとおい待てっていうレベルになり…

いやまあとにかく貼る。

“Close - up shot of a 14 - year - old girl floating in an indoor pool with only her face showing.”

かなりすごいことになっている。V4になったときに使った呪文の再利用なんだけど、ハイパーリアルにも程があってビビる。拡大すると肌のキメの描写の表現がえらいことに。

参考画像など無しで、状況設定もなるたけシンプルなのが良かったらしい。そして相当改善されたとはいえ、結局のところこのV5でも手を出したりするとリソースが削られて全体の質がやや落ちる感覚がある。何より「夜」の「プール」で「顔のアップ」という組み合わせが肌の質感を表現するのに非常に向いている設定ということもあったようだ。昼の屋外での顔のクローズアップでもここまでにはなかなかならない。

“Close - up shot of a 14 - year - old girl floating in an indoor pool with only her face showing.”

まあ繰り返し生成しても特に代わり映えしないシチュなのは難と言えば難だけど。でもすごい。

おいでませniji-journey

(ちょっとブログに逐一まとめていくほどの余裕がないため重要な日のことだけをまず書いちゃって、その間の日で書いておきたいのがあったらそこから埋めてく感じにしようかなと)(もうそれくらいじゃないといつまでも何も書けない感じになってきた)(生成するのを何より優先してるので)

 

本日より「niji-journey」を始められることになった。nijiモードというか。

「Midjourney サーバーのモデルとは別の、アニメイラスト用に特別に調整したモデル」だそうだ。まあウチはミッドジャーニー社の画像生成部の実写課所属という気持ちでやってるんで…

で、今までどうしてもうまく生成できない画像がいくつもあったわけだけど、このニジを経由するならいけるんじゃないかという気に。

どんなのというと、こういう感じ。

イラストならまだ何とかというところで、でもクオリティには満足いかずが続いてて、

逆さまにしたときの人体がめちゃくちゃになってしまうのは、もうプロンプトがどうこうではない感じがしたので進化を待つほかなかったなという。

あとは

まあ向こうの提供したいのはこういう感じかな、という。

並んだキャラクターの構成要素が混じらなくなったのもかなりの進歩。洋服の柄がペンギンになったり、ペンギンが眼鏡をかけたりスニーカーを履いたりしてたから。

V4、2:3と3:2に対応

アスペクト比がようやく指定できるように。2:3と3:2の2種類。

“Close - up shot of the face of a 14 - year - old girl floating meditatively on her back in the middle of an indoor spa at night, surrounded by steam.”

V4のテスト実装が始まったときの呪文を少しアレンジした。なので蒸気が出てる。意味はない。それにしても描画能力が高まってる。それこそ肌の質感が一皮むけた感じだ。