3秒の動くピカ
昨日からPika Labsというサービスを試してみて、いよいよ静止画から数秒の、正確に言うと3秒の動画を作る世界に突入したので、ブログのコンセプトを画像生成から広く生成AIをどうかするものに変えてブログタイトルもそれに準じてみた。もう少し捻りたい気持ちもあるんだけど、まあ。
Pika Labsいいね、何がいいってDiscord上で同じように環境を構築できるのがまずひとつ。これがあまりにデカい。ミッドジャーニーから派生してニジジャーニーが誕生したときなみにスムーズに共存できる。そしてふたつめは動画にするなら付け加えたいエフェクトがもういくつか実装されてること。もっとあると助かるけど、最初のうちはこんなもんでしょ。ピカラブス…ネーミングの元ネタは何なんだろ。
静止画から動画にする過程で解像度が下がるのと、右下にロゴが貼り付くのは無料のベータ版だから仕方ないやつだろうか。多分そうだな。そういうことにしとこう。
具体的な流れとしてはプロンプトだけで作るやつと画像の続きを作るやつの2種類があって、でも0から生成するのはそれほど得意ではないらしいと小耳に挟んだので、ミッドジャーニーなりで生成した画像を選んで放り込むことに。というかそれがやりたくて乗り込んだんだという。
7月に作った吊り橋画像。
それをPikaLabsの下の方の入力欄に「/animate」と入れて
例によって出てくる貼りつけ欄に
貼りつけて、エンターキーを押す。
すると作業を開始するので
その状態で30秒だか待つ。こっちにはファストやリラックスのモード切り替えは無い。
出来上がり。画面内にカーソルを合わせると右上に出てくるボタンを押すとダウンロードできる。mp4形式。
ただmp4をはてなブログに貼るのは出来ないっぽくて詰まる。テスト動画をいちいちYouTubeにアップするのもなー
というわけで、とりあえずGIFに変換してみた。10MB以下ならいけるとのことで、3秒の動画でまあまあギリギリ。3秒以上生成できる状態になったらどうしような。Twitterにmp4を貼って、そのツイートをここに貼るとか?まぁいいや、GIFを貼ろう。
やーそれっぽく動いてるなこれ。
といってまあこれは手当たり次第に生成してみたなかでもかなり出来のいいやつで、実際はかなりモーフィングっぽい不自然な動きになってしまってたり、思いもよらない箇所(背景の建物とか)がやにわにぐわっと動いたり、寄生獣なみにキャラクターが丸ごと変形してしまってたりで、素材の時点での向き不向きがかなりある。
青地に白の矢印が交錯してるボタンを押すとプロンプト欄が開くので、そこに「カメラを上に振る」というコマンド(“-camera pan up”)を加えてこの動画は出来ている。
元ネタ画像を貼り付けるときに右下に出てる「他1」を押すと出てくる「prompt」を更に押すことで最初からプロンプトを加えておくことも出来る。
出来るけど最初っからはそんな使わないかも。可能性が見たいというか。
そんなわけでなんかこう、うまくいくと3秒とはいえちょっと一皮剥ける感覚というか、真実に肉薄するような感覚が得られる。脳がいよいよ「これは本当に実在してるんでは?」と認識し始めるというか。
そんでもってこれから、ちょっと先行して話題になってたRunwayのGen-2というサービスを試してみるかどうするかというところ。そっちはもう少し長く動画が作れるとのことなんで挑戦しがいはある。でも無料分使い切ると有料になるということなんで、絞り込んで生成して見極めたい。
Twitterに貼ってみたのも貼っておこう
#midjourney #pikalabs pic.twitter.com/4MoRFXdjOh
— honcolle (@honcolle) 2023年9月27日
我が名はRegion
マルコ第5章です(何も聞かれてない)。リージョンだよ。
本日より、ミッドジャーニーおよびニジジャーニー同時に、「Vary(Region)」ボタンが導入されて*1。
これがまあお待ちかねの機能だったんで今までの数々の追加機能の記録記事を置いといて更新しちゃう。いやそのうち書く…たぶん…
ということで。
最近はだいぶ減ったけど、それでも生成やってれば嫌でも出てくる指や手足の変なイラスト。
一部スパム垢で妙に有名になった三本脚。それに多指。逆関節。これまではUボタン押さなかったけど(そして下のVボタン押しても芳しくない結果になりがちだったけど)あえて押して1枚絵を生成。
今まではVaryは2種類(強弱)だったけど第3のボタンが。これを押すと編集画面がポップアップ。
そこで修正したい範囲を指定する。脚もさることながら、右下の変な文字列も何なのか。まあサインのつもりなんだろうけど。こっちは修正というより消したい。
どうかなと思ったけど特に説明を読まずともマウスで直感的に指定できた。よくある範囲指定のやり方で。点線の四角の隣の風船みたいなボタン*2を押すと、範囲指定が斜めとか色々自由にやれるんだろうけど、ちょっとうまいやり方がわからなかった。とりあえずはデフォルトのまま四角をいくつも指定することで十分対応できると思う。多分。
この機能があれば、あの不意に出る、ワイプで抜いたみたいに隅っこに四角く出る謎のイラストもこれで消せる。何きっかけで出てくるのかわからないあれが。
あとプロンプト欄に何か書き加えたり逆にシンプルにすることも出来る。参考画像のURLを冒頭に入れるのもOKらしい。でもとりあえずは明らかにおかしい部分の修正を優先することに。そして右矢印の白ボタンを押すと実行。
修正された4案が出るのでいいのを選ぶ。例によって青のやり直しボタンを押せば次の4案が出る。
完了。あ、どっちみち右下にサインは入れたいんだ?まぁいいや。
ギャラリーがゴチャゴチャするので最初に出した一枚絵あたりは消したり。
やーでもこれ、本当に待ってた機能だよ。全体の雰囲気とかキャラクターの表情とかはいいのに指だけがマズいとか数えきれないくらいあったもんね。特にこれは惜しかった…って目印つけといたようなもんはないからすぐ出せないけど、これからは惜しい画像にこれ試すの必須だわ。看板の文字とかはまだ直せないだろうけど、それもいずれは来るだろう。
「/describe」でスクライブ
スクライブ(英語: Scribe)は「書く人」という意味で、文字で書くことがそれほど一般的でなかった古代に王の命令を書き物にしたり、歴史的・宗教的なものを複写する人を指し、また印刷機が発明される以前の中世にさまざまな写本を複製する職業に従事する人を…
じゃなくて、
ディスクライブ。(動詞・他動詞 発音:diskráib)「説明する、記述する、特徴づける、見なす」みたいな意味。新しい機能。
本日より入力欄に「/describe」と打ち込むと、こんな感じの
画像貼りつけ欄が出てくるようになったので、上の枠をクリックして自分の画像フォルダに飛んでそこの画像を呼び出してもいいし、下の欄にコピーした画像を直に貼りつけてもいい。そしてエンターキーを押すと、今までコツコツ入力してたような、その画像を生成するであろうプロンプトの案が逆に4つ提示される。
アスペクト比も元ネタ画像のものが一応適用される(妙に細かくズレる時もある)。
おお、これなら今まで詰まってた「何て説明したらいいかわからん…」が解消される!元ネタたる概念図を描いて放り込めば難しい設定の画像もバンバン量産できるぞ!
と、思うじゃん?(急に米屋先輩
結論から言うと現時点ではそこまで万能じゃなかったね。
なんとなくの印象しか伝わってないというか、シチュエーションとかキャラや物の配置とか男女どっちとか何の動物なのかとか、そういう理解はまだまだ全然(絵が下手なんじゃないですか?は禁句)。結局プロンプトで説明を尽くさなきゃダメだし、ダメ押しでプロンプト冒頭に元ネタのURLを入れれば多少は方向つけられるけど、まあもどかしさは拭えない。
あとユーザーが今まで打ち込んだ膨大なプロンプトから学習したのか、元々仕組み的にそういうものなのかは知らないけど、とにかく固有名詞(それも実在のクリエイターの。大半は絵を描く人の)がバンバン出てくるのも何かこう、ええんかいな本当に、という気持ちになる。まあよくはないだろうな、検索汚染…はDiscord発であるのか無いのかちょっとわからないけど、ユーザー側のメンタリティー的な意味でも。
だからこう、いちばんいい使い方としては、本当に簡単な概念図を描いて放り込んで、ネイティブならぬ身では思いもよらないプロンプトを捻り出してもらい、参考画像など入れずにそのまま生成させる…なのかなあ…という感じ。参考画像URLとか入れない方がとにかく絵の勢いはあるので。まあアスペクト比くらいは好きに変えていいかな。そして個人的にはこの機能で捻り出した画像、プロンプトにアーティスト名や作品名があるやつはここに貼るのを避けるかな…という感じ。律儀に逐一プロンプトを貼ってるから、こんなアクセス数が少ないブログだって検索で引っかかりはするだろうし、それにエゴサで辿り着いたご本人とか万一いたら超迷惑だろうし。そもそもAIによる画像生成じたい、これからどうなるのかも正直わからんし、最終的に「プロンプトに個人名入れるのは全部だめ」という話に世界的になるかもだし。
Niji5爆発
本日よりニジジャーニーは「Niji5」モードを実装し、描画能力がまたえらい向上を遂げてしまった。いやちょっと待って、ミッドジャーニーのV5の消化がまだ全然済んでないのに。
そろそろ何らかの書籍の表紙やポスターに使えそうな。にしても、一行二行の文字でよくここまでディテールを詰めたな。自動で盛ってきてるというか、手癖でやってそうでもある。そして試してみたけど、Niji5の描画力の真価は参考画像を入れない方が思う存分に発揮される感じ。ってV5と同じだそれ。
こないだまで手こずっていたイラスト形態での傘表現も形がほぼ完璧になっていた*1。むしろ今まで何であんなヘナヘナだったのか。手書き風のキャラと揃えたアレンジとしても変だった。傘を持つときの棒、中棒が一直線ですらなかったもんね。でもまあ、生成されるキャラクターの顔はあまりに定型のアニメ顔*2になりがちなので結局その辺を工夫しないと瞬時に埋没するな、と。ただでさえ画像生成AI・イラスト界隈は火薬庫みたいになってんのに、その上で十把一絡げのものをこしらえても。
V5襲来
昨日よりV5モードがテスト実装とのことなのだけど、これがもう、ちょっとおい待てっていうレベルになり…
いやまあとにかく貼る。
かなりすごいことになっている。V4になったときに使った呪文の再利用なんだけど、ハイパーリアルにも程があってビビる。拡大すると肌のキメの描写の表現がえらいことに。
参考画像など無しで、状況設定もなるたけシンプルなのが良かったらしい。そして相当改善されたとはいえ、結局のところこのV5でも手を出したりするとリソースが削られて全体の質がやや落ちる感覚がある。何より「夜」の「プール」で「顔のアップ」という組み合わせが肌の質感を表現するのに非常に向いている設定ということもあったようだ。昼の屋外での顔のクローズアップでもここまでにはなかなかならない。
まあ繰り返し生成しても特に代わり映えしないシチュなのは難と言えば難だけど。でもすごい。
おいでませniji-journey
(ちょっとブログに逐一まとめていくほどの余裕がないため重要な日のことだけをまず書いちゃって、その間の日で書いておきたいのがあったらそこから埋めてく感じにしようかなと)(もうそれくらいじゃないといつまでも何も書けない感じになってきた)(生成するのを何より優先してるので)
本日より「niji-journey」を始められることになった。nijiモードというか。
「Midjourney サーバーのモデルとは別の、アニメイラスト用に特別に調整したモデル」だそうだ。まあウチはミッドジャーニー社の画像生成部の実写課所属という気持ちでやってるんで…
本日、ミッドジャーニーは「Nijiモード」なるものを実装したそうで、まあ要は「最近の日本のアニメ風」に特化したモードなんだろうとは思うものの、80年代に育った者としては無視していつものコンビを80年代風にするところから始めた。 #midjourney 伊藤つかさめいている…始まったな… pic.twitter.com/pAZVAGgacc
— hon (@honkyochi) 2022年12月21日
で、今までどうしてもうまく生成できない画像がいくつもあったわけだけど、このニジを経由するならいけるんじゃないかという気に。
どんなのというと、こういう感じ。
ミッドジャーニー、難しい角度の顔を描けるのに横向きってだけで一気に怪しくなってもはや共感しちゃうけど紙を90度回転させろとしか言いようがない pic.twitter.com/phms6VCHiq
— hon (@honkyochi) 2022年12月8日
イラストならまだ何とかというところで、でもクオリティには満足いかずが続いてて、
これは何をしようとしていたのかと言うと、いわゆるところの「百合太極図」を生成しようとしていて、どういうやつっていえば『水星の魔女』のOPの最後らへんでタイトルが出るとこのスレッタとミオリネみたいなやつで、でもどんだけ言葉を尽くしても出なくて、無理に出したら人体の尊厳が失われて、
— hon (@honkyochi) 2022年12月21日
でもそれが今日、Nijiモード実装によって始めて生成できそうになってきたという #midjourney 大変だった、というか今でもギリギリで、これ1枚の影に手足が複数めちゃくちゃに生えてるのがある始末。そんなに難しい呪文とは思えないのに pic.twitter.com/FXxrLWu0Pn
— hon (@honkyochi) 2022年12月21日
逆さまにしたときの人体がめちゃくちゃになってしまうのは、もうプロンプトがどうこうではない感じがしたので進化を待つほかなかったなという。
あとは
これが現在ミッドジャーニーのNijiモードに身を任せて生成されるいつものコンビの立ち絵。参考画像なし、漫画家やイラストレーターの名前などの借り物なし。見た目の特徴を並べただけ #midjourney pic.twitter.com/USHFpX6RPB
— hon (@honkyochi) 2022年12月21日
まあ向こうの提供したいのはこういう感じかな、という。
並んだキャラクターの構成要素が混じらなくなったのもかなりの進歩。洋服の柄がペンギンになったり、ペンギンが眼鏡をかけたりスニーカーを履いたりしてたから。
V4、2:3と3:2に対応
アスペクト比がようやく指定できるように。2:3と3:2の2種類。
V4のテスト実装が始まったときの呪文を少しアレンジした。なので蒸気が出てる。意味はない。それにしても描画能力が高まってる。それこそ肌の質感が一皮むけた感じだ。