ベクトル量子化(VQ)を用いたVAEである「VQ-VAE」を、敵対的生成ネットワーク(GAN)に発展させた新しい画像生成モデルが「VQGAN」です。このVQGANと、テキストと画像という異なるデータを結びつけるニューラルネットワークの「CLIP」を組み合わせることで、「入力したテキストから画像を生成するモデル」をライアン・モールトンさんが作成しています。
ベクトル量子化(VQ)を用いたVAEである「VQ-VAE」を、敵対的生成ネットワーク(GAN)に発展させた新しい画像生成モデルが「VQGAN」です。このVQGANと、テキストと画像という異なるデータを結びつけるニューラルネットワークの「CLIP」を組み合わせることで、「入力したテキストから画像を生成するモデル」をライアン・モールトンさんが作成しています。
Tour of the Sacred Library – Ryan Moulton’s Articles
https://moultano.wordpress.com/2021/07/20/tour-of-the-sacred-library/
モールトンさんは、画像生成モデルの「VQGAN」と、画像とテキストを結びつけるニューラルネットワークの「CLIP」を組み合わせ、「入力したテキストから画像を生成するモデル」を作成しました。
このモデルを用いて、架空の島を舞台とした探検記である「ダイノトピア」で知られるイラストレーターのジェームス・ガーニーさんの名前を利用して、「ジェームス・ガーニーの聖なる図書館の大広間」と入力して生成されたのが以下の画像。
モールトンさんは、「『ジェームス・ガーニーの』と入力することで、素晴らしい画像を生成できることを発見しました。これは素晴らしいテクニックです。ジェームス・ガーニーは文字通り『架空の世界をリアルに描く』イラストレーターです。私の作成したモデルは、オンライン上に存在するジェームス・ガーニーのイラストから彼の作風を見事に学んだようで、ジェームス・ガーニーの描いたものを作成するように指示すると最高の画像が生成されることがわかりました」と記しています。
なお、モートンさんは「AIモデルがジェームス・ガーニーの作風を再現できるようにトレーニングしたわけではない」と記しており、モデル学習用のデータセットはジェームス・ガーニーの作品に限らないとしています。
モートンさんが「ジェームス・ガーニーの」というテキストを追加して生成した画像の数々は以下の通り。独特な形状の天井を有した図書館。
通路や階段の境界があいまいで、独特の雰囲気に仕上がっています。
屋外から見た図書館。
図書館の中庭らしき場所。
通路なのか階段なのか。
本の印刷機のようなもの。
ドーム状の図書館。
洞窟のような場所に本が並んでいます。
図書館から打って変わり、木々の隙間を流れる小川。
壮大な何かを表現したまさにアートと呼ぶにふさわし気な画像も。
モートンさんは「モデルを用いていろいろな出力を行った後に感じたのは恐怖でした。出力される画像は『良すぎる』というわけではありません。これまでに登場してきた同様の画像生成モデルで出力した画像と比べても、『最も印象的なもの』というわけではありません。これはつまり、最適化プロセスを経ればより高品質な出力が可能となるということです。私の作成したモデルには『空間における一貫性の欠如』と『人の顔を出力できない』という欠点があります。しかし、これらの欠点を除けば、出力した画像はほとんどのカジュアルなアート閲覧者をだますのに十分なクオリティを持っていると言えるでしょう」と語り、AIモデルを用いた画像生成全般のレベルが向上し過ぎていると警鐘を鳴らしています。
実際、今回モートンさんが作成したVQGANとCLIPを用いたモデルとは別のツールで、同じように自動生成した画像が以下のもの。今回モートンさんが自動生成した画像は「図書館」という場所をベースにしていましたが、以下の画像は図書館とは全く関係のないものです。モートンさんが言う通り、VQGANとCLIPを合わせたモデルでなくとも、素晴らしいクオリティの画像を生成できることがよくわかります。
これらを踏まえ、モートンさんは「私が感じているのは、AIがチェスと囲碁をプレイするために行ってきた試行錯誤を、アートや音楽といった分野にも広げる可能性があるということです」と語り、囲碁の世界チャンピオンを下した囲碁AIの「AlphaGo」や、人間を倒してチェスのあり方を一変させたチェスAIのように、アート作品を自動生成するAIが登場することでアートのあり方が一変してしまう可能性があると危惧しています。
・関連記事
AIに関する膨大な調査データをまとめた「Artificial Intelligence Index」の2021年版が公開 – GIGAZINE
OpenAIが開発した画像認識AI「CLIP」の思考の特徴とは? – GIGAZINE
人間を倒してチェスのあり方を一変させたAIが「チェスの新たな可能性を広げる」ために使われている – GIGAZINE
囲碁AI「AlphaGo」に敗北した世界チャンピオンが「AIを負かすことはできない」と棋士を引退 – GIGAZINE
ということで、「GIGAZINEに自社製品を紹介して欲しいな~」という場合はココから記事広告媒体資料をゲットできます。
・関連コンテンツ
Source: ギガジン
画像生成AIはアートのあり方を変えてしまうのか?
1: 通りすがりのコメンテータ…