テキストAIアートジェネレーターはアーティストを助けるよりも妨げる

希望する画像を得るには、試行錯誤を何度も繰り返す必要があります。 — 望みの画像を得るには、試行錯誤を繰り返す長い作業が必要になる場合があります。スクリーンショット：OpenAI

人工知能を使ったアート制作は新しいものではありません。AIそのものと同じくらい古いものです。

新たな点は、多くのツールが登場し、今ではほとんどの人がテキスト入力だけで画像を生成できるようになったことです。テキストボックスに「ゴッホ風の風景画」と入力するだけで、AIが指示通りに美しい画像を作成してくれます。

この技術の強みは、人間の言語を用いて芸術作品の創造を制御できることにあります。しかし、これらのシステムはアーティストのビジョンを正確に表現できるのでしょうか？芸術作品の制作に言語を取り入れることは、本当に芸術的な飛躍につながるのでしょうか？

エンジニアリング出力

私はアーティストおよびコンピューター科学者として長年、生成 AI に取り組んできましたが、この新しいタイプのツールは創造のプロセスを制約すると主張します。

AIで画像を生成するためのテキストプロンプトを書くと、可能性は無限に広がります。もしあなたが普段使いのユーザーであれば、AIが生成してくれる画像に満足するかもしれません。スタートアップ企業や投資家たちは、記事、ビデオゲームのキャラクター、広告などのグラフィックを簡単に生成できる手段として、この技術に数十億ドルもの資金を投入しています。

生成 AI は、ビデオゲームのキャラクターを作成するための有望なツールとして注目されています。 — 生成AIは、ビデオゲームのキャラクターを生み出すための有望なツールとして注目されている。
スクリーンショット：Benlisquare/Wikimedia Commons、CC BY-SA

対照的に、アーティストは、自身のビジョンを反映した高品質なイメージを生み出すために、エッセイのようなプロンプトを書く必要があるかもしれません。適切な構図、適切な照明、そして正しい陰影で。この長いプロンプトは必ずしもイメージを描写するものではなく、アーティストの頭の中にあるものを体系的に想起させるために、多くのキーワードが用いられます。このことを指して「プロンプトエンジニアリング」という比較的新しい用語があります。

基本的に、これらのツールを使用するアーティストの役割は、システムをリバースエンジニアリングし、適切なキーワードを見つけて、システムが望む出力を生成するように促すことに集約されます。適切な言葉を見つけるには、多大な労力と試行錯誤が必要です。

AIは見た目ほど賢くない

出力をより適切に制御する方法を学ぶには、これらのシステムのほとんどがインターネット上の画像とキャプションでトレーニングされていることを認識することが重要です。

典型的な画像のキャプションが画像について何を伝えているか考えてみましょう。キャプションは通常、ウェブブラウジングの視覚体験を補完するために書かれます。

したがって、有用なテキストプロンプトを書くには、ユーザーは AI システムが対応する画像を作成できるように、多くの非説明的なキーワードを挿入する必要があります。

今日の AI システムは見た目ほどインテリジェントではありません。本質的には、膨大なメモリを持ち、連想によって動作するスマートな検索システムです。

コントロールの欠如に不満を抱くアーティスト

これは本当にアーティストが素晴らしい作品を作るのに役立つようなツールなのでしょうか?

私が設立した生成AIアートプラットフォーム「Playform AI」では、アーティストの生成AI体験をより深く理解するためのアンケート調査を実施しました。DALL-E、Stable Diffusion、Midjourneyなどのプラットフォームを利用した500名以上のデジタルアーティスト、伝統画家、写真家、イラストレーター、グラフィックデザイナーから回答を集めました。

回答者のわずか46%がこうしたツールを「非常に便利」と感じ、32%はある程度便利だがワークフローに統合できないと感じていました。残りの22%は、全く便利ではないと感じていました。

アーティストやデザイナーが指摘した主な制約は、コントロールの欠如でした。0から10の尺度で評価すると（10が最もコントロールしやすい）、回答者は結果をコントロールする能力を4から5の間と評価しました。回答者の半数は、成果物は興味深いと感じたものの、実践に活用できるほど質の高いものではないと感じました。

生成型AIが自身の制作活動に影響を与えるかどうかについて質問したところ、調査対象となったアーティストの90%が影響を与えると考えており、46%はプラスの影響があると考え、7%はマイナスの影響があると予測しました。また、37%は自身の制作活動が影響を受けると考えていたものの、どのような影響を受けるかは不明でした。

最高の視覚芸術は言語を超える

これらの制限は根本的なものですか、それともテクノロジーが進歩するにつれてなくなるのでしょうか?

もちろん、生成 AI の新しいバージョンでは、より高い解像度と優れた画像品質とともに、ユーザーは出力をより細かく制御できるようになります。

しかし、私にとって、芸術に関する限り、主な制限は基礎的なものです。それは、イメージを生成するための主な原動力として言語を使用するプロセスです。

ビジュアルアーティストは、定義上、視覚的に思考する人々です。作品を構想する際、彼らは通常、言葉ではなく、記憶、写真コレクション、あるいはこれまでに出会った他の芸術作品といった視覚的な参照から発想を得ます。

言語が画像生成の主導権を握ると、アーティストとデジタルキャンバスの間に新たな障壁が生まれるように思います。ピクセルは言語というレンズを通してのみ表現されるようになり、アーティストは意味論の境界を越えてピクセルを操作する自由を失います。

同じ入力からさまざまなランダムな出力が得られる場合があります。 — 同じ入力から、さまざまなランダムな出力が得られる可能性がある。
スクリーンショット：OpenAI/Wikimedia Commons

テキストを画像に変換する技術には、もう 1 つの根本的な制限があります。

2人のアーティストが全く同じプロンプトを入力した場合、システムが同じ画像を生成する可能性は非常に低いです。これはアーティストの行動によるものではなく、AIが異なるランダムな初期画像から開始するため、結果が異なるだけです。

言い換えれば、アーティストの成果は偶然に左右されるということです。

私たちが調査したアーティストのほぼ3分の2は、AI生成した作品が他のアーティストの作品と似ている可能性があり、テクノロジーが自分のアイデンティティを反映していない、あるいは完全に置き換えてしまうのではないかと懸念していました。

インターネット上の既存の画像を使って学習する AI システムを検討する場合も、同じ疑問が浮かび上がります。

テキストから画像への変換プロンプトが登場する以前は、AIを用いたアート制作はより複雑なプロセスでした。アーティストは通常、自身の画像に基づいて独自のAIモデルを学習していました。これにより、アーティストは自身の作品を視覚的な参照として使用し、出力に対するコントロールをより維持することができ、独自のスタイルをよりよく反映することができました。

テキストを画像に変換するツールは、仕事のプレゼンテーションやソーシャルメディアの投稿用のグラフィックを作成したい特定のクリエイターや一般の日常ユーザーにとって便利な場合があります。

しかし、芸術に関しては、テキストを画像に変換するソフトウェアが、アーティストの真意を適切に反映したり、美しさや感情の共鳴、あるいは鑑賞者の心を掴んで世界を新たに見せる作品を捉えたりできるとは思えません。

AI、チャットボット、そして機械学習の未来についてもっと知りたいですか？人工知能に関する当社の記事をぜひご覧ください。また、「最高の無料AIアートジェネレーター」や「OpenAIのChatGPTについて私たちが知っていることすべて」といったガイドもご覧ください。

ラトガース大学コンピューターサイエンス教授、アート＆AIラボ所長、アハメド・エルガマル氏

この記事はクリエイティブ・コモンズ・ライセンスに基づきThe Conversationから転載されました。元の記事はこちらです。