ChatGPTがAI時代のOSに? Bing Image Creatorが示す、ChatGPTを使った画像生成AIの使いやすさ

ChatGPTのAPIを利用した様々なサービスが日々、新たにリリースされています。
直近でも次のようなものが発表されています。


ChatGPTのような大規模言語型モデルは、他にもいくつも開発されていますが、ChatGPTがすでに社会インフラになりつつあるのは間違いありません。

ChatGPTは他の様々なAI技術を統合して、より使いやすい、高次元のAIサービスを提供することができる

たとえば、Stable DiffusionやDALLE、MidJourneyといった画像生成系のAIがいくつも発表されていますが、ChatGPTを利用したMicrosoftの「Bing Image Creator」が、自然言語の入力のみでイメージに近いものを出力できる、初心者でも簡単に使えるもののようです。



試しに私も画像を生成してみたのですが、かなりイメージしたものに近いものでした。

この際に使ったプロンプトは次のようなものです。

モグラの地下王国の吹き抜け。何十階建てかわからないほど何層もあるけれど、賑やかな様子です。その真ん中あたりのテラスでビールをのんでるモグラたちが5匹います。

新たなトンネル工事の仕事の帰りのようです。絵本のようなタッチの絵でお願いします。モグラの姿はハッキリと、ジブリと鳥山明の絵柄をミックスしてやわらかな雰囲気で。

Bing Image Creatorは、現在のところ英語でしか使えないとのことなので、DeepL翻訳にこの文章を突っ込んで次のような英文に変換して入力しました。

The atrium of the mole’s underground kingdom. It is so many stories high that it is hard to tell how many dozens of floors there are, but it looks bustling with activity. There are five moles drinking beer on the terrace in the middle of it.

They seem to be on their way home from working on a new tunnel. Please use a picture book touch. The moles should be clear, and the atmosphere should be soft with a mix of Ghibli and Akira Toriyama’s designs.

その結果、出てきた画像はこんな感じのが4枚。これだけの文章で十分に脳内でイメージしたものに近いものが出ました。

さらに、その際に使用したプロンプトを、他の画像生成AIサービスにそのままコピペして同じように生成させてみたのですが、残念ながら、だいぶイメージとはかけ離れたものになってしまいました。。

これはStable Diffusionでしたが、midjourneyでも恐らく似たような結果になったと思います。

しかし、これはStable DiffusionのAIが劣っているのではなく、単に私に「使いこなすだけのプロンプト能力がない」だけなのです。

これらの画像生成AIは、ChatGPTを入力インターフェースとして採用していません。

なので、要求される入力プロンプトが少し特殊な書き方で「箇条書き」のようなプロンプト文のスタイルが求められるのです。



ようするに、我々が普段の会話で使っているような自然言語そのままのプロンプト入力では、うまくイメージ通りのものは生成されない、ということになります。

AIによっては、入力プロンプトの書き方や表現方法がかなり大きく異なる

特に、画像生成AIのような機械学習モデルは、入力するプロンプトの形式や表現が的確でないと、生成される画像が正確でなくなることがあります。

Stable Diffusionやmidjourneyといった画像生成AIには、それぞれ独自の学習データセットやモデルが用意されており、それに合わせた特殊な入力プロンプトの書き方や表現方法が必要になるのです。

生成される画像の品質に影響を与えるプロンプトの要素は複数あるため、試行錯誤を繰り返すことで、ようやく狙ったイメージ通りの画像を得ることができるようになるのです。

こういった事情から、高品質な画像を生成するための高度なプロンプト文を、ユーザー間で取引するサイトや生成するツールもすでに数多くあるようです。





まさしく「AI時代のOS」の立ち位置に、ChatGPTのような大規模言語モデルのAIがある

MicroSoftがリリースしたBing Image Creatorのように、ChatGPTを入力インターフェースとして利用することで、より自然言語に近い形で入力プロンプトを表現することができるため、画像生成AIの生成結果もより正確になり、使いやすくなると期待されます。

つまり、これからの時代は、ChatGPTのような大規模言語モデルのAIが、その他のAIのインターフェースとして非常に重要な役割を果たしていくのではないでしょうか。

いろいろなAIが社会に普及するほど、「多種多様なAIシステムとのコミュニケーション」がわれわれ人間に必要とされるからです。

われわれ人間が、多種多様なAIサービスを活用する上で、ChatGPTのような自然言語を理解するAIが、発電所のように特に重要な社会インフラになっていくことでしょう。

安全保障上でも求められる、予備の国産バックアップ大規模言語モデルAI

リスクマネジメントの観点から、予備の大規模言語モデルAIの保有は、社会の安定や安全保障にとって重要になってきます。

特に、ChatGPTのように今後の高度AI化社会で中心的な役割を果たすAIサービスが利用不能になった場合には、その影響はとても大きくなる可能性があります。

予備の大規模言語モデルAIの保有によって、最悪の事態に備えることができ、社会の安定や安全保障を確保することができるのです。

予備の大規模言語モデルAIの保有には、コストや運用上の課題も

大規模言語モデルAIの技術や、コンピューティング機器は急速に進化しているので、5年後には現行のChatGPT3.5と同等のものを、よりコスト面で効率的に実現できるかも知れません。

目標レベルの設定に際しては、将来の技術進化を考慮に入れた柔軟な計画が必要になるでしょう。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です