PR フリ校

フリ校 voicy 2023年7月16日 AIが人間に一歩近づいた。Bardのマルチモーダル

2023年7月16日 AIが人間に一歩近づいた。Bardのマルチモーダル

担当はけいすけさん

マルチモーダルAI

マルチモーダルAIは、複数種類のデータを入力とし、統合的に処理する深層学習の手法のことを指します。

人間は情報を処理する際、「五感」に代表される視覚情報、嗅覚、触覚、味覚、聴覚など外部から入ってくる複数の感覚情報を組み合わせて処理しています。

(株式会社マクニカのHPより引用)

✅ChatGPTの方でなくGoogleのBard

✅マルチモーダルによって、色々な入力ができるようになる

  → 何ができるようになった?

  → 画像の入力ができるようになりました

✅使い方はけいすけさんのツイート参照
 (Googleの日本語設定を英語設定に変えるだけです)

  → 言語設定が英語でも日本語で入力しても大丈夫

✅画像とテキストどちらのほうが情報量が多い?

  →  圧倒的に画像の方が情報量が多い
    (画像を完璧に説明する文章というのは存在しない)

  → 画像から読み取る情報と文字から受け取る情報は全然違う

  → 本質的に入力のレベルが格段に上がる

画像 VS テキスト

【例】夜空が美しい

どんなに長い文章、理路整然と文章を打ったところで、夜空で星が輝いている写真の情報にはかなわない

AIの機能を人間に置き換えた場合

AIは脳みそ

今までのAI、脳みそに対して、言語を送って言語テキストで返ってくる。

マルチモーダルで画像が入力できることになった 

 → 目を手に入れた(視覚を手に入れた)

音声入力(文字起こし)なども、対応ができている(聴覚も手に入れている)

 → 人間に近づいていきている



嗅覚、触覚、味覚は大変かもしれないが、将来的には取り入れられるかもしれない

今回はChatGPTでなく、Bardでしたね。
このChatGPTとBardの戦いもとても注目ですね。

視覚情報の件で、夜空の星の例え、とても分かりやすかったです。
「百聞は一見に如かず」のようなものですね。
視覚情報の強み。
それが識別できるなんて、ほんとこの技術に感服です。
スゴイ事がスゴイスピードで起きてますね。


視覚も聴覚も得て、ほんと5感全部AIに搭載されたら、
手塚治虫的SFな世界がきそう、、、
人間、AIに征服される未来があるかも。怖い、、、
怖いですが、新しい技術は楽しい!



ちなみに、私もBardの画像入力を試そうとして、英語設定しましたが、
まだ、うまく画像入力フォームが反映できていません。
1時間くらいやって、一旦諦め中ですw
自分のPCオンチが恥ずかしい。
コツコツやっていきますー。

今回も、素敵な情報を有難うございました!

よろしければ、「フリ校ボイシー土・日曜日まとめ」もどうぞー

-フリ校