PR ChatGPT フリ校

フリ校 voicy 2023年10月1日 ChatGPT4に画像認識の追加機能!早速チェック!

2023年10月1日 ChatGPT4に画像認識の追加機能!早速チェック! けいすけさん

担当はけいすけさん

GPT-4V マルチモーダル搭載
→ 音声、画像、テキスト、色々なものが使えるように!

✅GPT-4Vの「V」VisionのV

何ができる?
  → 画像を認識して、それを受け答えしたりできる

画像の分析
 【例】論文など複雑な図を読み込んでもらい「これなんですか?説明してください」
    分からないものがあったら、写真を撮って 「これは何ですか?」など

食べ物の写真を撮って
 ・カロリーいくつ?
 ・作り方は?
 ・この料理何ですか?

ページが遷移する図を読み込ませて、ページをつくってもらう
 【例】アプリで「このボタンを押すと次のページにいきます。
    戻るボタンを押すと戻りますよ」という、そのようなページの遷移があります。
  → そういった図を作り、それをホワイトボードに書き、それを写真を撮り
    ChatGPTに「これ作って」と指示すると作ってくれる。
  → 「このボタンを押すと次のページに行く」など作れる。
  → 今までは仕様として文章に書かなければならなかったが、これを図から起こしてくれる

おしゃべりをする
  ・これは今のところスマホ版だけの仕様かもです
  ・お話する機能が追加されて、自分がしゃべった事をほぼリアルタイムで、GPTが返答してくれる
  ・「大阪弁でしゃべって」なども対応
  ・語学学習にいいかもしれない → 何をしゃべっても英語で返してなど

webサイトの画像を見せて、そのサイトを再現するソースコードを書いてくれる
  【例】電卓アプリ
     電卓アプリのスクリーンショットを送る
     → 「このアプリ作ってください、このページを再現してください」と指示する
     → ソースコードで書いてくれる
  ・エンジニアとして、「見た目は分かるがどうやってソースコードにするんだろう?」
   と悩むときがある。そのようなときにヒントになる

ウォーリーを探してもらう(笑)

何がすごい?
  → コンピューターが視覚を手に入れた!

✅今まではテキストだけで文字のやり取りはできた。
  それに画像が入ってくる、音声も入ってくるようになると、あと嗅覚と触覚と味覚 。
  これをロボットに搭載すると結構動けるようになる
  → どんどん人間に近づいてくる

✅ロボットというよりは画面の向こうに人間がいるという状況
  視覚と聴覚が伝わってしまえば、それは画面の向こう側にいる人間と変わらない

✅来年くらいには、AIが人間の仕事を奪いにくるかもしれない

AIの進化すごすぎます。
「コンピューターが視覚を手に入れた」、、、すごい。
「おしゃべりもできる」ようになるなんてロボットすぎる。
人間すぎる。
「ウォーリーを探してもらう」は、ちょっと笑いました。

どんどん新しい技術、どんどん楽しみです。
有難うございました!

よろしければ、「フリ校ボイシー土・日曜日まとめ」もどうぞー

-ChatGPT, フリ校