2023年10月1日 ChatGPT4に画像認識の追加機能!早速チェック! けいすけさん
担当はけいすけさん
GPT-4V マルチモーダル搭載
→ 音声、画像、テキスト、色々なものが使えるように!
✅GPT-4Vの「V」はVisionのV
✅何ができる?
→ 画像を認識して、それを受け答えしたりできる
✅画像の分析
【例】論文など複雑な図を読み込んでもらい「これなんですか?説明してください」
分からないものがあったら、写真を撮って 「これは何ですか?」など
✅食べ物の写真を撮って
・カロリーいくつ?
・作り方は?
・この料理何ですか?
✅ページが遷移する図を読み込ませて、ページをつくってもらう
【例】アプリで「このボタンを押すと次のページにいきます。
戻るボタンを押すと戻りますよ」という、そのようなページの遷移があります。
→ そういった図を作り、それをホワイトボードに書き、それを写真を撮り、
ChatGPTに「これ作って」と指示すると作ってくれる。
→ 「このボタンを押すと次のページに行く」など作れる。
→ 今までは仕様として文章に書かなければならなかったが、これを図から起こしてくれる
✅おしゃべりをする
・これは今のところスマホ版だけの仕様かもです
・お話する機能が追加されて、自分がしゃべった事をほぼリアルタイムで、GPTが返答してくれる
・「大阪弁でしゃべって」なども対応
・語学学習にいいかもしれない → 何をしゃべっても英語で返してなど
✅webサイトの画像を見せて、そのサイトを再現するソースコードを書いてくれる
【例】電卓アプリ
電卓アプリのスクリーンショットを送る
→ 「このアプリ作ってください、このページを再現してください」と指示する
→ ソースコードで書いてくれる
・エンジニアとして、「見た目は分かるがどうやってソースコードにするんだろう?」
と悩むときがある。そのようなときにヒントになる
✅ウォーリーを探してもらう(笑)
✅何がすごい?
→ コンピューターが視覚を手に入れた!
✅今まではテキストだけで文字のやり取りはできた。
それに画像が入ってくる、音声も入ってくるようになると、あと嗅覚と触覚と味覚 。
これをロボットに搭載すると結構動けるようになる
→ どんどん人間に近づいてくる
✅ロボットというよりは画面の向こうに人間がいるという状況
視覚と聴覚が伝わってしまえば、それは画面の向こう側にいる人間と変わらない
✅来年くらいには、AIが人間の仕事を奪いにくるかもしれない
AIの進化すごすぎます。
「コンピューターが視覚を手に入れた」、、、すごい。
「おしゃべりもできる」ようになるなんてロボットすぎる。
人間すぎる。
「ウォーリーを探してもらう」は、ちょっと笑いました。
どんどん新しい技術、どんどん楽しみです。
有難うございました!
よろしければ、「フリ校ボイシー土・日曜日まとめ」もどうぞー