OpenAI、ChatGPTに音声と画像の機能を新たに搭載すると発表

ありがとうございます!
OpenAIは9月25日(現地時間)、同社のAIチャットボット、ChatGPTに新たに音声と画像の機能を搭載すると発表しました。
この新機能によりユーザは、ChatGPTとチャットで操作できるだけでなく、音声で会話したり画像をアップロードし、その画像について会話することが可能になります。(OpenAI)
この機能は今後2週間でChatGPT PlusおよびEnterpriseユーザに新機能が提供される予定で、音声での会話はChatGPTのiOSとAndroid向けのアプリで利用可能になり、画像に関しては全てのプラットフォームで利用できるようになるとしています。

ChatGPTに追加された新機能
音声対話機能(音声認識と発話機能)
ユーザーはChatGPTとの間でリアルタイムの音声対話ができるようになりました。
この際、ChatGPTからの応答はプロの声優との協力で作成されたもので、5つの異なる人間らしい声を選択できるとのことです。
OpenAIによると発話機能の実現には、テキストから人間らしい音声を生成する新しいテキスト読み上げモデルを活用しているといい、サンプル音声の数秒からリアルタイムで人間らしい音声を生成する能力があるそうです。
また、ユーザからの音声はOpenAIが提供するオープンソースの音声認識システムである「Whisper」を使用して、話された言葉をテキストに変換しているとのこと。
音声対話機能の活用例
OpenAIが紹介する活用例では「子どもの就寝前の話をリクエストしたり、夕食のテーブルでの議論を解決したりできます」とのことでした。
活用の幅はまだまだありそうです。
画像認識機能
今回追加された画像認識機能では、ユーザからChatGPTに画像をアップロードし、それに関する情報やアドバイスを求めることが可能になります。
OpenAIの発表によると画像の認識機能は、GPT-3.5とGPT-4のマルチモーダルモデルによってサポートされるそうです。
画像認識機能の活用事例
ChatGPTに写真やスクリーンショットをアップロードし、それに関する情報やアドバイスを求めることができます。
OpenAIが紹介する活用例では、キッチン周りの急なトラブルに関する問題解決や冷蔵庫の中身に関する食事の計画、仕事関連のデータの複雑なグラフを分析などが挙げられていました。
セキュリティと透明性への取り組み
OpenAIは、この先進的なモデルのデプロイメントにあたり、声やビジョンに関する新しいリスクに対処するための継続的なテストと改良を行っています。
特に、画像に関する情報はプライバシーの観点から、人々についての直接的な発言の能力を大幅に制限しているとのこと。
OpenAIのこの新しい機能は、AIの操作や利用の方法を一新し、より直感的で多機能な経験をユーザに提供することを目指しているとのことです。
▼ 関連記事(ChatGPT) ※姉妹サイト含む
ChatGPTとは?利用開始手順と使い方、使用の際の注意点を解説
ChatGPT Plusへの登録方法!GPT-3.5とGPT-4の違いも紹介!
iOS/iPadOS向けのChatGPTアプリ – ダウンロードからOpenAIアカウント作成まで
ChatGPTをもっと身近に! OpenAI公式ChatGPTアプリの使い方と各種設定方法
ChatGPTより10倍速くて多機能と噂の「Easy-Peasy.AI」の登録方法と使い方
前後の記事
関連記事
-
KADOKAWA社長 夏野氏のXアカウントは乗っ取られていなかった
-
KADOKAWA、ダークウェブ上に流出したデータの拡散行為に法的措置の準備
-
KADOKAWA、サイバー攻撃に関する一部報道に強く抗議 – 攻撃者のメッセージ掲載に対する法的措置を検討
-
ニコニコ、流出した情報の悪質な拡散について再度警告 法的措置について言及も
-
ECサイト大手「Shopify」から約18万件分の顧客データが流出か 海外メディアが報じる
-
【全文和訳】KADOKAWAとニコニコを襲ったBlack Suitの犯行声明は一体どんな内容だったのか 証拠として機密情報の一部も公開か
-
ニコニコ/KADOKAWAを攻撃したハッカー集団「BlackSuit」ダークウェブ上で予告通り個人情報を公開と報道 「ニコニコ超開示」がトレンド入り
-
ニコニコ動画8月5日に完全復活?サービス再開が告知 一方でシステム消失により再開しないサービスも
コメントを残す