OpenAI、ChatGPTに音声と画像の機能を新たに搭載すると発表

OpenAI、ChatGPTに音声と画像の機能を新たに搭載すると発表

ありがとうございます!

ツイートする

OpenAIは9月25日(現地時間)、同社のAIチャットボット、ChatGPTに新たに音声と画像の機能を搭載すると発表しました。
この新機能によりユーザは、ChatGPTとチャットで操作できるだけでなく、音声で会話したり画像をアップロードし、その画像について会話することが可能になります。(OpenAI)

この機能は今後2週間でChatGPT PlusおよびEnterpriseユーザに新機能が提供される予定で、音声での会話はChatGPTのiOSとAndroid向けのアプリで利用可能になり、画像に関しては全てのプラットフォームで利用できるようになるとしています。

ChatGPTに追加された新機能

音声対話機能(音声認識と発話機能)

ユーザーはChatGPTとの間でリアルタイムの音声対話ができるようになりました。
この際、ChatGPTからの応答はプロの声優との協力で作成されたもので、5つの異なる人間らしい声を選択できるとのことです。

OpenAIによると発話機能の実現には、テキストから人間らしい音声を生成する新しいテキスト読み上げモデルを活用しているといい、サンプル音声の数秒からリアルタイムで人間らしい音声を生成する能力があるそうです。

また、ユーザからの音声はOpenAIが提供するオープンソースの音声認識システムである「Whisper」を使用して、話された言葉をテキストに変換しているとのこと。

音声対話機能の活用例

OpenAIが紹介する活用例では「子どもの就寝前の話をリクエストしたり、夕食のテーブルでの議論を解決したりできます」とのことでした。

活用の幅はまだまだありそうです。

画像認識機能

今回追加された画像認識機能では、ユーザからChatGPTに画像をアップロードし、それに関する情報やアドバイスを求めることが可能になります。

OpenAIの発表によると画像の認識機能は、GPT-3.5とGPT-4のマルチモーダルモデルによってサポートされるそうです。

画像認識機能の活用事例

ChatGPTに写真やスクリーンショットをアップロードし、それに関する情報やアドバイスを求めることができます。
OpenAIが紹介する活用例では、キッチン周りの急なトラブルに関する問題解決や冷蔵庫の中身に関する食事の計画、仕事関連のデータの複雑なグラフを分析などが挙げられていました。

セキュリティと透明性への取り組み

OpenAIは、この先進的なモデルのデプロイメントにあたり、声やビジョンに関する新しいリスクに対処するための継続的なテストと改良を行っています。
特に、画像に関する情報はプライバシーの観点から、人々についての直接的な発言の能力を大幅に制限しているとのこと。

OpenAIのこの新しい機能は、AIの操作や利用の方法を一新し、より直感的で多機能な経験をユーザに提供することを目指しているとのことです。

▼ 関連記事(ChatGPT) ※姉妹サイト含む

ChatGPTとは?利用開始手順と使い方、使用の際の注意点を解説

ChatGPT Plusへの登録方法!GPT-3.5とGPT-4の違いも紹介!

iOS/iPadOS向けのChatGPTアプリ – ダウンロードからOpenAIアカウント作成まで

ChatGPTをもっと身近に! OpenAI公式ChatGPTアプリの使い方と各種設定方法

ChatGPTより10倍速くて多機能と噂の「Easy-Peasy.AI」の登録方法と使い方