GoogleのAIの最新バージョン、Gemini 1.5 Proが音声認識機能を搭載! これによって、音声を認識することができるようになりました。
最新バージョンで動画や音声の視聴をさらに時短できる!
Geminiは、Googleのリブランディングされたチャットボットの名称で、以前はBardと呼ばれていました。そして、Gemini 1.5 Proとは、2024年2月に限られた開発者に提供されたモデルの最新版です。
Gemini 1.5 Proは、テキスト、コード、ビデオだけでなくアップロードされた音声配信を処理できます。これは動画の音声を含む音声自体を認識して分析するため、文字起こしがない情報も取り出すことが可能です。
つまり、ユーザーはGemini 1.5 Proを使用して、決算説明会から情報を収集したり、録音されたインタビューを書き起こしたり、音声付きのビデオを分析したりできるようになるのです。
このAIは、1時間の動画、11時間のオーディオ、3万行のコード、または70万以上の単語を含むプロンプトを一度に処理することができます。
Googleはまた、Vertex AIを利用できる人向けにGemini 1.5 Proをパブリックプレビューとして公開していますが、現時点では一般公開のベータテストはまだ予定されていません(2024年4月18日編集時点)。
今のところ、ほとんどのユーザーはGeminiチャットボットを通じてGoogleのAIを利用していることになります。