音声アシスタントはやり直しを切望している。本当にやり直しを許すべきだろうか?

音声アシスタントはやり直しを切望している。本当にやり直しを許すべきだろうか?

GoogleとAmazonの言うことを信じるなら、今は音声アシスタントの時代だ…再び。今週、両社はスマートホーム・エコシステムの将来について、より詳細な情報を発表しました。その中心となるのは、Google Homeスピーカーという新しいスマートスピーカーと、音質が向上しチップが高速化された新しいEcho製品ですが、おそらくもっと重要なのは、それらを支える、新しく、そしておそらくはアップグレードされた音声アシスタント群です。GoogleはGemini for Home、AmazonはAlexa+です。どちらもChatGPTで使用されているような大規模言語モデル(LLM)の進歩によって推進されています。

AmazonでEcho Studioを見る

Echo Dot MaxをAmazonで見る

Alexa+とGemini for Homeは両社の評価では、単に新世代の音声アシスタントというだけでなく、 10年前の音声アシスタント黎明期以来、初めての真の世代拡張だ。そうした期待とともに、大きな約束もいくつかある。両社は、今回はあらゆることが可能になるという。Uberを呼びたい?Alexa+で注文できる。自宅のカメラで猫が一日中何をしていたか確認したい?Geminiに聞けばいい。家中のスマートライトを1つだけ残して消したい?今では、それを実際に 頼むことができる。これまでは、苦労していくつものコマンドを打ち込んで、それがうまくいくのを祈る必要はなかった。どれも素晴らしい。音声アシスタントがずっと前に家庭に浸透して以来、私たちが切望してきたまさにアンビエントコンピューティングのようだ。どれもとても理想的に聞こえるが、正直に言うと、全くのナンセンスになる可能性もあるようにも思える。

Amazon Fire Echo Ring Scribeデバイス発売16
Amazonの新しいデス・スター風Echoスピーカー。© Adriano Contreras / Gizmodo

はっきりさせておきます。チャットボットが何らかの形で変革をもたらす可能性に、私は全く疑いを持っていません。検索などの分野への応用によって、より複雑なクエリ、比較、アドバイスが可能になることは既に見てきました。VeoやSoraのようなモデルと組み合わせたり転用したりすることで、チャットボットの持つ生成能力も見てきました。テキストボックスにアイデアを入力するだけで、基本的なアプリをコーディングできることも見てきました。これらの機能が完璧とは程遠いとしても、うまく機能すれば、どれほどの成果を生むかという確かな事例を見てきました。音声アシスタントはどうでしょうか?まあ、まだその証拠ははるかに少ないですが。

今週Amazonが盛大に発表したにもかかわらず、一つだけ明らかに欠けている点があった。次世代音声アシスタント「Alexa+」は早期アクセス版として提供されているものの、1年間 の宣伝を経て、いつより広範なリリースを予定しているのかは明らかにされていない。米国の顧客向けにはまだ「早期アクセス」段階にある。これはもちろん様々な意味合いを持つ。AmazonはAlexa+を世界に解き放つ前に、時間をかけて微調整を行っているだけなのかもしれない。しかし、もっと皮肉な見方をすれば、Alexa+がまだメジャーリーグで活躍できる準備ができていない可能性もある。

最後の説の信憑性を高めるのは?Siriだ。Appleが2024年6月にApple Intelligenceの一環として、LLMを搭載した次世代Siriをまもなくリリースすると約束したのを覚えていますか?ええ、まだリリースされていませんし、いつリリースされるのか具体的な兆候もありません。その理由は?もし私たちが考えてみると、まだ準備ができていないということでしょう。この推論をさらに一歩進めてみると、LLMを搭載した機能的な音声アシスタントは、おそらく世界で最もリソースの豊富なテクノロジー企業であるAppleのような企業が予想していたよりもはるかに困難な課題であることが判明しています。

Google Nest 製品発表 23
Google Homeスピーカーは…2026年春まで発売されない。© Adriano Contreras / Gizmodo

まあ、AmazonかGoogleの方がその点で幸運に恵まれるかもしれません。特にGoogleはGeminiの開発に莫大なリソースを投入しており、その注目と投資が何らかのブレークスルーにつながる可能性も否定できません。しかし、まだ懐疑的な点も少なくありません。最近、Googleの新しいスマートホーム製品、特にGemini for Homeアシスタントについて説明を受けたのですが、Googleによると、音声アシスタントにLLM(法学修士)を組み込むプロセスは、想像するほど簡単ではないそうです。

Geminiは自然言語の理解には優れているかもしれませんが、照明のオンオフといった単純な作業には必ずしも適している とは限りません。チャットボットは時として素晴らしい機能を発揮しますが、考えすぎたり解釈しすぎたりする傾向があります。そのため、一部のタスクには適していますが、一般的なスマートホームシステムには適していません。

Google HomeとNestの最高製品責任者であるアニッシュ・カトゥカラン氏は、シンプルなコマンドでも「10回中10回は機能する」必要があるとGizmodoに語った。

これらの違いのため、GoogleはGemini for Homeでモデルを分離していると実際に述べています。つまり、より高度なLLMは、照明のオン/オフを切り替えたり、タイマーを設定したりすることはおそらくないでしょう。「Hey Google」と言うと、それは簡素化され、よりタスクに重点を置いたGeminiになります。タイマー、照明、音楽の再生、簡単なウェブ検索、およびその他の一般的なスマートホームオートメーションに使うものです。しかし、「Hey Google、チャットしましょう」と言うと、Gemini for Homeは、LLMの自然言語処理をより多く使用して会話型の「チャット」を行うGemini Liveモードを起動します。これは、レシピを即座に作ったり、休暇のブレインストーミングを行うための推論と創造性を高める場所です。Gemini Liveのこのモードでは、AIが「聞いて」、より予測的になるため、常にコマンドを吠えているように感じることなく、自然に話すことができます。

すると、次のような疑問が湧いてきます。Geminiは、実際に日常的に使うような簡略化されたモデルに どれだけ含まれているのでしょうか?そして、実際にはどれほど高度な機能を備えているのでしょうか?Alexa+と同様に、Gemini for Homeは現在早期アクセス段階にあることも注目すべき点です。GoogleがLLM(法学修士)による音声アシスタントの改良に取り組んでいる問題は、Geminiに限ったことではなく、あらゆる企業が直面している問題です。

いいですか、こんなことを書いて恥をかくのは嫌なんです。むしろ、そうなることを願っています私も多くの人と同じように、シンプルなスマートホームを所有しており、(これも多くの人と同じように)簡単な作業でさえも使いこなすのにフラストレーションと摩擦を感じてきました。たとえ月額料金を払わなければならないとしても、次世代の音声アシスタントには期待しています。しかし、期待は大きいものの、この10年間は​​「もっと欲しい」と言いながら、期待はどんどん小さくなっていきました。ですから、Gemini、Alexa、Siriに関しては、本格的な音声アシスタントの見直しを検討する前に、結果を見極める必要があるでしょう。

AmazonでEcho Studioを見る

Echo Dot MaxをAmazonで見る

Tagged: