

長年の読者の皆様はご存知でしょうが、私は長年Siriのファンです。何度も言っているように、iPhoneを操作する主な手段はSiriです(大きな画面が必要ない理由の一つです)。ほとんどのメッセージは音声入力で送っていますし、自分で操作する代わりにSiriに頼める場合は、そうしています。
しかし、Siriには大きな欠点が一つあります。それは、サードパーティ製アプリにアクセスできないことです。昨年の機能リクエストで書いたように、Siriに重労働を任せたいアプリは無数にあります。
まだできないのは、次の電車の時刻を聞くことです。スマホにはその質問に答えてくれるアプリがあるのに。今日のTimehopを見せてくれとも、それをFacebookに投稿してくれとも頼めません。HipChatやSlackのチャットルームに何か投稿してくれとも頼めません。Uberの車を呼んでくれとも頼めません。「最寄りの薬局はどこですか?」を中国語に翻訳してくれとも頼めません。他にもたくさん例を挙げられますが、大体こんな感じでしょう。
もしAppleがサードパーティ開発者にSiriを活用できるAPIを提供すれば、多くの人がそうするだろうと確信しています。そして、それを望んでいるのは私だけではありません。アンケートでは、95%の人が私の意見に賛同してくれました。
しかし、Siri の元の開発者たちは、さらに一歩進んだものを望んでいたことが判明しました...
Siriに単にサードパーティ製アプリを呼び出してタスクを実行するように指示するのではなく、仲介者を省き、基盤となるサービス自体と直接連携させたいと考えました。例えば、オフィスに6人分の車が欲しいとSiriに伝えると、SiriはUberのサーバーに直接連絡して予約を行います。チームの目標は「モバイルコマースそのものを改革すること」でした。
何らかの理由でAppleはこれに反対した。Siriを買収した際、Appleは開発チームに対し、当初Siriに統合されていたサードパーティ製アプリ(合計約45個)のサポートをすべて削除し、それらなしでリリースするよう指示した。それ以来、開発チームは、Siriに対する自らの野心と、Appleが導入を許可したはるかに控えめな機能との間の溝が深まっていくことに、ますます苛立ちを募らせるようになった。
その結果、チームの3分の1がAppleを離れ、Siriではできなかったことをすべて実行できる全く新しいインテリジェントアシスタント、Vivの開発に着手しました。昨日、その成果を初めてお見せしましたが、驚くほど素晴らしい出来栄えです。まだ動画をご覧になっていない方は、ぜひご覧になることをお勧めします。
VivとSiriの最大の違いは、Siriのクエリと応答がすべてハードコードされていることです。誰かが腰を据えて、Siriに尋ねられそうなあらゆる質問と、使われる可能性のあるあらゆる言い回しを考え、それぞれに応答を用意しなければなりませんでした。
確かに、Siri は、同じ質問に対して複数の応答を返すことが多いため、ロボットらしさが少なく人間らしい感じがするので、それよりも少し賢い印象を与えますが、本質的には、質問と応答の単純なデータベースです。
もちろん、これらの回答の中には変数を含むものもあります。Siriに「今夜ロンドンで傘が必要か?」と尋ねると(ちなみに、必要になります)、Siriは天気データベースに問い合わせて答えを決定します。しかし、その仕組みには比較的限られた知能しか含まれていません。だからこそ、Siriの共同創設者であるダグ・キットラウス氏とアダム・チェイヤー氏は、AppleのSiriの実装を「賢いAIチャットボット」と軽蔑的に表現しているのです。
Viv のやっていることは、はるかに洗練されています。
Vivはまず、リクエストの意図を推測しようとします。クエリの様々な要素を解析し、理解できる形にまで絞り込みます。例えば、動画内の複雑な例では、キットラウスはVivに「明後日の午後5時以降、ゴールデンゲートブリッジ付近の気温は華氏70度(摂氏約21度)以上になりますか?」と尋ねています。
Siriで試してみたところ、私の質問に対するウェブ検索しかできませんでした。一方、Vivはクエリを構成要素に分解しました。「70度以上」が天気に関する質問だと認識し、「ゴールデンゲートブリッジ付近」を場所として特定できました。「明後日」が(クエリが行われた時点で)5月11日であることも認識しました。さらに、特定の時刻が指定されたということは、1時間ごとの天気予報が必要であることも認識しました。非常に迅速に質問に答えてくれました。
しかし、Vivが驚くべき点は、その答え方です 。データベースを参照するのではなく、Vivはコードを生成します。そのコードこそが、質問に答える能力を持つソフトウェアなのです。そして、クエリの解析、コードの記述、実行、そして答えの提示まで、VivはこれらすべてをSiriと同じくらい速く実行します。
もちろん、キットラウスはヴィヴが答えられる質問と答えられない質問を知っていましたが、デモ全体がライブで行われたという確信は十分にありました。録音された回答は一切ありませんでした。
キットラウス氏と彼のチームは、この取り組みにしばらく前から取り組んできました。Wired 誌は2014年にこの件について事前に知らされていました。
Vivは、プログラマーを必要とせず、独自のコードをリアルタイムで生成することで、こうした制約を打破します。「シャックが座れる座席のあるダラス行きのフライトをください」といった複雑なコマンドを入力すると、Vivは文を解析し、最高の技を繰り出します。それは、サードパーティの情報源(例えばKayak、SeatGuru、NBAメディアガイドなど)をリンクする高速で効率的なプログラムを自動生成し、足元に余裕のある利用可能なフライトを特定することです。しかも、これらすべてを一瞬で実行できます。
当時、本当にインテリジェントなアシスタントの究極の目標についての半ば冗談めいた例を読んだことを覚えています。
キットラウス氏によると、最終的には、ユーザーが何かを頼む前にそれを理解するデジタルアシスタントが実現するだろうという。彼が思い描いているのは、午前2時に居酒屋の外で、ふらふらと携帯電話を口に当てながら「酔っ払ってる」と言っている人を想像する。Vivは何も言わずに、ユーザーが希望する配車サービスに連絡し、半分意識を失っている住所まで配車し、ドライバーに自宅まで送るよう指示する。それ以上の意識は必要ない。
この例は面白いですが、真に パーソナルなインテリジェントアシスタントがどう機能すべきかを力強く示しています。私たちの現在地、居住地、普段利用しているカーサービスといった情報と、私たちが知っている情報をシームレスかつ容易に組み合わせ、最小限の指示だけでタスクを実行します。
これはまた、私が以前の記事で想定したタイプのトップレベルのタスクが、非常に実現可能であると思われることを意味します。
Hey Siri、来週サムとランチの約束をして
作業中 – すぐに戻ります…
わかりました。来週の水曜日の午後1時にクラパムパークのビストロユニオンでサムとランチをします。
それは、私について知っていること、サムについて知っていること、そしてサムのカレンダーへの(許可を得た)アクセス(忙しい/空き時間および場所のレベルで)を使用して、そうでなければ私たち 2 人が 10 分かけて提案と逆提案をするはずだったすべての詳細を把握することです。
Appleがなぜこのような権限を拒否したのか、私には理解できません。おそらくAppleのコントロールへの執着なのでしょう。クエリと応答のデータベースを使えば、Siriの発言と行動の全てを完全にコントロールできます。Vivのオープンエンドな「その場で解決する」アプローチは予測しにくく、Appleの観点からすればリスクが高すぎるのかもしれません。
しかし、一つだけ分かっていることは、これまで私が Siri に忠実であったとしても、もし Viv が本当に期待通りのものであれば、iPhone で利用できるようになった瞬間に、Siri は歴史のものになるだろうということです。
あなたはどう思いますか?アンケートにご協力いただき、ぜひご意見をお聞かせください。特に、Viv にどのような問い合わせに対応してほしいか、具体的な例を挙げてコメント欄で教えてください。
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。