話しかけると声で答えるボイスエージェントアプリ・音声アシスト。その音声アシストでは、雑談bot機能が3月にリリースされました。AI(人工知能)を用いたこの機能は、どのように開発されているのでしょうか......?
そこでYahoo!検索ガイドでは、音声アシストの応答を考える「シナリオライター」が音声アシストの舞台裏を描いた「雑談bot機能開発ストーリー」を全3回で掲載します。
第1回に続き、今回は第2回をお届けします。
Yahoo! JAPANが"オープンコラボレーション"をコンセプトに、紀尾井町オフィス内に作った国内最大級のコワーキングスペース"LODGE"。
Yahoo! JAPANには、ビッグデータとそれを生かすための研究所がある――。
僕はYahoo! JAPANに入社してすぐ社員食堂"BASE"で、丹羽から対話技術のスペシャリスト・菅原を紹介された。音声アシストの"雑談bot"機能を高めるためにも作り手側の人間同士の雑談コミュニケーションは重要だ。僕は二人との距離を詰めるため、ランチタイムに自分との共通項を探そうとした。すると、丹羽は"水曜どうでしょう"のファン、菅原は出身大学が同じだとわかった。
Yahoo! JAPANの社内には先端技術をユーザー視点、世の中視点でイノベーションにつなげていく"Yahoo! JAPAN研究所"がある。いま注目を集める先端分野、ディープラーニング(深層学習)言語処理応用の研究開発や実サービスへの導入支援を行う人材も豊富だ。
菅原はこの研究チームと協力しながら、"雑談bot"PJ(プロジェクト)を主導していた。新卒五年目でエンジニアリーダーを任されている。静岡出身で、大学・大学院での専攻は自然言語処理だ。IT知識の浅い僕への説明でも、とても言葉遣いが丁寧で、注意深く耳を傾けても静岡弁は出てこない。ただ、時おり、控えめに冗談を言って、控えめに自分で笑う。
エンジニアとして新卒でYahoo! JAPANに入社した丹羽(左奥)と菅原(右)。どちらも、大学院まで"自然言語処理"を専攻した言語のスペシャリストだ。
「これまで、発話分析、判定におけるシステム上、意図違いのマッチングなど精度の問題があったんです。また、リソースの問題もあって、雑談用の応答がそこまで整備されていなかったために、カバレッジ(網羅性)でも問題があった。それをいかにして効率よく上げるかが、僕たち技術チームの課題でした」
菅原は当初、コミュニケーションネットワークの研究データを効率よく活用できないかと考えて機械学習のプログラムを作成し、さまざまな検証を行った。例えば、「おはよう」という発話に対する応答として、「おはようございます」から「オッハー」、絵文字までさまざまな応答サンプルが生成された。僕はその応答データをサービスに実装できるかという視点でチェックをしたが、言葉遣いなどを考えるとトーン&マナーがかなりかけ離れていた。
「文体や語調が複雑な日本語の自然言語処理特有の難しさもありましたね......。そこで研究所のメンバーで話し合い、現状5000発話ぐらいの応答サンプルがあるので、その10倍、5万件くらいの発話のバリエーションを一定の質を担保させて返せるようにするなら、クラウドソーシングでやった方が効率的だという結論になりました」
東京ガーデンテラス紀尾井町17階のコワーキングスペース"LODGE"内にある"BASE17"や"CAMP17"は平日に飲食を提供していて、社外の人でも利用できる。
"Yahoo!クラウドソーシング"には、すごいエージェントがいた――。
"Yahoo!クラウドソーシング"は、企業の課題「タスク」を、30万人を超える登録ユーザーの力を借りて解決するサービスだ。ユーザーには、謝礼としてTポイントが支払われる仕組みになっている。つまり、自社のサービスと課題を手前味噌(てまえみそ)的にやれるのだ。
僕は菅原と何度も打ち合わせを行いながら、それまでの発話データや応答の傾向などを分類し、ユーザーが答えやすいように、かつこちらが求めている応答を返してもらえるように細かいガイドラインを作成して依頼を出した。
《ボイスエージェントアプリになりきって、次の応答に答えてください。》
納期が早いのも特徴だ。1000発話、2000発話と数を増やしていき、問題を発見すれば修正するチューニングを繰り返し、最終的に5万発話の応答をユーザーに考えてもらった。発話は実際のログをもとにしているため、意味をなさないものも多く、答える側には難易度が高いはずだ。だが、期待を超えるすばらしい回答をしてくれるユーザーが多かった。
"Yahoo!クラウドソーシング"はタスク実施総数が、3000万件を超える。スキル不要の簡単なタスクから、開発を依頼するものまで、多種多様だ。
例えば、「恋ってうまくいかないね」という発話に対して、「さまざまな気持ちを抱くことで経験が豊富になっていくのでしょうね」というような応答があり、僕は唸(うな)らされた。きっと、人生経験が豊富で感情の豊かな方が貴重な時間を使って、回答してくれたのだろう。恋がうまくいかない人を想像しながら真摯(しんし)に応答を考えてくれているクラウドユーザーの姿を想像すると、心の琴線を揺さぶられた。そこに体温を感じたからだ。
それらの回答が直接ユーザーに対して応答されるわけではないが、どういう応答が正解に近いか、あるいはNGなのかを僕はYahoo! JAPANの八戸センターにいる編集メンバーにも協力してもらいながら5万件ものデータを精査し、菅原にフィードバックを行った。
菅原はそれをもとに、多層構造のニューラルネットワーク(神経回路網)を用いてプログラムに学習させていった。プログラムが"人間のように「気づき」を得るしくみ"、それこそが、ディープラーニングだ。近年、盛んなこの研究によって、AIを取り巻くテクノロジーに革命的な変化がもたらされた。実際、音声アシストでもデモ機の応答はどんどん精度が上がっていった(あくまでも、以前の応答に比べての話だが......)。
ただ、海外でAIを搭載したとあるロボットが暴走した事例がある。ユーザーが悪意を持って機械学習を繰り返した結果、差別的発言を繰り返すレイシストに変貌し、閉鎖に追い込まれたのだ。丹羽の「同じ轍(てつ)を踏むわけにはいかない」という言葉を受け、僕は意地悪な発話を繰り返し、問題のある応答をさせないようプログラムを学習させていった。
「しかし、そうは言っても、ディープラーニングは人手で全てを制御することはできないんです。極力リスクを排除した上で、万全の体制を整えましょう」
Yahoo! JAPANのユーザーと最前線で対峙(たいじ)するカスタマーサポート。その重要な業務を担当する部署は大分にある。不測の事態に対応できるよう、丹羽は事前に関係者を集めてテレビ会議で情報共有も行った。先端技術とデバイスを活用した地方拠点との連携がYahoo! JAPANの強みでもある。音声アシストサービスにおける革命前夜、緊張は高まっていた......。
(次回「音声アシスト×AI(人工知能)―未来を作る男編―」に、つづく)