堀江貴文氏は、 株式会社イライザ代表取締役CEO・曽根岡侑也氏から、現段階でのAIの自然言語処理レベルや応用事例、今後の展望について話を聞いた。
日本語特化AIエンジン「ELYZA」の活躍の場とは?
曽根岡 BERT(2018年10月にできたAIによる自然言語処理の技術)の技術を使ったAIエンジンは“話す”“読む”“書く”ことができますし、読むという作業の中でも“文章を読んで評価する”ことや“文章から情報を抽出する”こともできます。さらに“読む”と“書く”が合わさった“翻訳”や“要約”も可能です。
堀江 要約って、具体的にはどんなことをやっているんですか?
曽根岡 例えば、損害保険大手の「SOMPOホールディングス」さんと一緒にお仕事をしておりまして、コールセンターでは「お客様とお話しした内容を要約して書いて保管しておく」という業務があるんですが、これをAIに置き換えるという作業をしています。
堀江 お客さんと話した内容を文章にまとめる作業は大変ですもんね。
曽根岡 そうですね。こちらにELYZAの要約の見本がありまして……。
堀江 「イライザブライダルのイライザ太郎(オペレーター)がハワイでの結婚式の見積もりを提示した。新郎新婦の飛行機代は含まれているが、その他の方のホテル代は含まれていない。イライザ花子(お客様)と今後の方針方向性については、お打ち合わせをする予定だという」……なるほどね。
曽根岡 音声認識後のテキスト(AIによる会話の文字起こし)には、「あのー」とか「えーと」などのフィラー(言い淀み)と呼ばれるものがあったり、「くればしながら」とか「ごひょうまんえん」など、よくわからない単語が出てくるんですけれども、それでもこれくらいのクオリティにまとめることができます。
堀江 コールセンターとしては「これくらいの要約ができたらもういいよね」という感じなんですか。
曽根岡 正直に申し上げますと、会話の要約はまだ発展途上ですので、もう少し精度を上げようとしているところです。
堀江 僕はこれくらいのクオリティでも十分だと思いますけどね。
曽根岡 ありがとうございます。SOMPOホールディングスさんは、毎日1万人以上のオペレーターさんがお客様と会話をしていて、数十万件の人間が書いたデータがあるそうです。ですから、その会話の音声と要約のデータを使って、人間並の要約制度にするというのが今、SOMPOホールディングスさんと一緒に進めているプロジェクトです。
堀江 精度はどうやって上げていくんですか。
曽根岡 ひとつは自然言語処理のモデル(パラメータ数)のサイズを大きくしていくこと。
堀江 ネズミの脳から人間の脳に変えるみたいなものですね。
曽根岡 はい。もうひとつは、コールセンターの会話のデータをできるだけきれいな状態にする。
堀江 “きれいな状態”っていうのは?
曽根岡 データは汚れていることがありまして……。
堀江 汚れているというのは「ごひょうまんえん」みたいなやつですか。
曽根岡 それもあるんですが、オペレーターさんがオペレーションで忙しくて、記入や要約を間違えてしまうことがあるんです。その間違った文章を教師データにすると精度は悪くなってしまいます。
堀江 だから、それを誰かがきれいにする作業が必要になってくると。
曽根岡 そうです。他にも人間ではなく機械学習的にきれいにする方法もあります。音声認識後のテキストとELYZAの要約があまりにも違っていれば、それは間違っている可能性が高いということで教師データから外していくという方法です。
堀江 それで数十万件のきれいな教師データを作る。
曽根岡 はい。あと、これは小さなことかもしれませんが、会話って途中でトピックスが変わることがあるんですよ。例えば、コールセンターだと最初にAについて聞いていたのに、「そういえばBについても聞きたいんですけど……」という話になって、またAに戻るみたいな。ですから、「テキストをトピックスごとに分割して要約する」というフローをやっているところです。
この続きは『WISS』で全文ご覧いただけます。購読はコチラ
曽根岡侑也
株式会社イライザ代表取締役CEO。1990年、東京都生まれ。2013年に東京大学工学部卒業し、2017年、東京大学大学院工学系研究科修士課程修了。2018年に「株式会社イライザ」を設立。2020年には、株式会社松尾研究所取締役に就任。