オイシックス・ラ・大地のデータチームです。 2020/8/23-27に行われた、機械学習・データ活用の国際会議であるKDDに参加しました。
KDD概要
KDD(Knowledge Discovery and Data Mining)は機械学習/データマイニング系の国際会議です。プログラムの構成としては、学術研究よりのResearchトラック、各種実業務への応用よりのADS(Applied Data Science)トラックに加え、課題の精度を競うKDDカップなどがあります。データチームで昨年参加したSIGIRが情報検索を主とした国際会議であるのに対し、KDDはより幅広い分野への応用が発表されています。 creators.oisix.co.jp
今回はサンディエゴで開催される予定で楽しみにしていたのですが、コロナウィルスの影響を受け、オンライン開催となりました。Streamingや録画でセッションを聴講し、チャットで質問を投稿するという形式でした。日本との時差が19時間があり、全てリアルタイムで参加するのが厳しかったため、気になったセッションを録画で見直すことができたのはありがたいことでした。
論文紹介
数多くのセッションがある中で、E-commerce, Recomendをメインに参加しました。興味深かった物をいくつか紹介します。
CLARA: Confidence of Labels and Raters
概要
オペレータによる手動ラベリング等のタスクで生じる - 曖昧なガイドライン - 個人のバイアス - 純粋なミス といった要因による不確実性の推定を行う手法を提案しています。
特徴
オペレータ(レビュワー)がラベリング作業を行う際の生成モデルを考えて、レビュワーのバイアス混同行列(レビュワーiがラベルjについて正しくラベリングを行う確率が格納された行列)等のパラメータを更新していくことで最終的なラベリング結果の不確実性を推定しています。
活用案
レビューを元にした商品タグの付与等の作業時に、適切なオペレータ数を選択する際に活用することが出来るのではないかと思います (オペレータが少ないと不確実性が高くなってしまい多すぎると運用コストが高くなってしまうため)。
MAMO: Memory-Augmented Meta-Optimization for Cold-start Recommendation
概要
レコメンドモデルに対するコールドスタート問題 (新しいユーザ/商品 は前情報が無いため何をレコメンドすればよいか分からない) を解決するレコメンドモデルの提案をしています。
特徴
コールドスタート問題に対する解決策として全体最適を行ったパラメータを初期値として使用する事が考えられます。 MAMOではページ閲覧情報等の新しい顧客からすぐ取得できる情報を元にバイアスベクトル(下図中赤枠)を生成し、 ユーザに最適化されたパラメータの初期値を与えることができます。
これにより、年齢や職業といった情報を元にレコメンドモデルを初期化するのに比べてよりユーザ独自の嗜好に合ったレコメンドを行うことができます。
活用案
Oisixでは、サブスクリプション型のサービスという特性上、購買情報が蓄積される頻度が週に1度程となっており、購買情報を元にしたレコメンドが出来るようになるまで時間が必要です。MAMOを用いることで、お客様のサービス利用開始直後から高精度なレコメンドを行うことができるのではないかと思います。
Octet: Online Catalog Taxonomy Enrichment with Self-Supervision
概要
コーヒーAは"食料品->飲料->カフェインを含む"に分類されるといったタクソノミーを高精度で構築する手法を提案しています。
特徴
ユーザ検索語句と、その後閲覧した商品等の情報を用いるため、手動オペレーションなしタクソノミーを構築することが出来ます。 また、ユーザの検索語句を元にカテゴリ名を抽出することにより、よりユーザ指向なタクソノミーの構築が可能となっています。
活用案
商品カテゴリタクソノミーの構築にOctetを用いる事により、より直感的にお客様が商品を探す事が可能になると思います。 また、これまでは"その他"に分類していた変わり種商品等に適切なカテゴリを割り振ることが可能になると思います。
Calendar Graph Neural Networks for Modeling Time Structures in Spatiotemporal User Behaviors
概要
ニュースサイトのユーザーの性別、年齢、収入情報などの推定を行うため、行動ログとカレンダーから取得した周期性情報をもとに、グラフニューラルネットを用いたユーザーの行動のモデリングを実施しています。
特徴
これまでの手法では、ユーザーの行動の長期的なトレンドなど、連続的な変化は扱うことができていましたが、周期的な動きをうまく扱うことができていませんでした。例えばあるユーザーは平日の朝はスタバでニュースをみるが、夜は家でニュースをみる、などの、場所、時間の周期的な動きがありますが、時間毎、日毎、平日/休日など様々なパターンがあり、一律のパターンとして取り扱うことは難しいです。
この論文では、閲覧・クリックなどのサイトでのアクション、セッションの時間、場所といったユーザーの行動情報と、時間ごと、週ごとのパターンなどのカレンダー情報を用いた、カレンダーグラフニューラルネットを提案しています。
2018年1月にニュースサイトを利用した約10000ユーザーに対して、年齢、性別、年収の推定を行ったところ、従来の手法よりよいパフォーマンスが得られました。
活用案
Oisixではより良いサービスを作るため、お客様を理解することをとても重視しております。 毎週お買い物していただくという定期宅配の特徴を活かし、購買履歴や行動ログなどの情報から、家族構成や食生活のスタイルなどのお客様理解を深めることに活用したいです。
Order Fulfillment Cycle Time Estimation for On-Demand Food Delivery
概要
中国のフードデリバリーサービスEle.meの配達時間(Order Fulfillment Cycle Time (OFCT))の予測です。配達先とピックアップするレストランの場所、レストランでの調理時間、配達者の状況などの様々な情報を用いたディープニューラルネットによって予測を行っています。
特徴
配達時間予測は、注文を受けてから配達者がレストランに到着してピックアップするまでの時間と、レストランから目的地まで配送する時間からなります。そのため、レストランの特徴や料理の準備時間、配達者の状況(他の配達を行っている途中かどうか)などの複数の要因によって大きく影響されます。また、お客様の注文が確定する前に配達時間を予測して表示する必要があるため、情報が未確定な状況で予測する必要があります。
以下の情報を特徴量として用いてディープニューラルネットのモデルを構成しています。
- 注文の場所や時間、注文の量
- GPS, Wifi, Bluetoothなどのセンサーから得られた位置情報
- BERTによって分類した料理のカテゴリ
- 調理時間
- お客様の需要
- 配達者の状況
- 気象状況
直接取得できない情報もありますが、使える情報を用いてなんとか特徴量を作って対処しています。例えば調理時間は各店舗で記録していないため、実際に調理かかった時間は分からないですが、レストランへの到着時間や出発時間などから調理時間を推測しています。
Ele.meの過去の配達履歴を用いたオフラインテスト、及びオンラインでのABテストを行った結果、既存のモデルと比べて予測精度が改善しました。
活用案
Oisixでは宅配便でお客様にお届けを行っており、再配達を減らすことを目指しています。到着時間のさらなる精緻な予測を行い、お客様にお伝えすることで、再配達を減らすことができるのではないかと考えます。
Learning to Cluster Documents into Workspaces Using Large Scale Activity Logs
概要
Google Driveで利用するドキュメントを探す際、関連性の高い物でクラスタリングし、「ワークスペース」という形でユーザーに提案します。ドキュメントの内容だけでなく、同時に作業していたという情報を用いて、ワークスペースの提案の精度を高めています。
特徴
ワークスペースの提案は主に以下の流れで行われます。
- 直近アクセスされたドキュメントからワークスペースにいれる対象を選択
- ドキュメントのクラスタリングを行いワークスペースを作成
- 表示順序のランキング
クラスタリングの部分に重点をおいて記載します。
ワークスペースの提案は、ドキュメントの内容が近いものでまとめるより、ある作業を行った時に同時に利用していたドキュメントを提案する方がよいことがわかっています。異なる2つドキュメントにアクセスする時間を調査した結果、2分以内が同時作業となる可能性が高いことがわかりました。
特徴量として以下を利用し、ワークスペース提案を行っています。
- 上記の同時にアクセスしたという情報
- ドキュメントのタイトル
- ドキュメントの形式
Google Driveでのオフライン/オンラインの評価で、同時にアクセスしたという情報を利用した方が、より精度が高い結果が得られました。
活用案
Oisixでのお客様のお買い物は、定番の買い物、あるメニュー用を作るためにまとめ買いしたもの、送料をお得にするために買い足したものなど、様々な目的での行動があります。一つ一つの購入商品を見ているだけではどの目的か分からないものも、カートにいれるタイミングを詳しく扱うことにより、よりお客様理解を深められるのではないかと思いました。
最後に
実務応用のADS(Applied Data Science)を中心に参加したこともありますが、実務で発生する具体的な問題に対して、高度な先進技術から人間ラベリングなどの手作業に至るまで、各社の様々な努力が見れて興味深かったです。我々もサービス向上のために、様々な問題を解決していこうと改めて感じました。