概要
WEBマガジンアプリは、多種多様な雑誌コンテンツを提供しており、アクセスした雑誌を基にある程度のユーザー属性を推定できるが、雑誌のページごとの滞在ログまで使ったユーザーの好みのトピック推定は困難です。
雑誌画像データからOCRでテキストを抽出・トピック分析をし、閲覧ログと合わせることで、ユーザーがどのようなトピックを好むかの属性をさらに深く推定するアルゴリズムを開発します。
課題ポイントや発展の可能性
- 雑誌タイトルやカテゴリだけでは、ユーザー属性の推定には粒度が大きすぎる
- 雑誌コンテンツが画像データとして提供されており、テキスト情報の抽出が困難
- ページレベルでユーザーの好みが特定できれば、よりピンポイントなパーソナライズが提供可能
実施内容と成果物のイメージ
- 高精度なOCR技術の開発や適用によるテキスト情報の抽出するアーキテクチャの設計・開発
- 抽出されたテキストデータを基に、トピック分析を行い各コンテンツのトピックを推定
- 行動ログと合わせて分析してユーザーの好みのトピックを推定し、パーソナライゼーションなどに活用