by Hassan Namarvar, Principal Data Scientist
ShareThis のエンジニアリングチームは、水曜日に集まって、ハンズオンH2Oワークショップを開催しました。ワークショップでは、世界最速のインメモリーオープンソースであるH2機械学習と予測分析のためのOプラットフォームです。ることができるようになったため、貴重なものとなりました。
1) Hの重要な機能を知る2Oプラットフォームと他のオープンソース機械学習ツールとの比較。
2)最先端のプラットフォームをダウンロードし、自分のローカルマシンにインストールし、プラットフォームのWeb APIを使って大規模なデータセットをアップロードし、データを調査する。
3)ShareThis キャンペーンの実際のデータセットに対して、GLM(一般化線形モデル)を用いてCPA(Cost Per Action)モデルを構築する。
4) テストセットでモデルを検証し、結果を解釈する。
5) GBM (gradient boost model) や Big Data Random Forests などのより高度なモデルを構築し、マルチモデリングスコアモジュールを使用してこれらのモデルのパフォーマンスを比較する。
6) 本番環境に展開された正確なGLMモデルと、過去2ヶ月間の実際のキャンペーンで行われたA/Bテストの優れた結果について説明してください。
その結果、高度なオンライン広告の最適化モデルを1時間足らずで再構築することができたのです。Hを使わずに2Oプラットフォームのエンド・ツー・エンドのプロセスは、熟練したデータサイエンティストでも数ヶ月かかることがありました。