Atelier plate-forme H2O
par Hassan Namarvar, principal scientifique des données
L'équipe d'ingénieurs s'est ShareThisréunie mercredi pour une réunion pratique sur le H2O atelier. Au cours de l'atelier, j'ai présenté le plus rapide du monde en mémoire Open source H2O plate-forme pour l'apprentissage automatique et l'analyse prédictive. Cela a été utile parce que l'équipe est maintenant en mesure de:
1) Familiarisez-vous avec les caractéristiques importantes du H2O plate-forme par rapport à d'autres outils open source d'apprentissage des machines.
2) Téléchargez la version de bord de saignement de la plate-forme, installez-la sur leur propre machine locale et employez l'API de Web de plate-forme pour télécharger un grand DataSet et pour étudier des données.
3) Construire un modèle CPA (coût par action) en utilisant le GLM (modèle linéaire généralisé) sur le jeu de données réel d'une ShareThiscampagne.
4) valider le modèle sur le jeu d'essai et interpréter les résultats.
5) construire des modèles plus avancés tels que GBMs (gradient Boost modèles), de grandes données des forêts aléatoires et de comparer les performances de ces modèles en utilisant le module multi-modélisation scores.
6) discuter des résultats supérieurs du modèle exact GLM déployé à la production et A/B testé sur une campagne réelle pour les deux derniers mois.
Dans l'ensemble, l'équipe a été en mesure de re-produire des modèles d'optimisation de publicité en ligne très avancé en moins d'une heure! Sans utiliser le H2O plate-forme tout le processus de bout en bout aurait pu prendre des mois, même pour un scientifique de données avertis.