Workshop Plataforma H2O
por Hassan Namarvar, Cientista de Dados Principal
A equipe de engenharia do ShareThis reuniu-se na quarta-feira para uma sessão prática de H2O workshop. Durante o workshop, eu apresentei o código aberto mais rápido do mundo H2O plataforma para aprendizagem de máquinas e análise preditiva. Isto foi valioso porque a equipe agora é capaz de fazê-lo:
1) Familiarize-se com as características importantes do H2O plataforma versus outras ferramentas de aprendizagem de máquinas de código aberto.
2) Baixe a versão de borda sangrenta da plataforma, instale-a em sua própria máquina local e use a plataforma Web API para carregar um grande conjunto de dados e investigar dados.
3) Construir um modelo CPA (custo por ação) usando o GLM (modelo linear generalizado) em um conjunto de dados reais desta campanha.
4) Validar o modelo no conjunto de teste e interpretar os resultados.
5) Construir modelos mais avançados, tais como GBMs (modelos de reforço de gradiente), Big Data Random Forests e comparar o desempenho desses modelos usando o módulo de pontuação multi-modelagem.
6) Discutir resultados superiores do modelo GLM exato implantado na produção e A/B testado em uma campanha real nos últimos dois meses.
Em geral, a equipe foi capaz de reproduzir modelos altamente avançados de otimização de publicidade online em menos de uma hora! Sem utilizar o H2O plataforma todo o processo de ponta a ponta poderia ter levado meses até mesmo para um sábio cientista de dados.