Laboratorio della piattaforma H2O
di Hassan Namarvar, Principal Data Scientist
Il team di ingegneri si è ShareThis riunito mercoledì per un incontro pratico di H2O laboratorio. Durante il workshop ho presentato l'open source H2O piattaforma per l'apprendimento automatico e l'analisi predittiva. Questo è stato prezioso perché il team è ora in grado di farlo:
1) Familiarizzare con le caratteristiche importanti dell'H2O piattaforma rispetto ad altri strumenti di apprendimento a macchina open source.
2) Scaricare la versione bleeding edge della piattaforma, installarla sulla propria macchina locale e utilizzare la piattaforma Web API per caricare un grande set di dati e investigare i dati.
3) Costruire un modello CPA (costo per azione) utilizzando il GLM (modello lineare generalizzato) sul set di dati reali di una ShareThis campagna.
4) Convalidare il modello sul set di prova e interpretare i risultati.
5) Costruire modelli più avanzati come GBM (gradient boost models), Big Data Random Forests e confrontare le prestazioni di questi modelli utilizzando il modulo multi-modelling scores module.
6) Discutere i risultati superiori dell'esatto modello GLM utilizzato per la produzione e A/B testato su una campagna effettiva per gli ultimi due mesi.
Nel complesso, il team è stato in grado di riprodurre modelli di ottimizzazione della pubblicità online altamente avanzati in meno di un'ora! Senza utilizzare l'H2O l'intero processo end-to-end avrebbe potuto richiedere mesi anche per uno scienziato esperto di dati.