Unsere gesamte Datenleitung auf einem MacBook Pro

Von Andrew Backes, Software-Ingenieur (Datenpipeline)


Wir dachten, es wäre wirklich cool, wenn wir eine exakte Kopie unserer gesamten Datenleitung lokal betreiben könnten. Das würde uns eine ganze Reihe von Möglichkeiten eröffnen. Die, auf die wir am meisten gespannt waren: das Testen der Systemintegration, aber auf unseren Laptops. In den letzten Juniwochen haben wir (das Datenteam von ShareThis) genau daran gearbeitet.

Also, was bedeutet das genau? Im Moment läuft unsere Datenpipeline auf einem Cluster von etwa 30 Knoten. Es interagiert mit einem Cassandra-Cluster, einem Aerospike-Cluster, zwei Kafka-Clustern und einem Graphit/Seyren-Knoten. Das Ziel war es, all dies irgendwie auf einem einzigen Laptop laufen zu lassen. Außerdem wollten wir, dass die Pipeline tatsächlich Daten einliest und das Richtige am anderen Ende herauskommt.

Der erste Schritt war die Containerisierung unserer Anwendungen. Der knifflige Teil war, dass unsere Anwendungen nicht mit dieser Fähigkeit im Hinterkopf geschrieben wurden. Glücklicherweise haben wir bei der Entwicklung jedoch Abhängigkeitsinjektions- und Adaptermodelle verwendet. Dies hat sich als sehr hilfreich erwiesen, um die Dinge richtig zu verkabeln. Docker Composite half auch in dieser Hinsicht. Etwa eine Woche nachdem wir all dies in Betrieb genommen hatten, wurden die erweiterten Netzwerkfunktionen von Docker 1.7 vorgestellt. Diese neuen Funktionen hätten unsere Arbeit erheblich erleichtert.

Am Ende verwendeten wir 8 Docker-Container (die jeweils eine Amazon VPC-Gruppe repräsentieren) für unsere internen Anwendungen und einen einzelnen Docker-Container für jeden Cassandra, Aerospike, Kafka 7, Kafka 8 und Graphit. Da wir dies auf Mac betrieben, mussten wir auch die Menge an Speicher aufpumpen und der Festplattenspeicher war für boot2docker in der VM verfügbar. Es war ein freudiger Moment, als wir einige Daten vor die Pipeline gelegt haben, sie auf Graphit verfolgen konnten und sahen, wie die vollständig verarbeitete Version am anderen Ende heraussprang.

Über ShareThis

ShareThis erschließt seit 2007 die Macht des globalen digitalen Verhaltens durch die Synthese von Social Share-, Interessen- und Absichtsdaten. Auf der Grundlage des Verbraucherverhaltens auf mehr als drei Millionen globalen Domains beobachtet ShareThis Echtzeit-Aktionen von echten Menschen auf echten digitalen Zielen.

Abonnieren Sie unseren Newsletter

Erhalten Sie die neuesten Nachrichten, Tipps und Updates

Abonnieren

Verwandte Inhalte