Geschäftsreisen-App Navan schafft täglich 100 Deployments

Company Size
~3.000

Seit seinen Anfängen als Start-up ist Navan zu einer globalen Komplettlösung für internationales Reise- und Spesenmanagement herangewachsen und arbeitet mit einigen der größten Marken in Technologie und Einzelhandel zusammen. Im Laufe der Zeit sammelten sich im Engineering-Team einige Monitoring-Tools an, die eine effektive Skalierung angesichts der Wachstumspläne bei Navan mehr und mehr behinderten. Mit New Relic konnte Navan eine konsolidierte Ansicht der gesamten Software und aller Daten schaffen, die jetzt den Engineers im Unternehmen als zentrale Informationsquelle dient.

Vom fehler- zum resultatorientierten Monitoring

Vor dem Umstieg auf New Relic wurde zum Infrastruktur- und Anwendungs-Monitoring bei Navan eine Reihe unterschiedlicher Tools eingesetzt. Wenn neuer Logging- oder Monitoring-Bedarf hinzukam, wurde oft auch ein neues Tool angeschafft. Mit zunehmendem Wachstum wurde es immer schwieriger, einzelne Vorfälle zielgenau zu diagnostizieren, ob lange Seitenladezeiten, Sicherheitsrisiken oder anderes. Um endlich alle Tools und Prozesse zu straffen, nahm Navan schließlich New Relic unter die Lupe.

„Das Monitoring war ziemlich fragmentiert, als ich bei Navan anfing“, erzählt Patrick Beckhelm, Director of Observability bei Navan. „Das hat uns einige Probleme bereitet, vor allem weil wir keinen klaren Einblick in Qualität oder Uptime hatten. Trotz mehrerer Observability-Tools wussten wir oft nicht so genau, was eigentlich in unseren Systemen vor sich geht. Hinzu kam, dass wir viel zu viele Loggingdaten hatten und uns deshalb schwertaten zu sehen, wann es sich tatsächlich um einen Fehler handelte und was die jeweilige Ursache sein könnte.“

Patrick begann, über resultatorientiertes Monitoring nachzudenken: War die Reisebuchung für Navan-Benutzer:innen unkompliziert? Wurden Suchvorgänge wie erwartet durchgeführt? „Diese Herangehensweise hat uns gezeigt, was wir im System verbessern mussten“, so Patrick.

„Die Konsolidierung auf New Relic hat uns echt geholfen. Sobald unsere Plattform instrumentiert war, konnten wir mit der Problemlösung loslegen. Unser Ziel war, dass wir uns nicht mehr an der Uptime orientieren müssen, denn aufgrund der umfassenden Transparenz soll eine Uptime von nahezu 100 % ohnehin gegeben sein. Als Team können wir uns jetzt auf strategische Aufgaben konzentrieren. New Relic hat dazu maßgeblich beigetragen.“ 

Mit New Relic rückte Observability bei Navan in den Fokus. Als Erstes wurden Alerts für Erfolgsmetriken wie eine fehlerlose Buchungserstellung eingerichtet. Als Nächstes wurden die vorhandenen Infrastrukturmetriken angepasst und zum Schluss die Anomalie-Alerts.

100 Deployments pro Tag

Dinge wie die Single Pane of Glass und die konsolidierten Observability-Tools bezeichnet Patrick als „Motoröl für das Engineering“.

New Relic als zentrales Observability-Tool für den gesamten Betrieb bietet den entscheidenden Vorteil, dass Teams selbst mehr Verantwortung für ihre Services übernehmen können. „Nun hatten wir Observability auf der Service-Ebene. Das gab uns den nötigen Anstoß, global auf CI/CD umzusteigen. So konnten wir schneller agieren, ohne etwas kaputt zu machen.“

Laut Patrick gibt es für Services, die zuvor einmal am Tag bereitgestellt wurden, jetzt mehrere Deployments täglich. „Die Teams müssen nicht mehr dauernd das Tool wechseln, sondern es ist alles an einem Ort und kann auch problemlos mit anderen geteilt werden“, so Patrick.

Monitoring in Echtzeit

Eines der Hauptziele des Observability-Teams bei Navan war die Festlegung von Leistungsindikatoren (KPIs) für Observability: Incidents sollten durch Monitoring anstatt durch Kundenbeschwerden ans Licht kommen. Patrick schätzt, dass vor der Einführung von New Relic etwa 20 % der Incidents in der Customer Journey durch Observability-Tools identifiziert wurden, während es jetzt fast 90 % sind.

Ein Fall ist Patrick besonders im Gedächtnis geblieben, bei dem sich New Relic direkt auf den Umsatz von Navan auswirkte: Die Dashboards von New Relic zeigten plötzlich niedrige Conversion-Raten für Benutzer:innen, die nach Flügen suchten. Als Ursache konnte schließlich eine unvollständige Flugliste eines Anbieters ermittelt werden. „Durch Alerts würde uns so etwas normalerweise gar nicht angezeigt werden“, sagt Patrick. „Aber da wir in der Lage waren, diesen Fehler in Echtzeit zu erkennen und zu beheben, konnten wir den Tagesumsatz doch noch retten.“

Chris Cholette, VP of Engineering and SRE bei Navan, stimmt zu, dass New Relic gerade beim Aufdecken solcher versteckter Probleme hilfreich ist. „Echtzeitdaten während des laufenden Betriebs sind für uns sehr wichtig“, so Chris. Selbst unser Kundenserviceteam und andere im Unternehmen, die vorher keinen Zugriff auf diese Metriken hatten, nutzen New Relic jetzt. Denn es zeigt ihnen, welche Folgen bestimmte technische Abläufe haben, auf die sie angewiesen sind. „Das hat ihnen mehr Handlungsspielraum bei ihren Kund:innen und bei der Zusammenarbeit mit uns gegeben“, erklärt Chris.

 

90 %
der Störungen in der Customer Journey proaktiv erkannt (zuvor 20 %)
100+
Deployments pro Tag (vor New Relic waren es zehn)
1
Monitoring-Tool anstelle einer Vielzahl an Tools