Firmenportrait Karlsruher Institut für Technologie (KIT)

KIT Nagios

Migration des Monitoring Systems Nagios auf Icinga im Karlsruher Institut für Technologie

 

ÜBER DAS KIT

50 Jahre nach Gründung des Forschungszentrums Karlsruhe und 181 Jahre nach Gründung der Universität Karlsruhe haben sich die beiden Einrichtungen im Jahr 2006 gemeinsam in der Exzellenzinitiative des Bundes und der Länder durchgesetzt. Im Zentrum des erfolgreichen Antrags stand der in der deutschen Hochschul- und Forschungslandschaft einzigartige Zusammenschluss zum Karlsruher Institut für Technologie. Aus historischer Sicht ist diese Pionierleistung nur konsequent, blicken beide Einrichtungen doch auf eine lange Tradition zurück, die nicht nur inhaltliche, sondern auch formale Parallelen aufweist: Beide hatten bei ihrer Gründung Pioniercharakter.

GRIDKA

Der Large Hadron Collider (LHC) ist ein Teilchenbeschleuniger am europäischen Forschungszentrum für Nuklearforschung CERN. Er ist in einem 27 Kilometer langen Tunnel in einer Tiefe von 50 bis 175 Metern untergebracht. In gegenläufigen Bahnen werden Protonen und geladene Atomkerne mit hoher Geschwindigkeit beschleunigt und zur Kollision gebracht. Vier riesige unterirdische Detektoren, die den Experimenten ALICE, ATLAS, CMS und LHCb zugeordnet sind, zeichnen die Flugbahnen dieser Teilchen auf. Pro Jahr werden etwa 8.000.000.000.000.000 Byte (8 PetaByte = 8 Millionen Giga-Byte) an Daten erzeugt.

Hinzu kommen jährlich weitere 4 PetaByte an Simulationsdaten. Selbst bei optimistischen Prognosen über die Entwicklung von Prozessorleistungen und Speichersystemen ist ein einzelnes Rechenzentrum nicht in der Lage, für weltweit mehrere tausend Wissenschaftler ausreichend Kapazitäten zur Auswertung dieser Datenflut bereitzustellen. Aus diesem Grund wurde in mehreren Ländern jeweils ein regionales Rechenzentrum aufgebaut und über Hochgeschwindigkeitsleitungen vernetzt. Speziell entwickelte Grid-Software kümmert sich hierbei um die Daten- und Lastverteilung und eine einheitliche Sicht auf die angeschlossenen Ressourcen.

Deutsche Kern- und Elementarteilchenphysiker sind mit mehr als 40 Arbeitsgruppen an der Entwicklung und Auswertung der 4 LHC-Experimente sowie an 4 weiteren Hochenergiephysik-Experimenten beteiligt und haben das Karlsruher Institut für Technologie (KIT) als Standort für das deutsche Regionalrechenzentrum gewählt. Im Steinbuch Centre for Computing (SCC) wurde in den letzten Jahren das Grid Computing Centre Karlsruhe (GridKa) aufgebaut und betrieben.

AUSGANGSSITUATION

Das Karlsruher Institut für Technologie überwacht die High Performance Compute Node Infrastruktur des GridKa mit dem Open Source Monitoring Werkzeug Nagios. Die verteilte Nagiosinstallation besteht aus 60 Nagios-Monitoren und einem zentralen Nagios Dashboard. Insgesamt werden mit dieser Infrastruktur 2.000 Hosts mit insgesamt 20.000 Services überwacht. Trotz der großen Anzahl an Monitoringservern war die Leistungsfähigkeit des Monitoringsystems nicht mehr zufriedenstellend. Besonders dann, wenn gleichzeitig mehrere Alarmierungsaktionen anstanden, beispielsweise durch einen Ausfall eines ganzen Systemsegments, waren die Geschwindigkeitseinbußen und Reaktionszeiten der Monitoringoberfläche nicht mehr tragbar. Zusätzlich war die Komplexität des Systems und dessen Konfiguration aufgrund der Vielzahl der Monitoringinstanzen kaum noch zu überblicken.

DIE ANFORDERUNGEN

Folgende Anforderungen wurden durch die Mitarbeiter des KIT an die TechniData IT-Service GmbH gestellt:

  • Migration von Nagios auf Icinga
  • Verbesserung der Leistungsfähigkeit des Monitoringsystems
  • Verbesserung der Zuverlässigkeit
  • Integration der Monitoringoberfläche in das bestehende Active Directory für single sign on
  • Prüfung und Verbesserung des Systemdesigns
  • Beratung und Betreuung des Migrationsprozesses

FRISCHER WIND DURCH ICINGA

Icinga ist ein Open Source Monitoring System, das aus dem bekannten Nagios entstanden ist. Diese Verwandtschaft bietet zum einen Kompatibilität zu den bestehenden Monitoringverfahren und zum anderen den Vorteil, dass sowohl die eigenentwickelten Prüfmethoden des KIT sowie das vorhandene Know-how der Mitarbeiter in vollem Umfang weiter genutzt werden können. Darüber hinaus bringt Icinga in der Präsentation der Monitoringereignisse viele Neuerungen und Verbesserungen.

Zusätzlich zum neuen Produkt Icinga wurde die verteilte Überwachung grundlegend überarbeitet. Der klassische Nagios Distributed Monitoring Ansatz, der auf der NSCA (Nagios Service Check Acceptor) Technologie und doppelt geführten Host- bzw. Servicecheckdefinitionen zur Realisierung eines zentralen Dashboards basiert, wurde abgeschafft. An dessen Stelle tritt nun die von TechniData IT-Service GmbH vorgeschlagene hochperformante Gearman /mod_Gearman Kombination. Bei dieser Architektur werden alle Monitoringaufgaben in aufgabenbezogene Warteschleifen auf einem Gearman Message Server übergeben. Für diese Warteschleifen werden dann Worker definiert, die die anstehenden Aufgaben abarbeiten und das Ergebnis in einer Ergebniswarteschleife ablegen. Diese Ergebnisse werden vom Icinga-Kern wieder aus der Warteschleife entnommen und für die Anzeige in der Monitoringoberfläche verarbeitet.

AUSWIRKUNGEN

Die Anzahl der Monitoringserver konnte von 60 Überwachungsknoten und einem Masterknoten reduziert werden auf einen Masterknoten und noch drei Workermaschinen. Die Performance ist: Zitat – Axel Jäger (KIT):
„Um Welten, … nein Galaxien besser“, da zusätzlich zur Standortverteilung des Monitorings automatisch auch die Lastverteilung erfolgt. Zusätzlich führt der aufgabenverteilende Icinga-Master im Gegensatz zur alten Architektur selbst keine Überwachungsprozesse mehr aus und wird dadurch zusätzlich entlastet. Weiterhin kann die Konfiguration des gesamten Monitoringsystems durch die Architekturverbesserung an einer zentralen Stelle gepflegt werden und muss nicht mehr an 60 Knoten verteilt werden.

Icinga Web findet durch das neue Webdesign und die klarer strukturierten Informationen aus dem Monitoringsystem bedeutend mehr Benutzerzuspruch. Auch die Integration in den Verzeichnisdienst des KIT und das damit verbundene Anmelden mit den gewohnten Anmeldedaten trägt erheblich dazu bei.

KUNDENSTIMME

Axel Jäger (KIT)
„Wie bekommen wir es hin, möglichst unterbrechungsfrei 60 Monitoringknoten mit 2.000 Hosts und 20.000 Services ohne Datenverlust bei gleichbleibender Monitoringabdeckung von Nagios auf Icinga zu migrieren, gleichzeitig dabei die Skalierbarkeit zu erhöhen, die Lastprobleme zu beseitigen und die Konfiguration zu vereinfachen?“