Ein Quantensprung für das Hochleistungsrechnen

Im August 2021 wurde der Verein für Nationales Hochleistungsrechnen (NHR) gegründet. Dieser war in der Entstehungsphase im DFN-Verein angesiedelt. Welche Fortschritte bisher erzielt wurden und welche Herausforderungen es derzeit im Hochleistungsrechnen gibt, erzählt Prof. Dr. Thomas Kühne, Gründungsdirektor des Center for Advanced Systems Understanding (CASUS) und Sprecher des NHR-Nutzungsausschusses.

26.02.2024

Prof. Dr. Thomas Kühne | Foto: Antje Kraemer Photography

Prof. Dr. Thomas Kühne | Foto: Antje Kraemer Photography

Vor zweieinhalb Jahren erst wurde der Verein für Nationales Hochleistungsrechnen aus der Taufe gehoben. Wo steht er heute?

Der NHR-Verein war mit dem Ziel gestartet, allen Forschenden deutschlandweit einen einheitlichen, einfachen und fairen Zugang zu wertvollen Rechenressourcen zu ermöglichen. Da hat sich seit der Gründung sehr viel getan. Am Anfang der Gründung stand zunächst ein Wettbewerb. Unterschiedliche Rechenzentren bewarben sich für die Aufnahme in den NHR-Verein. Jede Einrichtung hat versucht, sich möglichst gut zu profilieren. Nachdem die Auswahl der Rechenzentren abgeschlossen war, begann der gegenteilige Prozess, nämlich als Verbund zusammenzuwachsen und gemeinsam eine Kooperationskultur zu etablieren – etwa im Bereich der Ausbildung des wissenschaftlichen Nachwuchses oder großer Infrastrukturprojekte. Das funktioniert bisher sehr gut.

Ein Beispiel für eine erfolgreiche Kollaboration ist das Atomistic Simulation Center (ASC), zu dem sich drei NHR-Zentren – das Paderborn Center for Parallel Computing, das NHR-FAU in Erlangen und das Zuse Institute Berlin (ZIB) – zusammengeschlossen haben, um atomistische Simulationen in den Anwendungsbereichen Physik, Chemie und Life Sciences abzudecken und hier ihre Ressourcen zu bündeln.

Wie funktioniert der Zugang zu den Rechenressourcen nun im Verbund?

Gemeinsam haben wir NHR-weite Vergaberichtlinien mit einheitlichen Qualitätsstandards etabliert. Bis dahin hatte jedes der neun NHR-Zentren – schon aufgrund der spezifischen Fach- und Anwendungsgebiete – eigene, sehr unterschiedliche Antragsverfahren und Vergabeprozedere, mit denen sich Nutzende, aber auch Gutachterinnen und Gutachter auseinandersetzen mussten. Ein Meilenstein für die Beantragung von HPC-Rechenzeit ist darum das elektronische Vergabeportal JARDS (Joint Application Review and Dispatch Service, siehe Kasten S. 10), das wir seit Kurzem im NHR-Verein nutzen. Es ermöglicht Forschenden nicht nur die einfache und zentrale Antragstellung, sondern gewährleistet sowohl ihnen als auch den Begutachtenden einen transparenten Einblick in den Vergabeprozess. Sämtliche Anträge und ihre Begutachtung unterliegen einem wissenschaftsgeleiteten Peer-Review-Verfahren.

Welche Aufgaben hat der NHR-Nutzungsausschuss in diesem Verfahren?

Der Nutzungsausschuss gestaltet die Verfahrensordnung zur Auswahl der Anträge und überwacht deren Durchführung nach einheitlichen Qualitätsstandards. So können Begutachtende nun in JARDS die Historie alter und neu eingereichter Anträge vergleichen und so beispielsweise den Neuheitsgrad beurteilen.

Mit JARDS kann ich also heute beantragen – und wann genau rechnen?

Eine Forderung des Strategieausschusses, der 2019 von der Gemeinsamen Wissenschaftskonferenz (GWK) als selbstständiges und unabhängiges Gremium eingesetzt wurde, war tatsächlich, die Zykluslänge für die Beantragung von Rechenzeit massiv zu verkürzen. Heute sind wir bei quartalsweiten Antragsperioden. Das ist ein großer Erfolg, sehr viel schneller geht es nicht.

“Ein Meilenstein für die Beantragung von HPC-Rechenzeit ist das elektronische Vergabeportal JARDS.”

Vom Review-Prozess bis zum Start der Rechenzeit ist das für die Rechenzentren bereits ein Rund-um-die-Uhr-Betrieb. Mit der Bewilligung geht es gleich in die Vorbereitungen – ein Dauerstress.

Aber mit der zentralen Vergabe haben wir die Möglichkeit, die Lasten zu verteilen. Außerdem ist der Pool der Begutachtenden jetzt größer. Jede Person, die beim NHR-Verein Rechenzeit beantragt, steht auch in der Verantwortung, Gutachten zu schreiben – es ist ein Geben und Nehmen. Aber ja, nach der Beantragung ist quasi vor der Beantragung.

Womit beschäftigt sich der Nutzungsausschuss außerdem?

Eine übergeordnete Aufgabe ist die Beobachtung der Anwendungsgebiete im NHR, denn hier gibt es eine sehr starke Profilierung. In Absprache mit allen Zentren achten wir darauf, dass die Ressourcen für sämtliche HPC-relevanten Anwendungsbereiche ausreichend vorhanden sind. Das beinhaltet auch die dafür notwendige Hardware und vor allem spezielle Rechenarchitekturen. Bei Bedarf greift der Nutzungsausschuss regulierend ein.

Ein wichtiges Kriterium ist außerdem die Verhältnismäßigkeit der eingesetzten Ressourcen. Wenn ein Antrag massiv aufwendiger ist als ein anderer, aber genauso gut, kann es sein, dass die Bewilligung auf Kosten anderer Anträge geht. Im Extremfall könnten dann andere Anträge nicht bewilligt werden. Das gilt es in der Begutachtung auszubalancieren. Dafür haben wir momentan kein besseres Review-System als sehr erfahrene Wissenschaftlerinnen und Wissenschaftler.

Eine weitere Aufgabe ist der Ausgleich der Rechenlast. Wenn es akute Engpässe gibt oder ein Rechenzentrum überlastet ist, haben wir im Interesse des globalen NHR-Systems die Möglichkeit, auf ein anderes NHR-Rechenzentrum umzuschichten. Bisher ist das nicht vorgekommen, weil wir gleich zu Beginn der Gründung sehr leistungsfähige neue Hochleistungsrechner beschafft haben. Wenn aber Rechenzentren an das Ende ihrer Lebenszeit gekommen sind – das ist nach etwa fünf Jahren der Fall – müssen wir künftig mit Umschichtungen rechnen.

Größer, schneller, besser: Sie haben die heutigen Supercomputer mal als Zeitmaschinen bezeichnet.

So wie die Astronomie in der Lage ist, mit immer besseren Teleskopen Milliarden von Lichtjahren in die Vergangenheit zu schauen, so kann die rechnergestützte Wissenschaft mit immer größeren Rechenressourcen de facto in die Zukunft gucken. Normale Arbeitsplatzrechner benötigen für komplexe Simulationen viele Jahre. Gerade in einem hochkompetitiven Umfeld wie der Wissenschaft ist ist die Nutzung von Supercomputern ein entscheidender Fortschritt.

Die gesamte Infrastruktur für Supercomputer ist jedoch hochgradig angepasst und, gelinde gesagt, nicht gerade günstig, was den Energieverbrauch angeht. Da fragen sich nicht wenige, welchen Mehrwert das schafft, und ob wir nicht einfach 20 Jahre warten können. Die Antwort ist: Ja, könnten wir. Aber auf die Lösung dringlicher Probleme wie im Bereich Klimawandel oder nachhaltige Energieversorgung möchten und dürfen wir nicht 20 Jahre warten. Da spielen Computersimulationen und Modellierungen heute eine immer wichtigere Rolle.

Sie haben das Thema Energieverbrauch eben angeschnitten: Welchen Stellenwert hat Green IT im HPC?

Da geht es einerseits um die spannende Frage der Ressourcen und andererseits um ganz elementare monetäre Gesichtspunkte. Green IT ist aus dem einfachen Grund ein riesiges Thema, weil Hochleistungsrechner eine Menge Strom verbrauchen und damit immense Kosten verursachen. Gerade im NHR sehen wir, dass bei der Modernisierung von Rechenzentren durchgehend innovative Kühlkonzepte eingesetzt werden, die den Stromverbrauch senken können. Christian Plessl (Anm. Red. Universität Paderborn) und ich haben 2019 für unser Projekt „Green IT: Exakte Berechnungen mit ungenauen, aber energieeffizienten Rechnern“ den Forschungspreis der Uni Paderborn erhalten. Die Idee dahinter war, mit niedrigerer Präzision und dafür energieeffizient zu rechnen – besser gesagt mit Näherungen zu rechnen – und die Ungenauigkeiten mit neuartigen, fehlertoleranten Algorithmen zu kompensieren.

Ein anderer Aspekt von Green IT ist Nachhaltigkeit. Durch den Erfolg des NHR-Vereins ist der Zugang zu Rechenressourcen sehr einfach geworden. Als die Ressourcen noch extrem begrenzt waren, mussten sich Nutzende sehr genau Gedanken darüber machen, wie sie sie einsetzen. Heute müssen wir Nutzende sensibilisieren, damit die Ressourcen nicht verschwenderisch zum Einsatz kommen für unsinnige oder unnötige Simulationen, die keinen Mehrwert bieten. Ich weiß nicht, ob die Community das so gerne hört. Insbesondere junge Forschende, die nur den NHR-Zugang kennen, sollen ein Gefühl dafür bekommen, was Rechnen kostet. Darum weisen bereits erste HPC-Zentren die Kosten für den Stromverbrauch aus. Das können, was den CO2-Ausstoß angeht, schon das Äquivalent für mehrere transatlantische Flüge sein. Das führt in der Regel zu einem Aha-Effekt.

Im NHR-Verbund sind HPC-Rechenzentren der Leistungsklasse Tier-2 vereint. Sie selbst haben bereits an Tier-1- Rechenzentren gearbeitet. Ist die Trennung beider Ebenen zeitgemäß?

Wenn die Frage impliziert, ob Tier-1- Systeme sinnvoll sind, bin ich ganz klar der Meinung: ja. Letztendlich ist die maximale Rechenleistung ganz trivial auch eine Frage des Stromverbrauchs. Das ist am Ende des Tages die ultimative Grenze. Damit führt kein Weg an Beschleunigerarchitekturen vorbei. In aktuellen Flaggschiffrechnern sind das in der Regel GPU.

“Letztendlich ist die maximale Rechenleistung ganz trivial auch eine Frage des Stromverbrauchs.”

Um maximale Rechenleistung zu erzielen und die Grenzen des Höchstleistungsrechnens auszuloten, gibt es nicht viele Möglichkeiten. Dafür brauchen wir Methodenentwicklung, das ist eine wichtige Zukunftsfrage.

Wir prüfen beispielsweise, ob neuartige Algorithmen auf Beschleunigerarchitekturen skalieren. Das machen wir heutzutage in den Tier-1-Rechenzentren. Wenn wir aber nur diese hätten, wäre es sehr schwierig, den Großteil der Anwendungsgebiete abzudecken. Zur Wahrheit gehört nämlich auch, dass es nur wenige Anwendungen gibt, die zwingend auf Tier-1-Systemen erfolgen müssen: Gute Beispiele sind die Gitter-Quantenchromodynamik für Berechnungen in der Teilchen- und Kernphysik oder atomistische Simulationen, die in den Materialwissenschaften oder der theoretischen Chemie vorkommen. Absolut gesehen sind beide die größten Verbraucher von Supercomputerressourcen. Beide haben jedoch auch einen hohen Bedarf an Tier-2-Ressourcen – befinden sich also im Überlappungsbereich. Dieser Bereich ist definitiv größer geworden. Tier-2-Rechenzentren übernehmen mittlerweile einen Großteil aller Rechenjobs und können wesentlich flexibler auf Bedarfe in den Anwendungsgebieten eingehen – was die Schulung der Leute betrifft, aber auch was die Anpassung der Rechenressourcen angeht.

Sie selbst nutzen für Ihre Forschung sogar Quantencomputer. Wie werden diese im HPC eingesetzt?

Das ist ein Paradigmenwechsel, eine ganz neue Art des Hochleistungsrechnens, die im Anwendungsbereich noch nicht weitverbreitet ist. In meinem Forschungsbereich, der Quantenmechanik, beschäftigen wir uns mit der Berechnung von Erwartungswerten. Dafür setzen wir Supercomputer mit einer Vielzahl parallel angeordneter Rechenkerne oder eben Quantencomputer ein. Aber nur ein Teil der gesamten Simulation, nämlich die Funktionsevaluierung, findet auf dem Quantencomputer statt. Die variationelle Optimierung läuft auf einem konventionellen Hochleistungsrechensystem. Beide Vorgänge alternieren. Die erfolgreichsten Algorithmen im Bereich des Quantencomputing sind deshalb hybride Algorithmen. Das wirft die Frage auf, wie wir das Hochleistungsrechensystem mit einem möglichen Quantencomputer verbinden können. Naheliegend ist es, diese Technologie an einem Hochleistungsrechenzentrum aufzubauen, weil dort bereits die entsprechenden Hochleistungsrechner für den klassischen Teil dieser hybriden Algorithmen vorliegen.

Sehen Sie mittelfristig Anwendungsmöglichkeiten für Quantencomputer?

Es ist eine sehr interessante Zukunftstechnologie, die auf jeden Fall in irgendeiner Form bedient werden muss. Damit wir morgen dafür vorbereitet sind, müssen heute Wissenschaftlerinnen und Wissenschaftler darauf ausgebildet werden. Darum brauchen wir heute einen Zugang zu Quantencomputern. Aber dieser Zugang ist weitaus schwieriger als bei konventionellen HPC-Systemen. Der Infrastrukturaufwand und die damit verbundenen Investitionen sind erheblich. Einen Quantencomputer kauft man sich nicht mal eben. Die meisten Architekturen benötigen einen sehr hohen Kühlaufwand mit extrem tiefen Temperaturen.

“Insbesondere im Bereich der atomistischen Simulationen arbeiten wir bereits sehr viel mit KI.”

Das ist definitiv eine Sache für kooperative Forschung. Deswegen geht man heute immer mehr zu Subskriptionsmodellen über, bei denen Quantencomputer vom Hersteller betrieben und pro Rechenzeit abgerechnet werden.

Das birgt aber die ganz gefährliche Entwicklung, dass eine normale Universitätsarbeitsgruppe sich das schlicht nicht leisten kann mit ihrem Budget bzw. existierenden Förderinstrumenten. Der Verzicht auf die experimentelle Erprobung von Quantencomputern wäre wiederum ein großer Wettbewerbsnachteil für Deutschland. Deswegen müssen wir einen anderen Zugang zu Quantencomputern finden. Diese an einem HPC-Zentrum aufzubauen, halte ich zumindest für überlegenswert. Auf absehbare Zeit werden Quantencomputer nicht großflächig in HPC-Zentren zum Einsatz kommen. Das ist meine private Meinung. Womit wir aber bereits sehr viel arbeiten – insbesondere im Bereich der atomistischen Simulationen – ist Künstliche Intelligenz (KI).

Welche Rolle spielt KI im HPC?

Das ist ein hochaktuelles Thema, das uns auch im Nutzungsausschuss sehr stark beschäftigt, weil es viele Veränderungen nach sich zieht. In der HPC-Anwendung ist der Anteil der KI-Komponenten rapide gestiegen, ein Ende ist nicht abzusehen. In den aktuellen Beschaffungen tragen wir dem wachsenden KI-Anteil mit dafür notwendiger Hardware, hauptsächlich speziellen Beschleunigerarchitekturen, Rechnung.

Können Sie ein Anwendungsbeispiel nennen?

Bis vor wenigen Jahren haben wir hochgradig aufwendige quantenmechanische Simulationen auf Hochleistungsrechenarchitekturen durchgeführt. Mit diesen Simulationsdaten – einer Vielzahl in Datenbanken abgelegter atomistischer Konfigurationen – werden heute sogenannte Surrogatmodelle trainiert. Diese sind in der Lage, quantenmechanische Lösungen sehr gut vorauszusagen. Das ersetzt letztendlich langwierige komplizierte Simulationsvorgänge und führt zu gänzlich neuen Arten von Simulationen. Die Surrogatmodelle benötigen zwar auch viel HPC-Rechenressourcen und sind damit ein NHR-Thema, aber sie ermöglichen regelrechte Sprünge in der Zeit- oder Größenskala, was die Skalierbarkeit angeht. Das ist über eine direkte Simulation nicht möglich.

Welche Herausforderungen gibt es derzeit im Hochleistungsrechnen?

Ein Aspekt betrifft Big Data: Die Rechenressourcen nehmen exponentiell zu und in den HPC-Simulationen generieren wir Unmengen an Daten, die wiederum analysiert und für weitere Forschung eingesetzt werden. Bestimmte Simulationen werden über mehrere Rechenzentren hinweg vorgenommen. Die entsprechenden benötigten Hardwareressourcen sind an unterschiedlichen Standorten vorhanden. Darum sind wir auf ein schnelles Netz wie das X-WiN angewiesen, das unsere NHR-Rechenzentren miteinander verbindet.

Aber das ist nur ein Teil der Lösung: Wir müssen darauf achten, dass die Menge der transferierten Daten möglichst klein gehalten wird. Das erreichen wir, indem wir die berechneten Datensätze gleich an Ort und Stelle weiterverarbeiten. Idealerweise analysieren wir die Daten schon während der Simulation oder gleich danach –, erhalten also vorprozessierte Daten. Damit können wir deutlich kleinere Datenmengen übertragen. Besser wäre es natürlich, wenn wir die Daten gar nicht übertragen müssten, sondern sie auch lokal langzeitarchivieren könnten. Was die Langzeitarchivierung angeht, ist das bisher kein klassisches NHR-Thema. Hier treffen wir uns auf der Datenseite mit der Nationalen Forschungsdateninfrastruktur (NFDI).

Prof. Dr. Thomas Kühne

Prof. Dr. Thomas Kühne ist Inhaber der Professur für Rechnergestützte Systemwissenschaften (Computational Systems Science) an der Technischen Universität Dresden (TUD), und seit 2023 Gründungsdirektor des CASUS – Center for Advanced Systems Understanding in Görlitz.

Außerdem ist er stellvertretender Vorsitzender des Paderborn Center for Parallel Computing (PC²) und des kürzlich gegründeten Center for Sustainable Systems Design (CSSD), sowie Vorsitzender des NHR Atomistic Simulation Center und des NHR Center for Computational Physics, Mitglied des DFG-Fachkollegiums, und Mitautor des Open-source-Simulationsprogramms CP2K. Seine Forschungsschwerpunkte liegen in der Entwicklung neuer numerischer Methoden und Algorithmen für chemische und physikalische Vorgänge und ihrer Implementierung in Form von Computerprogrammen.

Was hat der NHR-Verein bisher bewirkt? Ist Deutschland im internationalen Vergleich nun besser aufgestellt?

Auf jeden Fall! Damit meine ich aber nicht die medienwirksamen Top-500-Listen im Hochleistungsrechnen. Wenn Sie sich daran orientieren, dann stehen die Tier-1-Rechner ganz vorne. Wenn Sie aber die aggregierte Leistung der HPC-Systeme in Deutschland betrachten, sind die großen NHR-Zentren sehr präsent. Der Großteil der Forschung, die wichtige Fragestellungen etwa im Bereich der Katalysatorentwicklungen, der nachhaltigen Systeme oder der Energiematerialien betrifft, findet verstärkt auf Tier-2-Systemen statt. Mit unserem Beantragungssystem können Sie innerhalb eines Quartals Zugang zu exzellenten Rechenressourcen bekommen und Ihre Forschung auf international höchstem Niveau hier in Deutschland durchführen. Genau das macht unsere Wettbewerbsfähigkeit aus. Da hat der NHR-Verein die Tür weit geöffnet.

Das Gespräch führte Maimona Id (DFN-Verein)