Maschine
Vorheriges Bild Nächstes Bild
ChatGPT hat mit seiner Fähigkeit, Aufsätze, E-Mails und Computercode basierend auf einigen Eingabeaufforderungen eines Benutzers zu schreiben, weltweit für Schlagzeilen gesorgt. Jetzt berichtet ein MIT-geführtes Team über ein System, das zu Programmen für maschinelles Lernen führen könnte, die um mehrere Größenordnungen leistungsfähiger sind als das hinter ChatGPT. Das von ihnen entwickelte System könnte außerdem mehrere Größenordnungen weniger Energie verbrauchen als die hochmodernen Supercomputer, die den heutigen Modellen des maschinellen Lernens zugrunde liegen.
In der Ausgabe von Nature Photonics vom 17. Juli berichten die Forscher über die erste experimentelle Demonstration des neuen Systems, das seine Berechnungen auf der Grundlage der Bewegung von Licht und nicht von Elektronen unter Verwendung von Hunderten von Lasern im Mikrometerbereich durchführt. Mit dem neuen System berichtet das Team über eine mehr als 100-fache Verbesserung der Energieeffizienz und eine 25-fache Verbesserung der Rechendichte, einem Maß für die Leistung eines Systems, im Vergleich zu hochmodernen digitalen Computern für maschinelles Lernen .
Der Zukunft entgegen
In dem Papier nennt das Team außerdem „wesentlich mehrere Größenordnungen für zukünftige Verbesserungen“. Infolgedessen, so die Autoren weiter, „eröffnet die Technik einen Weg zu groß angelegten optoelektronischen Prozessoren, um maschinelle Lernaufgaben von Rechenzentren bis hin zu dezentralen Edge-Geräten zu beschleunigen.“ Mit anderen Worten: Mobiltelefone und andere kleine Geräte könnten in die Lage versetzt werden, Programme auszuführen, die derzeit nur in großen Rechenzentren berechnet werden können.
Da die Komponenten des Systems mit bereits heute verwendeten Fertigungsverfahren hergestellt werden können, „gehen wir davon aus, dass es in einigen Jahren für den kommerziellen Einsatz skaliert werden kann.“ Die beteiligten Laser-Arrays werden beispielsweise häufig bei der Gesichtserkennung von Mobiltelefonen und der Datenkommunikation eingesetzt“, sagt Zaijun Chen, Erstautor, der die Arbeit als Postdoktorand am MIT im Research Laboratory of Electronics (RLE) durchführte und jetzt dort tätig ist Assistenzprofessor an der University of Southern California.
Dirk Englund, außerordentlicher Professor am Department of Electrical Engineering and Computer Science des MIT und Leiter der Arbeit, sagt: „ChatGPT ist in seiner Größe durch die Leistung heutiger Supercomputer begrenzt. Es ist einfach wirtschaftlich nicht sinnvoll, Modelle zu trainieren, die viel größer sind. Unsere neue Technologie könnte den Sprung zu Modellen des maschinellen Lernens ermöglichen, die sonst in naher Zukunft nicht erreichbar wären.“
Er fährt fort: „Wir wissen nicht, welche Fähigkeiten das ChatGPT der nächsten Generation haben wird, wenn es 100-mal leistungsfähiger ist, aber das ist das Entdeckungsregime, das diese Art von Technologie ermöglichen kann.“ Englund leitet außerdem das Quantum Photonics Laboratory des MIT und ist mit dem RLE und dem Materials Research Laboratory verbunden.
Ein Trommelschlag des Fortschritts
Das aktuelle Werk ist die jüngste Errungenschaft in der Reihe der Fortschritte, die Englund und viele seiner Kollegen in den letzten Jahren gemacht haben. Beispielsweise berichtete 2019 ein Englund-Team über die theoretischen Arbeiten, die zur aktuellen Demonstration führten. Der Erstautor dieses Papiers, Ryan Hamerly, jetzt von RLE und NTT Research Inc., ist auch ein Autor des aktuellen Papiers.
Weitere Mitautoren des aktuellen Artikels von Nature Photonics sind Alexander Sludds, Ronald Davis, Ian Christen, Liane Bernstein und Lamia Ateshian, alle von RLE; und Tobias Heuser, Niels Heermeier, James A. Lott und Stephan Reitzenstein von der Technischen Universität Berlin.
Tiefe neuronale Netze (DNNs) wie das hinter ChatGPT basieren auf riesigen Modellen des maschinellen Lernens, die simulieren, wie das Gehirn Informationen verarbeitet. Allerdings stoßen die digitalen Technologien hinter den heutigen DNNs an ihre Grenzen, obwohl der Bereich des maschinellen Lernens wächst. Darüber hinaus benötigen sie große Mengen an Energie und sind größtenteils auf große Rechenzentren beschränkt. Das motiviert die Entwicklung neuer Computerparadigmen.
Die Verwendung von Licht anstelle von Elektronen zur Durchführung von DNN-Berechnungen hat das Potenzial, die aktuellen Engpässe zu überwinden. Beispielsweise verbrauchen Berechnungen mit Hilfe der Optik weitaus weniger Energie als Berechnungen mit Hilfe der Elektronik. Darüber hinaus könne man mit der Optik „viel größere Bandbreiten erreichen“ oder Dichten berechnen, sagt Chen. Licht kann viel mehr Informationen auf einer viel kleineren Fläche übertragen.
Aktuelle optische neuronale Netze (ONNs) stehen jedoch vor erheblichen Herausforderungen. Sie verbrauchen beispielsweise viel Energie, weil sie eingehende Daten, die auf elektrischer Energie basieren, nicht effizient in Licht umwandeln können. Darüber hinaus sind die beteiligten Komponenten sperrig und nehmen viel Platz ein. Und während ONNs bei linearen Berechnungen wie Additionen recht gut sind, sind sie bei nichtlinearen Berechnungen wie Multiplikationen und „Wenn“-Anweisungen nicht besonders gut.
In der aktuellen Arbeit stellen die Forscher eine kompakte Architektur vor, die erstmals alle diese Herausforderungen und zwei weitere gleichzeitig löst. Diese Architektur basiert auf hochmodernen Arrays vertikaler oberflächenemittierender Laser (VCSELs), einer relativ neuen Technologie, die in Anwendungen wie Lidar-Fernerkundung und Laserdruck eingesetzt wird. Die besonderen VCELs, über die im Nature Photonics-Artikel berichtet wird, wurden von der Reitzenstein-Gruppe an der Technischen Universität Berlin entwickelt. „Dies war ein Gemeinschaftsprojekt, das ohne sie nicht möglich gewesen wäre“, sagt Hamerly.
Logan Wright, ein Assistenzprofessor an der Yale University, der nicht an der aktuellen Forschung beteiligt war, kommentiert: „Die Arbeit von Zaijun Chen et al. ist inspirierend und ermutigt mich und wahrscheinlich auch viele andere Forscher auf diesem Gebiet, dass Systeme, die auf modulierten VCSEL-Arrays basieren, ein gangbarer Weg zu großen optischen Hochgeschwindigkeits-Neuronalen Netzen sein könnten. Natürlich ist der Stand der Technik hier noch weit von dem Umfang und den Kosten entfernt, die für praktisch nutzbare Geräte erforderlich wären, aber ich bin optimistisch, was in den nächsten Jahren realisiert werden kann, insbesondere angesichts des Beschleunigungspotenzials dieser Systeme die sehr großen, sehr teuren KI-Systeme, wie sie in beliebten textuellen „GPT“-Systemen wie ChatGPT verwendet werden.“
Chen, Hamerly und Englund haben ein Patent für die Arbeit angemeldet, die vom US Army Research Office, NTT Research, dem US National Defense Science and Engineering Graduate Fellowship Program, der US National Science Foundation und den Natural Sciences and Engineering gefördert wurde Research Council of Canada und die Volkswagen-Stiftung.
Vorheriger Artikel Nächster Artikel
Der Zukunft entgegenEin Trommelschlag des Fortschritts