Jun 13, 2024
Wir können jetzt große neuronale Netze auf kleinen Geräten trainieren
Die Geräte um uns herum lernen ständig etwas über unser Leben. Smartwatches erfassen unsere Vitalfunktionen, um unsere Gesundheit zu überwachen. Heimlautsprecher hören unseren Gesprächen zu, um unsere Stimmen zu erkennen.
Die Geräte um uns herum lernen ständig etwas über unser Leben. Smartwatches erfassen unsere Vitalfunktionen, um unsere Gesundheit zu überwachen. Heimlautsprecher hören unseren Gesprächen zu, um unsere Stimmen zu erkennen. Smartphones spielen Grammatik und beobachten, was wir schreiben, um unsere eigenwilligen Tippfehler zu korrigieren. Wir wissen diese Annehmlichkeiten zu schätzen, aber die Informationen, die wir mit unseren Geräten teilen, werden nicht immer zwischen uns und unseren elektronischen Datenträgern gespeichert. Maschinelles Lernen kann umfangreiche Hardware erfordern, daher senden „Edge“-Geräte wie Telefone häufig Rohdaten an zentrale Server, die dann trainierte Algorithmen zurückgeben. Manche Leute möchten, dass diese Schulung vor Ort stattfindet. Eine neue KI-Trainingsmethode erweitert die Trainingsmöglichkeiten kleinerer Geräte und trägt möglicherweise zum Schutz der Privatsphäre bei.
Die leistungsstärksten maschinellen Lernsysteme nutzen neuronale Netze, komplexe Funktionen voller einstellbarer Parameter. Während des Trainings empfängt ein Netzwerk eine Eingabe (z. B. eine Reihe von Pixeln), generiert eine Ausgabe (z. B. die Bezeichnung „Katze“), vergleicht seine Ausgabe mit der richtigen Antwort und passt seine Parameter an, um beim nächsten Mal eine bessere Leistung zu erzielen. Um zu wissen, wie man jeden dieser internen Knöpfe einstellt, muss sich das Netzwerk an die Wirkung jedes einzelnen Reglers erinnern, aber ihre Zahl geht regelmäßig in die Millionen oder sogar Milliarden. Das erfordert viel Speicher. Das Training eines neuronalen Netzwerks kann das Hundertfache an Speicher erfordern, wenn es nur eines nutzt (auch „Inferenz“ genannt). Im letzteren Fall darf der Speicher vergessen, was jede Schicht des Netzwerks getan hat, sobald er Informationen an die nächste Schicht weitergibt.
Um den Speicherbedarf während der Trainingsphase zu reduzieren, haben Forscher einige Tricks angewendet. Bei einer Methode, die als Paging oder Offloading bezeichnet wird, verschiebt die Maschine diese Aktivierungen aus dem Kurzzeitgedächtnis in einen langsameren, aber umfangreicheren Speichertyp wie Flash oder eine SD-Karte und holt sie bei Bedarf zurück. Bei einer anderen Methode, der sogenannten Rematerialisierung, löscht die Maschine die Aktivierungen und berechnet sie später erneut. Zuvor verwendeten Systeme zur Speicherreduzierung einen dieser beiden Tricks oder, sagt Shishir Patil, Informatiker an der University of California in Berkeley und Hauptautor des Artikels, der die Innovation beschreibt, sie wurden mithilfe von „Heuristiken“ kombiniert, die „ „suboptimal“ und erfordern oft viel Energie. Die von Patil und seinen Mitarbeitern berichtete Innovation formalisiert die Kombination von Paging und Rematerialisierung.
„Diese beiden Techniken zu nutzen, sie gut zu diesem Optimierungsproblem zu kombinieren und es dann zu lösen – das ist wirklich schön“, sagt Jiasi Chen, ein Informatiker an der University of California, Riverside, der sich mit Edge Computing beschäftigt, daran aber nicht beteiligt war arbeiten.
Im Juli präsentierte Patil sein System mit dem Namen POET (Private Optimal Energy Training) auf der International Conference on Machine Learning in Baltimore. Er gibt POET zunächst die technischen Details eines Geräts und Informationen über die Architektur eines neuronalen Netzwerks, das es trainieren soll. Er gibt ein Speicherbudget und ein Zeitbudget vor. Anschließend fordert er es auf, einen Trainingsprozess zu erstellen, der den Energieverbrauch minimiert. Der Prozess könnte beschließen, bestimmte Aktivierungen auszulagern, deren Neuberechnung ineffizient wäre, andere, die sich einfach wiederholen lassen, deren Speicherung aber viel Speicher erfordert, jedoch neu zu materialisieren.
Einer der Schlüssel zum Durchbruch bestand darin, das Problem als MILP-Puzzle (Mixed Integer Linear Programming) zu definieren, eine Reihe von Einschränkungen und Beziehungen zwischen Variablen. Für jedes Gerät und jede Netzwerkarchitektur fügt POET seine Variablen in Patils handgefertigtes MILP-Programm ein und findet dann die optimale Lösung. „Eine große Herausforderung besteht tatsächlich darin, das Problem so zu formulieren, dass man es in einen Löser eingeben kann“, sagt Chen. „So erfassen Sie alle realistischen Systemdynamiken wie Energie, Latenz und Speicher.“
Das Team testete POET auf vier verschiedenen Prozessoren, deren RAM zwischen 32 KB und 8 GB reichte. Auf jedem trainierten die Forscher drei verschiedene neuronale Netzwerkarchitekturen: zwei in der Bilderkennung beliebte Typen (VGG16 und ResNet-18) sowie ein beliebtes Sprachverarbeitungsnetzwerk (BERT). In vielen Tests konnte das System den Speicherverbrauch um etwa 80 Prozent reduzieren, ohne dass der Energieverbrauch stark anstieg. Vergleichbare Methoden könnten nicht beides gleichzeitig tun. Laut Patil zeigte die Studie, dass BERT jetzt auf den kleinsten Geräten trainiert werden kann, was bisher unmöglich war.
„Als wir anfingen, war POET größtenteils eine nette Idee“, sagt Patil. Mittlerweile haben sich mehrere Unternehmen für den Einsatz gemeldet, und mindestens ein großes Unternehmen hat es in seinem Smart Speaker ausprobiert. Was ihnen gefällt, sagt Patil, ist, dass POET die Netzwerkpräzision nicht durch „Quantisierung“ oder Abkürzung von Aktivierungen verringert, um Speicherplatz zu sparen. Die Teams, die Netzwerke entwerfen, müssen sich also nicht mit den Teams abstimmen, die sie implementieren, um Kompromisse zwischen Präzision und Speicher auszuhandeln.
Patil nennt neben Datenschutzbedenken noch weitere Gründe für die Nutzung von POET. Einige Geräte müssen Netzwerke lokal trainieren, da sie über eine geringe oder keine Internetverbindung verfügen. Dazu gehören Geräte, die auf Bauernhöfen, in U-Booten oder im Weltraum eingesetzt werden. Andere Setups können von der Innovation profitieren, da die Datenübertragung zu viel Energie benötigt. POET könnte auch große Geräte – Internetserver – speichereffizienter und energieeffizienter machen. Aber was die Geheimhaltung der Daten angeht, sagt Patil: „Ich denke, das ist sehr zeitgemäß, oder?“