Die Leistungsfähigkeit von KI hat eine neue Stufe erreicht, die alles Bisherige in den Schatten stellt. Die Gründe hierfür sind vielfältig. Vor allem neue mathematische Modelle des maschinellen Lernens haben den Durchbruch begründet. KI-Algorithmen verarbeiten an verschiedenen Stellen des Lern- und Nutzungsprozesses Daten, die auch personenbezogen sein können.
Wie sieht die Architektur von KI-Systemen aus?
Doch wie funktioniert ein KI-Algorithmus, der auch ChatGPT oder Bildgeneratoren wie Dall-E und Midjourney zugrunde liegt?
Aus meiner Sicht ist insbesondere die Transformer-Architektur entscheidend für die hohe Leistungsfähigkeit der genannten Systeme. Der Transformer-Ansatz existiert seit dem Jahr 2017. Mit einem Transformer lässt sich jegliche Art von Eingabe (Daten) in sogenannte Einbettungen überführen. Einbettungen (Embeddings) sind Listen von Zahlen, die Vektoren genannt werden. Die Vektoren für zwei Eingabewerte ähneln sich idealerweise so sehr, wie die zwei Eingabewerte sich semantisch ähneln.
Künstliche Intelligenz arbeitet mit Vereinheitlichung von Daten
Bei Textanwendungen wie der automatischen Übersetzung oder einer Textzusammenfassung bestehen die Eingabewerte aus Begriffen. Bildanwendungen wie Dall-E vektorisieren Bilder nebst vorliegenden Bildbeschreibungen. Sie überführen sie also in semantisch aufgeladene Zahlenreihen. Für Bilder werden deren Pixelwerte als Eingaben verwendet. Diese Vektorisierung funktioniert auch für jegliche andere Art von Eingaben, also etwa für Videos oder Audiosignale.
Weil KI-Anwendungen jegliche Information gleichförmig verarbeiten und diese Information so in einheitlicher Weise für Berechnungen zur Verfügung steht, lassen sich Texte mit Bildern, Bilder mit Bildern oder auch Bilder mit Videos vergleichen und ineinander überführen.
Dass statistische Prozesse eine Rolle spielen, ist anscheinend dem Entstehen von Intelligenz nicht abträglich, sondern womöglich eine Grundbedingung.
KI löst Aufgaben mit Reinforcement Learning
Ein Ansatz namens Reinforcement Learning erlaubt es, komplexe Aufgaben ohne Trainer („unsupervised“) zu meistern. Die Eingabedaten benötigen nicht einmal Beschreibungen („Label“). Vielmehr wird automatisch eine Strategie („Policy“) erdacht. So können KI-Anwendungen auch Probleme mit offenem Lösungsraum in herausragender Weise lösen.
Als Beispiel sei ein künstlicher Spieler genannt, der in einem komplexen Strategiespiel wie StarCraft einen hochbezahlten Profi-Spieler in überlegener Weise schlagen kann. (Der KI-Algorithmus bedient das Spiel dabei übrigens im Schnitt nicht schneller als der Mensch.) Das unterscheidet sich fundamental von Schachprogrammen, die alle Informationen auf dem Spielfeld vorfinden und nur eine bekannte Anzahl an nächsten Spielzügen berücksichtigen müssen.
KI nutzt neuronale Netze & Deep Learning
Moderne Verfahren Künstlicher Intelligenz nutzen neuronale Netze. Diese bestehen aus einer Eingabe- und einer Ausgabeschicht. In die Eingabeschicht werden sowohl Trainingsdaten als auch neue Fragestellungen eingeführt. Die Ausgabeschicht gibt die Antwort auf das gestellte Problem. Zwischen diesen (sichtbaren) Schichten befinden sich versteckte Schichten.
Weil die Anzahl der versteckten Schichten in künstlichen neuronalen Netzen so groß ist, wird auch von Deep Learning gesprochen. Das „Deep“ bezieht sich also auf die Mächtigkeit des neuronalen Netzes. In den letzten Jahren fand hier ebenfalls eine deutliche Verbesserung der Verfahren statt.
Um ein komplexes neuronales Netz – wie das menschliche Gehirn oder das moderner KI-Systeme – für den Einsatz zu rüsten, bedarf es sehr vieler Beispieldaten und immenser Rechenleistung. Elektronische Hirne brauchen Millionen von Beispielen, um gute Ergebnisse zu erzielen. Diese Menge an Beispielen liegt durch die ständig wachsende Fülle von Inhalten im Internet öffentlich zugänglich vor. Moderne Computer wiederum sind pfeilschnell, haben riesige Speicher und werden immer günstiger.