Einblick ins KI-Labor

Von Berlin aus arbeitet Slav Petrov mit KI-Spezialist:innen von Google aus aller Welt an der Entwicklung von künstlicher Intelligenz. KI-Modelle haben gelernt, über 100 Sprachen zu verstehen, Texte, Bilder, Audios und Videos zu generieren. Wie haben sie das geschafft?

6 Minuten Lesezeit

Obwohl er sich seit über 20 Jahren mit KI beschäftigt, ist Slav Petrov immer wieder aufs Neue begeistert von den Möglichkeiten, die sich daraus ergeben. Das KI-Sprachmodell, das Petrov maßgeblich mitentwickelt hat, ist zum Beispiel in der Lage, Humor zu identifizieren. Ein Beispiel: Im rund 400 Seiten langen Gesprächsprotokoll der ersten Mondfahrer Neil Armstrong, Buzz Aldrin und Michael Collins fand das Modell auf Anweisung drei lustige Dialoge – und das in weniger als einer Minute.

Zusammen mit Kolleginnen und Kollegen aus der ganzen Welt arbeitet Slav Petrov bei Google seit vielen Jahren daran, dass KI-Sprachmodelle immer mehr Fähigkeiten erlangen. Heute versteht Googles KI-Dienst Gemini nicht nur mehr als 100 Sprachen, verschiedene Programmiersprachen und sogar Humor, sondern er ist auch in der Lage, immer längere Texte, Audio-, Videomaterial und Bilder zu verarbeiten und Fragen dazu zu beantworten.

KI-Modelle sind multimodal geworden, sie können verschiedene Arten von Daten miteinander kombinieren und Schlussfolgerungen daraus ziehen. Beispielsweise gaben Petrov und seine Kolleg:innen dem System die simple Zeichnung eines Stiefels und dazu die Aufgabe, in den Gesprächsprotokollen der Mondmission den dazu passenden Moment zu finden.

Eine Gruppe von Menschen unterhält sich im Freien

Slav Petrov und sein Team wollen KI für möglichst viele Menschen zugänglich und nützlich machen.

Zunächst erkannte die KI die Zeichnung als Stiefel. Sie suchte im Protokoll nach einer Stelle, an der ein Stiefel – oder allgemeiner: ein Schuh – eine Rolle spielen könnte. Schließlich schlussfolgerte sie, dass mit der Zeichnung Neil Armstrongs historischer Satz »Ein kleiner Schritt für einen Menschen, aber ein riesiger Sprung für die Menschheit« gemeint sein muss. Damit abstrahierte Gemini nicht nur und schloss vom Stiefel auf den Schuh und schließlich auf Armstrongs Schritt, die KI verarbeitete auch unterschiedliche Arten von Daten: In der Frage spielte eine Zeichnung die Hauptrolle. Die Antwort lieferte ein Text.

Slav Petrov und sein Team stehen bei der Entwicklung von KI vor einer großen Herausforderung: Denn anders als wir Menschen hat KI keine Welt-Wahrnehmung. Damit sie trotzdem immer weiter dazulernt, kommt es auf das richtige Training an. Genau daran arbeiten Slav Petrov und sein Team aus KI-Spezialistinnen und Spezialisten. »Weil das Team über den ganzen Globus verstreut ist, arbeitet quasi immer jemand zu jeder beliebigen Uhrzeit«, sagt Petrov. »Das ist auch gut so – das Feld entwickelt sich wahnsinnig schnell.«

Typisches Training: Sätze vervollständigen

Um zu veranschaulichen, wie er und sein Team KI trainieren, lädt Petrov in sein Großraumbüro ein. »Quiet Area« steht draußen auf einem Schild, »Ruhezone«. Während vieles hier in der Berliner Google-Niederlassung gegenüber der Museumsinsel bunt und verspielt wirkt, ist dieser Raum auffällig nüchtern. Hier werden KI-Modelle mit besonderen Trainingsaufgaben verbessert.

»Eine typische Trainingsaufgabe besteht darin, Sätze zu vervollständigen«, erzählt Petrov. Etwa: »Spaghetti sind eine Art von ….« Nun muss die KI herausfinden, dass Spaghetti eine Art von Nudeln sind. »Wir lassen einfach Wörter aus dem Datensatz aus, und das Programm muss die fehlenden Wörter vorhersagen«, erklärt Petrov. »Das ist wichtig, damit das Programm lernen kann zu verstehen. Am Anfang rät es nach dem Zufallsprinzip, aber später trifft es recht zuverlässig.« Es braucht eine ganze Reihe von Versuchen, damit das KI-Modell hinzulernen kann – dabei lernt es sowohl Fakten als auch Grammatik, je nachdem, welches Wort man auslässt. So erfährt es zum Beispiel, dass man Spaghetti auch Nudeln oder Pasta nennen kann. Oder dass ein Stiefel auch Schuh genannt wird.

Nach und nach lernt das Programm, nicht nur einzelne Wörter, sondern Sätze zu vervollständigen und später zu übersetzen. Und schließlich kombiniert es sogar verschiedene Arten von Daten – und findet anhand einer Stiefel-Zeichnung die Stelle im Gesprächsprotokoll der Apollo-11-Mission, in der Neil Armstrong den Mond betritt.

Slav Petrov erklärt einer Gruppe von Menschen etwas

»Unsere KI-Modelle beherrschen über 100 Sprachen und sind für Menschen auf der ganzen Welt. Deswegen bin ich so stolz darauf«

Slav Petrov, Senior Research Director

KI-Modelle können sogar Roboter steuern

Weil KI-Modelle Muster in einem Datensatz erkennen können, lernen sie auch indirekte Zusammenhänge und können – in Ansätzen – generalisieren. So lassen sich Probleme im Umgang mit Wörtern lösen, die mehrere Bedeutungen haben. Die KI kann dann sogar Sprichwörter und Redewendungen, wie »Ich habe die Nase voll!«, richtig einordnen – und das sogar in verschiedenen Sprachen. »Das Modell lernt, Konzepte zu vergleichen. Dadurch erkennt es Zusammenhänge«, sagt Petrov. Als Beispiel nennt er die Steuerung intelligenter Roboter, für die die KI künftig genutzt werden könnte. Wenn ein Mensch etwa sagen würde, dass er Durst hat, dann übersetzt das Modell dies in Anweisungen, denen der Roboter folgen kann: Er geht dann zum Kühlschrank, holt ein Getränk heraus und bringt es der Nutzerin oder dem Nutzer. Früher hätte man diese und andere Schritte dezidiert beschreiben müssen, heute erkennt die KI diese Zusammenhänge beim Training automatisch.

Wie gut eine KI performt, hängt natürlich maßgeblich von den Trainingsdaten und deren Qualität ab. Petrov ist sich der Verantwortung bewusst, die mit dem Training von KI-Modellen einhergeht. Und er hat sehr hohe Ansprüche. Während des Trainings soll die Welt möglichst originalgetreu abgebildet werden – mit all ihren Unvollkommenheiten. In der zweiten Phase des Verfeinerns wird das Modell auf mögliche ethische Probleme geprüft. Dieses sorgfältige Vorgehen ist Teil von Googles KI-Grundsätzen, die seit 2018 die verantwortungsbewusste Entwicklung und Nutzung von KI bei Google leiten.

Slav Petrov arbeitet daran, dass digitale Übersetzer, Alltagsratgeber oder medizinische Assistenten auf Basis künstlicher Intelligenz funktionieren.

Konkret in die Praxis umgesetzt werden die Grundsätze zudem beispielsweise bei der Weiterentwicklung von Googles KI-Dienst Gemini: So können Nutzer:innen die Antwort von Gemini mit einem Klick mithilfe der Google Suche überprüfen. Dann kontrolliert das Programm, ob es im Internet Inhalte gibt, welche die Antworten belegen. Grün bedeutet: Es existieren Quellen, die diese Aussage bestätigen. Orange heißt: Es gibt Quellen mit widersprüchlichen Angaben. Dies hilft Nutzer:innen, die Antworten besser einzuordnen. Das ist wichtig, da generative KI plausibel klingende Antworten verfassen kann, die nicht immer den Tatsachen entsprechen. Das nennt man Halluzinationen. Generative KI befindet sich noch in der Anfangsphase, am Problem der Halluzinationen wird branchenübergreifend weiter geforscht.

Viele der Möglichkeiten, die Slav Petrov und sein Team erarbeiten, können auch Unternehmen in Deutschland nutzen. Denn über Google Cloud können diese mit der Technologie von Google selbst KI-Anwendungen erstellen. Für Slav Petrov ist es wichtig, KI-Technologien ständig zu verbessern, zu überprüfen und sicherzustellen, dass sie den hohen ethischen Standards der KI-Grundsätze von Google genügen. »Natürlich ist das in der Praxis aufwendig«, sagt Slav Petrov. »Aber das ist wichtig und richtig, denn wir sind überzeugt davon, dass es uns dabei hilft, KI zum Wohle der Gesellschaft weiterzuentwickeln.« Die Verantwortung von Tech-Unternehmen müsse es sein, Technologie für Menschen zugänglich und hilfreich zu machen. Dazu gehören auch alle, die kein Englisch sprechen. »Unsere KI-Modelle beherrschen über 100 Sprachen und sind für Menschen auf der ganzen Welt. Deswegen bin ich so stolz darauf.«

Fotos: Felix Brüggemann

Einblick ins KI-Labor

Von Berlin aus arbeitet Slav Petrov mit KI-Spezialist:innen von Google aus aller Welt an der Entwicklung von künstlicher Intelligenz. KI-Modelle haben gelernt, über 100 Sprachen zu verstehen, Texte, Bilder, Audios und Videos zu generieren. Wie haben sie das geschafft?

Typisches Training: Sätze vervollständigen

KI-Modelle können sogar Roboter steuern

Ähnliche Artikel