HOME
Interview

Amazon-Manager Ralf Herbrich: "Wir arbeiten daran, dass Alexa glücklich klingt - und nicht wie ein gefühlloser Computer"

Amazon-Manager Ralf Herbrich arbeitet unter anderem daran, dass der Sprachassistenten Alexa menschlicher wird. Mit dem Wirtschaftsmagazin "Capital" sprach er über die Zukunft lernender Maschinen und die Fähigkeiten und das Potenzial von Alexa.

Von Monika Dunkel und Marina Zapf

Ralf Herbrich

Ralf Herbrich leitet das Amazon Development Center in Berlin, 20 Teams mit 50 Nationalitäten arbeiten hier an maschinellem Übersetzen, der Software von Amazon Webservices und der Sprachassistentin Alexa.

Capital: Herr Herbrich, das Entwicklungsteam in Berlin hilft Alexa beim Sprechenlernen. Hat die "Dame" Sie heute früh eigentlich geweckt?

Herbrich: Bei mir zu Hause heißt Alexa "Computer". Mein 15-jähriger Sohn heißt Alexander, und wenn ich ihn rufe, reagierte früher Alexa, aber nicht mein Sohn. Ich rufe also "Computer, spiel mir einen Song von Schiller" und fühle mich dann ein bisschen wie ein Star Trekker.

Wieso Star Trekker?

Da ruft Captain Kirk doch immer: , wie heißt dieser Planet, Computer wie weit ist es zur nächsten Galaxie. In dem Moment, wo ich "Computer" sage, bin ich Captain Kirk. Jeff Bezos ist ja auch ein großer Star Trek-Fan. Alexa, so die Idee, ist das Star Trek für zu Hause, das ist seine Vision: sprich mit einem Computer, der deine Wünsche erfüllen kann.

Besonders viele Wünsche kann er ja noch nicht erfüllen.

Als künstliche Intelligenz ist Alexa noch am Anfang, aber sie lernt wahnsinnig schnell. Ich habe zu Hause Echos in mehreren Räumen, und meine Tochter hat einen mit Bildschirm, mit dem sie Karaoke übt. Wenn ich ein Ei koche, stelle ich durch Sprache in der Küche dafür den Timer, anstatt mein aus der Hosentasche zu nehmen, es aus der Lederhülle zu schieben und es mit meinen Fingern zu bedienen. Die Sprachassistentin macht für mich auch das Licht an, wenn ich das Haus betrete, spielt meine Lieblingsmusik und demnächst kontrolliert sie auch die Heizung daheim.

Als Sie im Jahr 2000 über KI promoviert haben…

… da waren wir rein mathematisch nicht so weit weg von heute, aber es war noch Fiktion zu glauben, wir könnten eine Milliarde Berechnungen pro Sekunde ausführen. Allein das Digitalisieren von Bildern und Objekten hat lange gedauert. Heute nutzt jeder überall Kameras und -Sensoren – sei es in der Smartwatch oder im Mobiltelefon. Dadurch ist das Internet vielfältiger und allgegenwärtiger nutzbar. Ich habe mit einer Vision von Zukunft studiert, die es noch gar nicht gab. Ich musste mir alles erträumen, was passieren wird, jetzt passiert es. Heute sind wir in der Lage, Verfahren der 80er- und 90er-Jahre zum Tragen zu bringen. Die größte Herausforderung war damals die Rechenleistung, die heute mit der Cloud unbegrenzt zur Verfügung steht.

Amazon Teams arbeiten in Berlin und weltweit an künstlicher Intelligenz.

Bei Amazon arbeiten weit über 1000 Leute weltweit an KI, alle sind Spezialisten auf diesem Gebiet. Das Feld selbst ist sehr populär und wichtig für Amazon. Vor 20 Jahren war das komplett anders: KI-Forschung galt als Orchideenfach mit weltweit nur 100 bis 200 Wissenschaftlern. Ich war einer davon, weil ich begeistert war.

Wäre Amazon ohne KI überhaupt noch denkbar?

Die Amazon Machine Learning Gruppe bringt maschinelles Lernen und künstliche Intelligenz in alle Bereiche von Amazon, etwa den automatisierten Verkauf, Nachfragevorhersagen, Vertrieb, Qualitätskontrolle, in die Amazon Web Services (AWS) oder in die X-Ray-Funktion im E-Book-Bereich. Auch Amazon Go, das Shopexperiment ohne Kassen, ist ohne KI undenkbar. Meine Aufgabe ist es, künstliche Intelligenz bei Amazon zu verankern und die Entwicklung neuer Algorithmen zu unterstützen.

Wie gut funktioniert das mit den Nachfragevorhersagen?

Amazon hat neben Millionen Produkten von Händlern, die Amazon als Plattform nutzen, auch Millionen eigene Produkte, die pro Tag in über elf Märkten nachbestellt werden müssen. Dazu gehören beispielsweise Artikel aus den Bereichen Mode, Bücher, Elektronik, Spielzeug und Lebensmittel. Das Kundenversprechen von Amazon beinhaltet eine möglichst schnelle Lieferung. Deshalb muss man heute schon wissen, was Kunden in einer bestimmten Region in zehn Tagen kaufen wollen, um einen Lieferengpass zu vermeiden. Wir müssen also für diesen Zeitraum vorhersagen können, wie viele Menschen in der Region Berlin-Brandenburg etwa so ein Glas (nimmt sein Wasserglas in die Hand) kaufen wollen. Dazu muss man nicht wissen, was der einzelne Kunde kaufen wird, sondern was aggregiert über eine Lieferregion oder eine Kundengruppe gekauft werden wird. Da Algorithmen aus den Daten der Vergangenheit Vorhersagen für die Zukunft erstellen, funktioniert die Nachfrageprognose sehr gut.

Amazons Sprachassistent Alexa hat Deutsch als zweite Sprache gelernt. Über 25.000 Anwendungen gibt es inzwischen. Die Deutschen fragen Alexa vor allem nach dem Abfallkalender, "Alexa, wann muss ich die gelbe Tonne rausstellen?"

In Berlin arbeiten Sie mit Ihrem Team vor allem an der Sprachausgabe von KI – was genau heißt das?

Unser Team arbeitet an der besseren Erkennung von Sprache, ihrer Verarbeitung und der Sprachausgabe. Verkürzt gesagt helfen wir dem Alexa-Team, Antworten zu optimieren, zum Beispiel in dem künstliche Intelligenz Gefühle vermitteln kann. Die Sprachbausteine, sogenannte Phoneme, werden über ein Machine Learning-System zusammengesetzt, so dass Alexa auch glücklich klingen kann und nicht wie ein gefühlloser Computer.

Und tut sie das?

Wir testen das mit vielen Kunden. Die sagen uns, dass sie Alexa als menschlich empfinden. Vor allem Kinder fangen sofort ein Gespräch mit ihr an.

Und Amazon treibt über diesen Weg seine eigenen Verkäufe weiter nach oben?

Wir haben einen Grundglauben: Kunden schätzen kleine Preise, große Auswahl und hohe Bequemlichkeit. Das ist heute so und wird in 50 Jahren immer noch so sein. Alexa ist ein Baustein, um Kunden in der Bequemlichkeit entgegenzukommen. Mit Sprache kann man beispielsweise viel bequemer einkaufen, da das freie Sprechen für Kunden viel einfacher ist als die Bedienung mit Maus und Tastatur.

Und gehen die Bestellungen schon rauf?

Ich kenne die Zahlen nicht. Es mag verrückt klingen, aber Amazon konzentriert sich auf Anwendungen, die zu niedrigeren Preisen, mehr Auswahl und Bequemlichkeit führen, und nicht auf mehr Profit oder mehr Umsatz. Wenn man den Input verbessert, steigen die Bestellungen von allein, weil Kunden zufriedener sind. Ziele bei Amazon sind selten Dollar-Ziele, sondern immer solche, die zuerst dem Kunden zugutekommen. Dann steigt auch der Umsatz.

Im Moment macht Alexa vor allem Schlagzeilen mit Pannen. In Hamburg hat Alexa neulich alleine Party gefeiert, der Besitzer war nicht da, am Schluss griff sogar die Polizei ein. In den USA hat ein Kind einen Haufen Puppen bestellt, weil Alexa auf den Fernseher hörte.

Alexa lernt noch und wird jeden Tag weiter verbessert. So kann sie jetzt Stimmen besser unterscheiden und zum Beispiel nicht mehr mit Fernsehstimmen verwechseln. Frauen- und Männerstimmen kann sie nun auseinanderhalten. "Ich bin Ralf, ich bin Marika" – das Gerät kann jetzt personalisieren, sonst werden mir immer die Musikwünsche meiner zwölfjährigen Tochter vorgespielt. Im Moment arbeiten wir an Dialogen, derzeit ist es ja noch ein Frage-Antwort-Spiel. Die Frage "Alexa, wie wird das Wetter in Berlin" wird beantwortet, dann ist sie wieder ruhig. Eine richtige Konversation über zwei, drei Themen gibt es bisher nur in wenigen Alexa-Skills.

Sie haben Alexa als Plattform konzipiert, an der sich andere Firmen andocken sollen…

Ja, es gibt bereits über 25.000 Anwendungen für Alexa. Amazon selbst hat nur einige wenige dieser Skills entwickelt. Unter den Skills-Anbietern sind Unternehmen wie die Bahn oder My Taxi, die über diesen Weg ihre Fahrkarten verkaufen oder Taxibestellungen organisieren. Je mehr Drittanbieter ihre Dienste anbieten, desto interessanter ist der Service.

Ist Alexa denn auch in der Montagehalle oder in der Industrie einsetzbar, also können Sie so über Stimmen Maschinen steuern?

Denkbar ist das schon, aber so weit sind wir noch nicht. Wir bieten die Idee, Text in Sprache zu übersetzen, für jeden Softwareentwickler an. Das System heißt Amazon Polly. Kunden von Amazon Web Services können für ihr Unternehmen bis zu 48 verschiedene Stimmen – männlich oder weiblich – für 24 Sprachen auswählen.

Wird der Sprachassistent einmal das Smartphone ersetzen?

(lacht) Selbst wir bei Amazon können die Zukunft nicht vorhersagen, wir können aber daran arbeiten, sie zu erfinden.

Wo helfen Sie der deutschen Industrie dabei, KI mitzuentwickeln?

Mit Amazon Web Services bauen wir das Angebot für KI-Dienste für externe Anwender immer weiter aus. Diese Services nutzen auch sehr viele Start-ups.

Geht´s konkreter?

Nehmen Sie mal irgendeine Firma, die ihre Kundenzufriedenheit messen will: Deren Kunde macht ein Selfie von sich und beantwortet eine Frage à la "are you happy today?" Der AWS Service Amazon Rekognition erkennt den Inhalt des Bildes – also das Gesicht –und analysiert, ob es beispielsweise zu 80 oder nur zu 60 Prozent "happy" ist. Kunden zahlen pro Klassifikationen und müssen keinen eigenen Data-Scientist einstellen, denn diese Spezialisten sind generell schwer zu finden. Industriekunden bietet AWS beispielsweise einen Teil der KI-Services an, die auch Amazon selber nutzt. Die Brücke dafür sind die Cloud-Dienste – die Amazon Web Services, die verlässlich wie Strom aus der Steckdose oder Wasser aus dem Wasserhahn beziehbar sind.

Zalando zählt zu Ihren Kunden.

Genau. Zalando hat einen riesigen Produktkatalog, und die Rechenkapazitäten für die Zalando-Bestellungen laufen über Amazon Web Services, wo auch die Kundentransaktionen stattfinden.

Amazon wandelt sich gerade zum IT-Unternehmen?

Amazon war schon immer ein Tech-Unternehmen. Bei der AWS-Konferenz re:Invent 2017 in Las Vegas hat Amazon gerade gezeigt, wie Unternehmen die Cloud-Computing-Dienste für ihre IT nutzen können. Zu den neuen Machine Learning-Diensten gehören beispielsweise Übersetzungen großer Textmengen in Echtzeit durch Amazon Translate oder Amazon Comprehend. Bei letzterem wird maschinelles Lernen genutzt, um Zusammenhänge in Texten zu identifizieren und so Einsichten zu gewinnen.

Helfen Sie uns mal, wann spricht man eigentlich von KI und wann von Datamining?

KI hat drei Komponenten: Die erste ist die Darstellung von Wissen. Früher hat man ein System intelligent gemacht, indem man bei Experten Wissen abfragte, um daraus eine "Wenn-Dann-Vorhersage" darzustellen. Die zweite Komponente ist das Lernen von Regeln. Statt sie wie in der Vergangenheit aufzuschreiben, geht man dazu über, Regeln aus der Beobachtung mithilfe von Sensorik heraus aufzunehmen und zu erlernen – im Bild- und Tonbereich, aus Positionen und vielen Annotationen. Das System erkennt die Regeln also aus digitalen Beobachtungen, wertet sie aus und gibt diese Regeln aus. Die dritte Komponente ist das Agieren mit der physischen Umgebung – beispielsweise die Bildschirm-Anzeige, der Lautsprecher-Ton oder das Steuern von Roboterarmen oder des Autos.

Zusammen ist KI üblicherweise die Darstellung von Wissen, das Lernen von Regeln, und die Anwendung von Regeln. Maschinelles Lernen ist der zentrale Teil der Auswertung, wie diese Regeln aus der physischen in die digitale Welt gelangen. Dabei hilft heute die Zunahme an Sensorik-Daten.

Ralf Kleber, Deutschlandchef von Amazon, im Gespräch

Wie im Supermarkt ohne Kasse, bei Amazon Go?

Im Moment ist das noch ein Experiment in Seattle mit dem Ziel, dass kein Kunde mehr an der Kasse Schlange stehen muss. Der Shop wird zurzeit mit Mitarbeitern getestet. Ich war drin und es funktioniert erstaunlich gut: Man identifiziert sich mit einem Barcode am Eingang, packt alles in die Tasche und geht einfach raus. Die Kameras sehen den Kunden, Sensoren erfassen, was er greift oder wieder zurücklegt. Jedes Produkt mit einem eigenen Sensor auszustatten würde zu viel kosten. Amazon Go ist gutes Beispiel, wie ein KI-System funktioniert: Wird ein Produkt gegriffen oder zurückgelegt? In welcher Tasche landet es? Wenn der Kunde den Shop verlässt, erhält er die Rechnung umgehend per App. Hier wird die Anwendung von Intelligenz sichtbar.

Wie wichtig ist für Amazons KI der Standort Deutschland?

In Berlin haben wir eines der größten Machine Learning-Teams von Amazon weltweit. Für uns zählt Deutschland, neben weiteren Standorten wie Barcelona und Cambridge, wegen seiner wissenschaftlichen Stärke und der hoch qualifizierten Leute zu den wichtigsten Standorten. Hier in Berlin haben wir nicht nur vier Universitäten und zahlreiche Forschungsinstitute, sondern auch ein großes Start-up-Umfeld.

Ziehen Sie auch Brain aus den Instituten raus?

Nein, wir arbeiten in einer Symbiose mit der Wissenschaft. Es passiert leider häufig, dass Unternehmen Wissenschaftler abwerben. Ich sehe das kritisch, weil aus diesen Instituten ja die künftigen Wissenschaftler kommen sollen. Gemeinsam mit der TU Berlin hat Amazon ein Postdoktoranden-Modell. Dabei arbeiten die Postdocs vier Tage bei uns und einen Tag am TU-Institut für Datenbanksysteme und Informationsmanagement von Prof. Volker Markl. Umgekehrt ist es beim Programm Amazon Scholar. Hier können Wissenschaftler ein Urlaubssemester oder einen Forschungsaufenthalt flexibel für Projekte bei Amazon nutzen. Derzeit sind zwei Direktoren der Max-Planck-Gesellschaft bei uns. Und unser CEO macht es uns ja vor: Jeff Bezos ist vier Tage bei Amazon und einen Tag beim Raumfahrtunternehmen Blue Origin, das Modell läuft offensichtlich ganz gut. (Lacht.) Brain Drain ist gefährlich, weil das die Zukunft vernichtet.

Gibt es einen Engpass?

KI ist ein heißumkämpftes Talentfeld. Viele KI-Wissenschaftler kommen aus der Statistik und haben Informatik-Kenntnisse, einige kennen sich mit technischer Informatik aus. Aber künftig brauchen wir mehr Menschen an dieser Schnittstelle, die uns sagen, bis wohin die Bearbeitung riesiger Datenmengen überhaupt noch wirtschaftlich ist. Die Kosten für Rechenkapazitäten spielen in Zukunft eine immer größere Rolle. Hier ist der Mensch noch immer die sparsamste Energiequelle. Bis Rechnerprozessoren so effizient sind wie das menschliche Gehirn, dauert es aber noch eine Weile.

Der Artikel erschien zuerst im Wirtschaftsmagazin "Capital". Hier geht es zum Abo-Shop. Die Digital-Ausgabe gibt es bei iTunes,  GooglePlay und Amazon

Kann ich mich auf Geschwindigkeitsanzeige FritzBox verlassen?
Hallo zusammen, erstmal herzlichen Dank für die Leute, die sich Zeit nehmen Fragen zu beantworten oder ihre Erfahrungen mit anderen teilen. Das ist oft hlifreich, wenn man sich nicht so auskennt. Ich hoffe, dass mir jemand weiterhelfen kann. Die Telekom hat hier nach langer und ersehnter Zeit schnelle Leitungen verlegt. Mitarbeiter waren auch zu Besuch da und auch nett:-) Sie wollten ja auch, dass ich von 1und1 wieder zurück wechsel. Das ist für mich in Ordnung und gehört zum Wettbewerb. Da jedoch die Mitarbeiter mir sagten, dass die Telekom für paar Jahre das Vorrecht hätte, könnte ich schnelles Internet nur über Telekom beziehen. Sprich entweder Telekom und schnelles Internet oder langsames Internet. Da habe ich im Internet recherchiert und rausgefunden, dass das so nicht mehr stimmt. Das war der Grund, warum ich dann bei 1und1 DSL100 abgeschlossen habe, da man mir am Telefon gesagt, dass es ohne Probleme möglich wäre. Nun ist es jedoch so, dass wir gar nicht so merken, dass unser Internet schneller ist. Gerade in der oberen Etage kann man nicht ohne Router surfen oder Sky über Internet Fernsehen. Nun meine Frage: Bei der Fritzbox wird es jedoch angezeigt. Kann ich mich drauf verlassen? Oder wie macht ihr eure Messungen? Ich weiss, dass es Software gibt, aber der feste Rechner ist bereits alt und hat einen alten Internet Explorer drauf. Wenn ich mit einem Laptop im Wlan mich reinhänge, wird sicher die Geschwindigkeit sowieso niedriger und nicht verwertbar sein, oder? Vielen Dank für die Antworten.