Künstliche Intelligenz für den physischen Raum

Melanie Steinbeck,

Alibaba erweitert Qwen-Modellfamilie um Robotik-Suite für Physical AI

Alibaba erweitert seine Qwen-Modellfamilie um eine Robotik-Suite für Physical AI. Die drei Modelle für Manipulation, Navigation und Simulation sollen autonome Roboter bei komplexen Aufgaben in realen Umgebungen unterstützen.

Symbolbild © IM Imaginary/stock.adobe.com

Künstliche Intelligenz kann heute Texte schreiben, Bilder analysieren und Gespräche führen. Schwieriger wird es, wenn sie nicht nur denken, sondern handeln soll. Genau an dieser Schnittstelle zwischen digitaler und physischer Welt setzt Alibaba mit seiner neuen Qwen-Robot Suite an. Die Erweiterung der Qwen-Modellfamilie soll Robotern helfen, ihre Umgebung wahrzunehmen, Entscheidungen zu treffen und Aufgaben selbstständig auszuführen.

Die Suite umfasst drei Kernmodelle: Qwen-RobotManip für Manipulationsaufgaben, Qwen-RobotNav für Navigation sowie Qwen-RobotWorld als sogenanntes Video-World-Model für verkörperte Intelligenz.

Wenn KI die Hände schmutzig macht

Große multimodale Modelle können Texte, Sprache und Bilder inzwischen beeindruckend gut verarbeiten. Die Übersetzung dieser Fähigkeiten in präzise physische Handlungen gilt jedoch weiterhin als eine der größten Herausforderungen der Robotik. Denn Roboter müssen Sprachbefehle nicht nur verstehen, sondern in konkrete Bewegungen umsetzen, unbekannte Umgebungen erfassen und mit Objekten umgehen, die sie noch nie zuvor gesehen haben.

Anzeige
Qwen-RobotManip, Codename Lira und Atlas, erzielte laut Alibaba führende Ergebnisse in RoboChallenge, einem Benchmark für verkörperte Intelligenz mit realen Robotern. © Alibaba

Genau dafür wurde die Qwen-Robot Suite entwickelt. Die Modelle sollen reale Roboter – vom Industrieroboterarm über Lieferroboter bis hin zum Roboterhund – dabei unterstützen, ihre Umgebung in Echtzeit wahrzunehmen, Entscheidungen abzuleiten und Handlungen auszuführen. Besonders wichtig ist dabei ihre Fähigkeit zur Generalisierung: Neue Aufgaben, neue Orte oder neue Objekte sollen ohne aufwendige Anpassungen bewältigt werden können.

Sehen, verstehen, handeln

Die drei Modelle erzielen laut Alibaba in Dutzenden anerkannter Robotik-Benchmarks branchenführende Ergebnisse. Dazu gehört auch RoboChallenge, ein groß angelegter Benchmark für verkörperte Intelligenz mit realen Robotern. Ausgewählte Unternehmenskunden von Alibaba Cloud aus der Robotikbranche testen die Qwen-Robot Suite bereits in Pilotprojekten.

Qwen-RobotManip, Codename Lira und Atlas, basiert auf Qwen3.5-4B VL und wurde mit mehr als 38.000 Stunden quelloffener Daten trainiert. Die Trainingsdaten stammen unter anderem aus Robotik-Repositorien, Videos menschlicher Manipulationshandlungen und synthetisch erzeugten Human-to-Robot-Datensätzen. Das Modell verbessert den bisherigen Stand der Technik beim Transfer zwischen unterschiedlichen Roboterplattformen um den Faktor drei. Dadurch lässt es sich mit minimalem Nachtraining auf verschiedener Roboterhardware einsetzen.

Qwen-RobotNav basiert auf Qwen3-VL und wurde mit 15,6 Millionen kuratierten Beispielen trainiert. Die Daten decken Trajektorienplanung sowie visuell-sprachliches Schlussfolgern ab. Das Modell dient zugleich als skalierbare Navigations-Engine und als einheitliche Schnittstelle für agentische Navigationssysteme. Damit eignet es sich besonders für agentische Systeme, die langfristige Aufgaben bearbeiten, etwa Embodied Question Answering. Dabei beantwortet ein Roboter Fragen zu seiner Umgebung – zum Beispiel, wo ein bestimmter Gegenstand abgelegt wurde.

Qwen-RobotWorld sagt auf Basis aktueller Beobachtungen physikalisch plausible zukünftige visuelle Bewegungsabläufe voraus. Alibaba hat das Modell mit 8,6 Millionen Video-Text-Paaren trainiert. Diese umfassen mehr als 200 Millionen Frames, über 20 Verkörperungstypen und 500 Aktionskategorien. Das Modell kann synthetische Videotrainingsdaten für Roboter erzeugen und Systeme künftige Bewegungsabläufe vor der Ausführung simulieren lassen. Diese Fähigkeit eignet sich besonders für robotische Manipulation, verkörperte Planung und komplexe Indoor-Navigation.

Vom Chatbot zum Akteur

Mit der Qwen-Robot Suite überträgt Alibaba seine Qwen-Architektur aus der digitalen Welt in die Physical AI. Der Technologiekonzern richtet seinen Fokus damit weg von einfachen Chatbots und hin zu autonomen Agenten, die komplexe Aufgaben in der digitalen und physischen Welt bearbeiten.

Die Qwen-Robot Suite erreicht laut Alibaba in mehreren Robotik-Evaluierungsbenchmarks führende Ergebnisse über verschiedene Aufgabenbereiche hinweg. © Alibaba

Die Qwen-Robot Suite soll die Grundlage dafür schaffen, allgemeine KI-Modelle in praktische Agenten für den physischen Raum zu überführen. Allgemeine Qwen-Modelle können direkt mit den Robotikmodellen zusammenarbeiten und sie als spezialisierte Werkzeuge nutzen. So soll die Lücke zwischen allgemeiner Intelligenz und physischer Handlung geschlossen werden.

Wie das aussehen kann, zeigt Alibaba anhand eines Beispiels: „Prüfe, ob jemand einen grünen Regenschirm bei Cotti Coffee liegen gelassen hat.“ Für eine solche Anfrage kann ein agentisches System ein allgemeines Qwen-Modell als strategischen Planer auf höherer Ebene einsetzen und Qwen-RobotNav für die Echtzeitausführung nutzen. Das System navigiert dann autonom durch den physischen Ort und liefert eine Antwort, die auf konkreten Beobachtungen basiert.

Perspektivisch will Alibaba die Qwen-Robot Suite in ein breiteres Ökosystem physischer Agenten integrieren. Diese Agenten sollen Umgebungen autonom wahrnehmen, räumliche Entscheidungen treffen und langfristige Aufgaben in dynamischen realen Umgebungen ausführen.

  • Xing Icon
  • LinkedIn Icon
Anzeige
Anzeige

Das könnte Sie auch interessieren

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Jetzt Newsletter abonnieren