Nachrichten, Gerüchte, Meldungen und Berichte aus der IT-Szene

Redaktion: Heinz Schmitz


Suchroboter denkt mit KI

Das Laptop berechnet permanent, wie wahrscheinlich der gesuchte Gegenstand wo liegt und fährt dann zu diesen Orten. (Quelle: A. Schmitz / TUM)

Das Laptop berechnet permanent, wie wahrscheinlich der gesuchte Gegenstand wo liegt und fährt dann zu diesen Orten. (Quelle: A. Schmitz / TUM)

 

Der neue Roboter aus dem Learning Systems and Robotics Lab der Technische Universität München (TUM) von Prof. Angela Schoellig sieht aus wie ein fahrbarer Besenstil, an dessen oberen Ende eine Kamera montiert ist. Er ist einer der ersten Roboter, der Bildverständnis nicht nur integriert, sondern für eine klar definierte Aufgabe nutzt.

 

Um etwa eine verlegte Brille in der Küche zu finden, muss sich der Roboter umsehen und ein dreidimensionales Bild des Raumes aufbauen. Die Kamera liefert zunächst zweidimensionale Bilder, deren Bildpunkte jedoch zusätzlich Tiefeninformationen enthalten. So entsteht ein zentimetergenaues räumliches Bild der Umgebung, das ständig aktualisiert wird. Ein Laptop versorgt den Roboter zusätzlich mit Informationen dazu, welche Gegenstände auf dem Bild zu sehen sind und welche Bedeutung sie für den Menschen haben. „Wir haben dem Roboter beigebracht, die Umgebung zu verstehen“, sagt Prof. Angela Schoellig. Die Vision der Leiterin des Robotik-Labs im TUM- Lehrstuhl für Sicherheit, Performanz und Zuverlässigkeit für lernende Systeme ist, Roboter zu entwickeln, die sich selbständig in beliebigen Umgebungen zurechtfinden. Humanoide Roboter, die in Fabriken arbeiten, oder Roboter in der Pflege, die sich in unterschiedlichen Wohnungen aufhalten, erfordern dieses neu entwickelte Grundverständnis, das „für alle Roboter wichtig ist, die sich in Räumen bewegen, die sich ständig verändern“, wie Schoellig sagt.

 

Internetwissen in Sprache des Roboters umgewandelt

Dem Roboter ist also klar, dass etwa ein Tisch oder eine Fensterbank dafür genutzt werden, eine Brille kurz abzulegen, während eine Herdplatte oder Spülbecken dafür eher nicht in Frage kommen. „Das Sprachmodell spielt die Beziehungen zwischen den Objekten ein und wir wandeln diese Informationen in die Sprache des Roboters um“, erläutert Prof. Schoellig. Auf der dreidimensionalen Karte der Umgebung erscheinen kleine zweistellige Zahlen, die ständig neu beziffern, wie wahrscheinlich es ist, dass sich der gesuchte Gegenstand dort befindet. Daraufhin fährt der Roboter die wahrscheinlichen Orte um fast 30 Prozent effizienter ab, als wahllos im Raum zu suchen, so die Forschungsergebnisse. Künstliche Intelligenz kommt also gleich doppelt zum Einsatz, einerseits in der Bilderkennung, andererseits durch den Einsatz eines Sprachmodells.

 

Weiterer Trick des Roboters: Er merkt sich alte Bilder und ist in der Lage, sie mit neuen Bildern der Umgebung zu vergleichen. Befindet sich also plötzlich ein neuer Gegenstand in der Küche, erkennt er diese Veränderung sehr sicher (95 Prozent) und diese Regionen sind schon mal als „hoch wahrscheinlich“ für die Suche vorgemerkt.

 

Nächster Schritt: Die Suche hinter Schranktüren

Im nächsten Schritt will die TUM-Wissenschaftlerin und Vorständin im Munich Institute of Robotics and Machine Intelligence (TUM MIRMI) auch Gegenstände suchen, die sich in einer Schublade oder hinter einer Tür befinden. Dafür wird der Roboter allerdings nicht „nur“ auf Wissen aus dem Internet zurückgreifen, sondern mit der Umgebung interagieren müssen. Roboterarme und -hände müssen einen Wandschrank öffnen und verstehen, ob er sich nach oben oder zur Seite öffnen lässt und wie er den jeweiligen Griff am besten anfassen sollte.

 

Originalpublikation:

“Where did I leave my glasses? Open-Vocabulary Semantic Exploration in Real-World Semi-Static Environments”; Benjamin Bogenberger, Oliver Harrison, Orrin Dahanaggamaarachchi, Lukas Brunke, Jingxing Qian, Siqi Zhou, Angela P. Schoellig; IEEE Robotics and Automation Letters, 3. März 2026

https://ieeexplore.ieee.org/document/11359697

 

Siehe auch:

https://www.mirmi.tum.de/.

 

Wissenschaftliches Video:

https://utiasdsl.github.io/semi-static-semantic-exploration/

 

Zurück