Interaktion von Mensch und Maschine
Menschliche Bewegung zuverlässig erkennen
Die genaue Erkennung von Menschen im industriellen Umfeld ist eine besondere Herausforderung. Doch was genau macht es so schwierig, Menschen zuverlässig zu erkennen?
Eine Maschine so zu trainieren, dass sie die Welt um sich herum nicht nur wahrnimmt, sondern auch versteht, ist eine komplexe technologische und rechnerische Herausforderung. Eine noch weitaus komplexere Aufgabe ist die Erkennung von Menschen, da die Einzigartigkeit und Vielfalt des Menschen diesen zu einem der schwierigsten zu erkennenden Objekte machen, wenn ein System nicht ausgiebig auf bestimmte Personen trainiert werden soll. So kann bereits eine Änderung der Kleidung oder der Frisur zu Problemen in der Erkennung führen. Kommen zusätzliche Faktoren wie ein räumlich ausgedehntes Interaktionsumfeld oder die Unvorhersehbarkeit menschlichen Verhaltens hinzu, wachsen die technischen Herausforderungen schnell.
In Industrieumgebungen beispielsweise arbeiten oft mehrere Menschen in hoher Geschwindigkeit und führen verschiedene Aufgaben im selben Raum aus. Der Versuch, deren Bewegungen aus einer seitlichen oder gar isometrischen Ansicht zu verfolgen, hat bisher nur unzureichende Lösungen gebracht, da eine solche Lösung ein Verständnis des Systems für die Tiefe der Sicht voraussetzt. Bei einer Konfiguration mit nur einer Kamera kann eine Person zudem leicht die Sichtung einer anderen verdecken und tote Winkel schaffen.
Eine der größten Herausforderungen bei der Entwicklung von Bildverarbeitungssystemen findet sich darüber hinaus nicht so sehr in der Erfassung von Bildern, sondern vielmehr in deren Verarbeitung. Damit eine Maschine menschliche Bewegungen in Echtzeit verstehen kann, ist eine starke Rechenleistung erforderlich, um sowohl hohe Geschwindigkeit als auch Genauigkeit zu gewährleisten. Da keine Umgebung der anderen gleicht, war die Entwicklung eines Systems, das nicht nur die Nuancen menschlicher Bewegungen verstehen, sondern sich auch unterschiedlichen Szenarien und Beleuchtungsniveaus anpassen kann, bislang ein Hindernis für die breite Anwendung solcher Technologien.
Eine andere Perspektive
Menschenerkennungssysteme beruhen typischerweise auf einer Top-Down-Perspektive (von oben nach unten) und nehmen ähnlich wie Sicherheitskameras Bilder auf. Dieser Top-Down-Ansatz ist deshalb üblich, da es eine Fülle von öffentlich zugänglichen Bildaufnahmen aus diesem Blickwinkel gibt, die für das Training von KI-Modellen verwendet werden. Aus der Vogelperspektive ist es für Erkennungs-systeme jedoch schwierig, die Position von Menschen im Detail zu erfassen, vor allem, wenn sich Personen in der Szene überschneiden. Das macht es weniger effektiv für Unterstützungsaufgaben wie etwa die Verbesserung der Arbeitseffizienz.
Omron hat sich für das Kamerasystem ‚AM1‘ daher für ein Training anhand von Bildern entschieden, die von vorn aufgenommen wurden, das heißt aus der gleichen Perspektive, aus der ein Kollege den anderen sehen würde. Da solche Bilder im Internet jedoch nur selten zu finden sind, wurden die KI-Modelle mit einem eigenen, proprietären Datensatz erstellt und trainiert. Dieser Ansatz verleiht dem System, das für menschliche Produktivität in industriellen Umgebungen entwickelt wurde, einen Vorteil bei der Erkennung und Analyse menschlicher Bewegungen. Es verwendet eine einzelne Top-Down-Kamera in Kombination mit einer Software, die speziell zur Erkennung und Interpretation menschlicher Bewegungen optimiert wurde.
Menschliche Bewegungsmuster
Das AM1-System wird mit Standbildern und nicht mit Bewegungsabläufen trainiert. Allerdings hat Omron eine Vielzahl von Körperhaltungen und Bewegungsmustern in diese Standbilder aufgenommen, um sicherzustellen, dass typische menschliche Verhaltensweisen wie Gehen, Stehen, Bücken oder Greifen umfassend erfasst werden. Die KI ist darauf trainiert, diese statischen Posen zu erkennen, die bei der Verarbeitung in Echtzeit dynamische Bewegungen darstellen. Dieser Ansatz benötigt keine Millionen von Trainingsbildern; stattdessen deckt ein sorgfältig ausgewählter Satz von Bildern die wichtigsten Körperhaltungen und Szenarien ab. So lässt sich das System effizient trainieren, ohne auf einen übermäßig großen Datensatz angewiesen zu sein.
Erfassungsbereich und Bildrate
Die Software kann bis zu zehn Personen innerhalb eines 7 m × 7 m großen Bereichs mit einer Genauigkeit von über 95 Prozent erfassen. Auf diese Weise ist verfolgbar, wo und wie sich Mitarbeiter bewegen oder wie lange sie sich an einem bestimmten Ort aufhalten. Diese Art von Informationen können Unternehmen nutzen, um Engpässe zu erkennen und sicherzustellen, dass Raumnutzung und Arbeitsabläufe so effizient wie möglich sind. In der Praxis könnte dies bedeuten, Hindernisse auf Wegen zu beseitigen, die am häufigsten benutzten Wege zu verkürzen oder die Wahrscheinlichkeit zu verringern, dass Arbeitnehmer den Weg eines anderen kreuzen müssen. Indem Probleme früher erkannt und verstanden werden, lassen sich schneller Lösungen auf der Basis eines datengestützten Ansatzes finden.
Die Genauigkeit des AM1 wird durch eine Bildrate von zehn Bildern pro Sekunde erreicht. Die Bilddaten der Kamera, oder gegebenenfalls mehrerer Kameras, werden über Ethernet in einen Verarbeitungs-Hub eingespeist, der von einem ‚OpenVino‘-Beschleuniger von Intel betrieben wird.
In Fällen, in denen größere Bereiche abgedeckt werden müssen zum Beispiel in Räumen, die größer als 7 m × 7m sind, ist es möglich, die Ergebnisse mehrerer Kameras zu kombinieren. Indem die Bilder der einzelnen Kameras zusammengefügt und überlappende Bereiche entfernt werden, kann das System ein nahtloses, größeres Sichtfeld erzeugen.
Der ‚OpenVino‘-Beschleuniger
Das OpenVino-Toolkit (Open Visual Inference and Neural Network Optimization) von Intel ist ein Software-Framework zur Beschleunigung der Leistung von Deep-Learning-Modellen für Computer-Vision-Anwendungen. Es optimiert vortrainierte KI-Modelle für die effiziente Ausführung auf Intel-Hardware, einschließlich CPUs, integrierten GPUs, FPGAs und speziellen Beschleunigern.
Im Fall des AM1-Systems dient das Toolkit als Beschleuniger, indem es die Modelle zur Menschenerkennung und Bewegungsinterpretation schneller und effizienter auf Standard-Computerplattformen laufen lässt. Dadurch wird die Inferenzzeit (das heißt, die Zeit, die für die Verarbeitung neuer Bilder und die Generierung von Erkennungsergebnissen benötigt wird) erheblich verkürzt, was für Echtzeitanwendungen in industriellen Umgebungen entscheidend ist. Im Wesentlichen trägt OpenVino dazu bei, dass das AM1-System eine schnelle, zuverlässige und genaue Erkennung von Menschen ermöglicht, ohne dass High-End- oder Spezialhardware erforderlich ist.
Hierdurch ist es dem System möglich, Rohdaten schnell in nützliche Informationen umzuwandeln. ‚Schnell‘ bezieht sich in diesem Zusammenhang auf die Fähigkeit des Systems, Bilddaten zu verarbeiten und die Anwesenheit oder Körperhaltung von Menschen in Echtzeit oder nahezu in Echtzeit zu erkennen. Das AM1-System kann menschliche Positionen mit minimaler Verzögerung, in der Regel innerhalb von Millisekunden, erkennen und analysieren kann, so dass es sofort auf Veränderungen in der Umgebung reagieren kann.
Für industrielle Anwendungen ist dieses Geschwindigkeitsniveau unerlässlich, um einen reibungslosen Betrieb zu gewährleisten, Engpässe zu vermeiden und Sicherheitsprotokolle zu unterstützen. Wird das System beispielsweise zur Überwachung der Anwesenheit von Mitarbeitern in einem Gefahrenbereich oder zur Optimierung der Effizienz von Arbeitsabläufen eingesetzt, muss es menschliche Bewegungen ohne spürbare Verzögerung erkennen und darauf reagieren. Nach der Verarbeitung werden die Informationen dann für menschliche Bediener an einen Standard-PC oder eine SPS weitergeleitet.
Dank Omrons umfangreicher Datenbibliothek, die in jahrelanger Entwicklung von Bildverarbeitungslösungen gesammelt wurde, muss das System nicht auf bestimmte Personen trainiert werden und kann jeden menschlichen Körpertyp erkennen. Daher sind für Nutzer keine besonderen Programmierkenntnisse erforderlich.












