Banner schließen

2022-11-14 15:25:43 By : Ms. Lillian Yang

Vielen Dank für Ihren Besuch auf nature.com.Sie verwenden eine Browserversion mit eingeschränkter CSS-Unterstützung.Um die beste Erfahrung zu erzielen, empfehlen wir Ihnen, einen aktuelleren Browser zu verwenden (oder den Kompatibilitätsmodus im Internet Explorer zu deaktivieren).In der Zwischenzeit zeigen wir die Website ohne Stile und JavaScript an, um eine kontinuierliche Unterstützung zu gewährleisten.Karussell mit drei Dias, die gleichzeitig angezeigt werden.Verwenden Sie die Schaltflächen Zurück und Weiter, um durch drei Folien gleichzeitig zu navigieren, oder die Schaltflächen mit den Folienpunkten am Ende, um jeweils drei Folien zu überspringen.Elahe Abdi, Dewi Tojib, … George Millington-PalmerRakshith Lokesh, Seth Sullivan, … Joshua GA CashabackDébora Pereira, Yuri De Pra, … Gastone CiutiSolène Guenat, Phil Purnell, … Martin DallimerYo Nakawake & Yutaka KobayashiKyveli Kompatsiari, Francesca Ciardo, … Agnieszka WykowskaScientific Data Band 9, Artikelnummer: 673 (2022 ) Diesen Artikel zitierenMit fortschreitender Technologie steigert die Mensch-Roboter-Interaktion (HRI) die Gesamtsystemeffizienz und -produktivität.Die Möglichkeit, dass Roboter eng bei Menschen anwesend sein können, stellt jedoch unweigerlich höhere Anforderungen an die präzise Verfolgung und Vorhersage menschlicher Bewegungen.Datensätze, die sowohl Menschen als auch Roboter enthalten, die im gemeinsam genutzten Raum operieren, erhalten wachsende Aufmerksamkeit, da sie eine Vielzahl von Robotik- und Mensch-System-Forschung erleichtern können.Datensätze, die HRI mit anderen reichhaltigen Informationen als Videobildern während der täglichen Aktivitäten verfolgen, werden selten gesehen.In diesem Artikel stellen wir einen neuartigen Datensatz vor, der sich auf die soziale Navigation zwischen Menschen und Robotern in einer zukunftsorientierten Groß- und Einzelhandelsumgebung (WRT) konzentriert (https://uf-retail-cobot-dataset.github.io/).Acht Teilnehmer führten die Aufgaben aus, die üblicherweise von Verbrauchern und Einzelhandelsmitarbeitern ausgeführt werden.Es wurden mehr als 260 Minuten Daten gesammelt, darunter Bewegungsbahnen von Robotern und Menschen, Erfassung menschlicher Ganzkörperbewegungen, Blickrichtungen und andere kontextbezogene Informationen.Umfassende Beschreibungen jeder Kategorie von Datenströmen sowie potenzielle Anwendungsfälle sind enthalten.Darüber hinaus werden Analysen mit mehreren Datenquellen und zukünftige Richtungen diskutiert.Die Verwendung von Methoden der künstlichen Intelligenz (KI) zur genauen Modellierung menschlicher Bewegungsmuster (Trajektorie, Körperhaltung usw.) hat in letzter Zeit erhebliche Aufmerksamkeit erfahren.Diese Forschungsrichtung hat weitreichende Auswirkungen auf viele Bereiche, wie autonomes Fahren1,2,3, kollaborative Roboter (Co-Bots)4,5,6,7 und Überwachung der öffentlichen Sicherheit8,9.Über viele Jahrtausende hinweg haben unsere Vorfahren die Fähigkeit erworben, die Absichten und Reaktionen anderer Akteure in der Nähe (z. B. Menschen, Haustiere, Fahrzeuge) in ihren Entscheidungsprozess einzubeziehen.Diese belastbaren Überlebens- und Sozialfähigkeiten haben viele Aspekte unseres modernen Lebens stillschweigend unterstützt, von der Navigation durch überfüllte Räume über das Fahren auf einer örtlichen Straße bis hin zum einfachen Verhalten unter anderen Menschen10.Um in dynamischen und komplexen Umgebungen sicher und angemessen zu agieren, sollten Roboter wie Menschen eine genaue menschliche Bewegungswahrnehmung und menschenähnliche Verhaltensplanung als kritische „Bewusstseins“- und Entscheidungsfähigkeiten einsetzen, insbesondere wenn sie den Raum mit Menschen teilen.Die Ära allgegenwärtiger Co-Bots wird mit den schnellen Fortschritten von KI, Robotik, Steuerung, 5G und vielen anderen unterstützenden Techniken Realität.Während der COVID-19-Pandemie konnten Co-Bots in vielen Umgebungen auf engstem Raum mit Menschen interagieren, um soziale Distanzierung zu fördern.Zu den durchgeführten Aufgaben gehörten die Überwachung11, die Durchführung von COVID-19-Tests12 und die Desinfektion von Bodenflächen13.Dieser Nutzen hat sich während der Pandemie als unerlässlich erwiesen, da physischer Kontakt gefährlicher und weniger wünschenswert wurde.Selbst nach dem Ende der Pandemie werden diese Co-Bots wahrscheinlich nicht verschwinden, da die Menschen begonnen haben, den Nutzen von Robotern zu erkennen, was zu einer höheren Akzeptanz führen wird14.Es wäre die neue Norm, dass Menschen und Roboter denselben Raum teilen und eng zusammenarbeiten.Um ein nahtloses und harmonisches HRI zu erreichen, müssen Roboter menschliche Intentionen genau wahrnehmen und sich sozialverträglich verhalten.Ein besonderer Engpass ist der Mangel an öffentlich zugänglichen Datensätzen von HRI, aus denen KI-Modelle lernen können.Datensätze, die HRI-Szenarien enthalten, sind noch seltener und der Aspekt der kontextbezogenen Informationen kann weiter verbessert werden, wie z. B. High-Fidelity-Simulationsumgebungen und detaillierte Absichten und Bewegungsverhalten der menschlichen Teilnehmer.Es wurden mehrere menschliche Trajektorien-Datensätze veröffentlicht.Viele von ihnen, wie ETH15, UCY16, Edinburgh17, Town Center18 und Daimler Pedestrian19, wurden im Freien mit einer oder mehreren Videokameras aufgenommen.Es gibt auch in Innenräumen gesammelte Datensätze, wie JRDB20, Central station21, ATC22 und MoGaze23.Die meisten dieser Datensätze haben Menschen jedoch nur mit Begrenzungsrahmen kommentiert und die Vorzüge anderer Kontextinformationen wie menschliche Absicht, Körperhaltung und Kinematik auf Gelenkebene vernachlässigt.Darüber hinaus enthielten sie keine detaillierte menschliche körperliche Fortbewegung sowie die physiologische Leistung während der Aufgaben.Es gibt viele Datensätze, die der Überwachung und Aufzeichnung menschlicher Bewegungen über verschiedene Bewegungserfassungssysteme gewidmet sind.Beispiele wie CMU Graphics Lab Motion Capture Database24, Human3.6 m25 und KIT26 wurden unter Verwendung des optischen Bewegungserfassungssystems (z. B. Vicon) aufgezeichnet, während Datensätze von 27, 28 und 29 unter Verwendung von tragbaren Sensoren aufgezeichnet wurden.Diese Datensätze sind jedoch meist auf eigenständige (fehlende Interaktionen zwischen Menschen und Umgebung und Agenten) und häusliche tägliche Aktivitäten (z. B. Sitzen, Stehen) beschränkt.Es kann eine begrenzte Anzahl von Datensätzen gefunden werden, die menschliche und vom Menschen verursachte Agenteninteraktionen abdecken.Datensätze mit HRI sind noch seltener.Tabelle 1 fasst sechs öffentlich zugängliche Datensätze zusammen, die diversifizierte Agenten in der Umwelt enthalten.Drei Datensätze, L-CAS, KTH und THÖR, enthalten einen oder mehrere Roboter.Unter ihnen enthält nur THÖR detaillierte Kontextinformationen wie menschliche Absichten und menschliche Körperhaltungen.Das Fehlen solcher Datensätze wurde zur Hauptmotivation für diese Forschungstätigkeit.Daher sind umfassendere Datensätze erforderlich, um zukünftige Fortschritte beim Roboterlernen zu fördern.In diesem Artikel stellen wir einen Datensatz vor, der sich auf die soziale Navigation zwischen Menschen und Robotern in einer Einzelhandelsumgebung konzentriert.Der WRT-Bereich wird aufgrund der erheblichen Zunahme des Robotereinsatzes in diesem Industriesektor als Fokus und Testumgebung dieser Arbeit ausgewählt.Der Einsatz von Robotern im WRT-Sektor wurde durch das Auftreten der Pandemie verstärkt, die einen entscheidenden Bedarf für die sichere Integration dieser Technologie in die Industrie ausgelöst hat.Darüber hinaus bieten Einzelhandelsumgebungen im Vergleich zu anderen üblichen Robotereinsatzumgebungen (Produktionsanlagen, große Vertriebszentren usw.) direktere und häufigere HRI-Möglichkeiten, wodurch menschliche Bewegungsdaten wertvoller werden.Die Datenerhebung erfolgte mit acht gesunden Teilnehmern, fünf Männern und drei Frauen.Alle Teilnehmer wurden aus der Studentenschaft der University of Florida rekrutiert und gaben an, gesund zu sein.Ihr mittleres (SD) Alter, ihre Größe mit Schuhen und ihr Körpergewicht betrugen 19,4 (2,0) Jahre, 176,7 (10,2) cm und 66,0 (10,1) kg.Sieben der Teilnehmer gaben an, Rechtshänder zu sein, und einer wurde als beidhändig beschrieben.Die Teilnehmer erklärten sich freiwillig mit der Aufzeichnung einverstanden und wurden darüber informiert, dass die in der Studie erhobenen Daten veröffentlicht werden.Das Experimentprotokoll wurde vom Institutional Review Board der University of Florida (IRB202002765) genehmigt.Das Experiment wurde in einer zukunftsorientierten WRT-Forschungsanlage durchgeführt (Abb. 1).Dieses Labor ermöglicht es Forschern und Praktikern, Studien durchzuführen und Interaktionsprotokolle mit neuen WRT-Methoden zu üben.Dazu gehören No/Low-Touch-Schließsysteme, Diebstahlsicherungen, Schutzdisplays, Tag/Nacht-Kameras mit Edge-AI und spezielle Public-View-Monitore, die personalisierte Werbung oder Botschaften liefern.Es umfasst auch konfigurierbare Wände und Regale sowie multifunktionale Einheiten, die eine hochflexible Anpassung des physischen Layouts ermöglichen.Oben: ein Bild der zukunftsorientierten Forschungseinrichtung WRT.Unten links: 2D-Kostenplan der Anlage und Abmessungen des Versuchsgeländes.Unten rechts: ein Bild der angepassten mobilen Roboterplattform, die im Experiment verwendet wurde.Der im Experiment verwendete Roboter war eine kundenspezifische mobile Roboterplattform, die aus einer Fetch Freight Base (Fetch Robotics, Inc., San Jose, Kalifornien) und einem UR5-Robotermanipulator (Universal Robots, Odense, Dänemark) bestand.Die Roboterplattform hat eine Grundfläche von 0,508 × 0,559 m und eine Höhe von 1,295 m, wie in Abb. 1 dargestellt. Die mobile Roboterbasis wurde im Robot Operating System (ROS) mit einem Intel i3-Prozessor, 8 GB RAM und 120 betrieben GB-SSD.Der UR5-Manipulator hatte ein Gewicht von 18,4 kg und verfügt über sechs Drehgelenke und eine maximale Nutzlast von 5 kg.Die Roboterplattform wurde mit einem eingebetteten 2D-Lidar mit einer Reichweite von 25 m und einem Sichtfeld von 220 Grad (TIM571 SICK, Waldkirch, Deutschland), einer Logitech C920-Webcam (Logitech, Lausanne, Schweiz) und einer 6D-Inertialmessung ausgestattet Unit (IMU) und zwei Rad-Encoder.Durch die Integration der Webcam auf dem mobilen Roboter wurden die Videodaten zusammen mit anderen Roboterdaten im Rosbag-Format gespeichert.Darüber hinaus wurden die Videos im Gegensatz zu einer eigenständigen Kamera an der Decke automatisch mit anderen Roboterdaten synchronisiert.Während des Experiments wurde die maximale Geschwindigkeit des Roboters auf 1,0 m/s eingestellt und der UR5 wurde ausgeschaltet und blieb eingefahren.Dasselbe mobile Robotersteuerungsschema wurde wie in unseren früheren Studien verwendet30,31.Kurz gesagt wurde das Steuerungsschema basierend auf einem 2D-Navigationsrahmenwerk32 entwickelt, das Funktionsmodule für Lokalisierung, globale Wegplanung, lokale Wegplanung (dh Kollisionsvermeidung) und Roboterbewegungssteuerung umfasst.Die Kostenkarte (dh Belegungsrasterkarte) der Umgebung wurde unter Verwendung der Lidar-basierten Gmapping-Technik33 vorgeneriert, da Layouts in WRT-Umgebungen oft organisiert und konsistent sind.Der Monte-Carlo-Lokalisierungsansatz34 wurde verwendet, um den Roboter mithilfe von 2D-Lidar und eingebetteten Trägheitssensoren und Rad-Odometrie zu lokalisieren.Diese Methode vergleicht Lidar-Scans mit der zuvor erfassten Karte unter Verwendung eines Partikelfilters, um die Pose des Roboters abzuschätzen.Der Algorithmus von Dijkstra35 wurde übernommen, um den globalen Verfahrweg auf der bekannten Karte zu bestimmen.Der Trajectory Rollout-Algorithmus36, ein weit verbreiteter und effektiver Kollisionsvermeidungsalgorithmus, wurde als unser lokaler Pfadplaner verwendet.Der Roboter wurde dann mit einem geschwindigkeitsbasierten Proportionalregler entlang der lokalen und globalen Bahn geführt.Um das Problem der Markierungsverdeckung zu vermeiden, das bei kamerabasierten Bewegungserfassungssystemen (MOCAP) auftritt, wurde Xsens (MVN Awinda, Xsens Technologies BV, Enschede, Niederlande), ein IMU-basiertes MOCAP-System, für die Studie ausgewählt.Die Verwendung von IMU-Sensoren mit Ganzkörperkonfiguration reicherte den Datensatz mit Informationen zur menschlichen Lokalisierung und Körperhaltung an.Die Abtastfrequenz des MOCAP-Systems wurde während des gesamten Projekts auf 60 Hz eingestellt.Um Blickdaten zu erfassen, wurde eine Tobii Pro Glasses 2 (Tobii, Gemeinde Danderyd, Schweden) von den Teilnehmern mit geeigneten korrigierenden Aufsteckgläsern getragen, falls erforderlich.Die Abtastfrequenz des Eyetrackers wurde auf 50 Hz eingestellt.Zusätzlich zu den Augenblickdaten enthielt der Eyetracker auch eine Szenenkamera, die 1920 × 1080-Videos mit 25 fps aufzeichnete.Tabelle 2 fasst die Hauptaufgaben der Datenerhebung und ihre ungefähre Dauer zusammen.Gleich nach der Ankunft erhielt jeder Teilnehmer eine Einweisung in den Aufbau der Testumgebung und die Instrumente.Gleichzeitig wurden Fragen und Anliegen angesprochen.Anschließend wurden demografische Daten wie Alter, Geschlecht, Gewicht und Größe mit Schuhen erhoben.Als nächstes wurden 17 IMU-Sensoren sicher am Körper der Teilnehmer befestigt, insbesondere an: Kopf, Brustbein, Becken, rechter und linker Schulter, rechtem und linkem Oberarm, rechtem und linkem Unterarm, rechter und linker Hand, rechtem und linkem Oberschenkel, rechts und linker Unterschenkel, rechter und linker Fuß37,38 (Abb. 2).Das MOCAP-System wurde dann basierend auf den Körpermaßen und Kalibrierungsaktivitäten jedes Teilnehmers kalibriert.Insgesamt wurden zwölf Körpermaße erfasst: Körpergröße, Fuß- oder Schuhlänge, Schulterhöhe, Schulterbreite, Ellbogenspanne, Handgelenksspanne, Armspanne, Hüfthöhe, Hüftbreite, Kniehöhe, Knöchelhöhe, zusätzliche Schuhsohlendicke.Zwei Kalibrierungsaktivitäten waren: Stehen in N-Stellung und Gehen in gerader Linie.Nach der MOCAP-Kalibrierung wurde der Eyetracker wie in Abb. 2 gezeigt am Kopf des Teilnehmers angebracht. Nachdem die Sensorbefestigung und die Systemkalibrierung abgeschlossen waren, wurden den Teilnehmern zwei Aufgaben gestellt, die sie ausführen sollten.Diese Aufgaben werden üblicherweise von WRT-Verbrauchern und -Arbeitern durchgeführt, wie unten angegeben.Sensoraufbau für das Experiment.Der Teilnehmer hat der Veröffentlichung zur Verwendung seines Bildnisses zugestimmt.Für diese Aufgabe wurde der Teilnehmer gebeten, einen Einkaufswagen zu schieben und acht verschiedene Artikel zu holen, einen aus jedem der acht Regale.Danach kehrte der Teilnehmer zum Self-Checkout-Automaten zurück, um die ersten vier Artikel in einen Behälter und die anderen vier in einen anderen Behälter zu sortieren.Der Einkaufswagen selbst wog 37 Pfund, und um reale Bedingungen zu simulieren, wurde sein Gewicht auf 100 Pfund erhöht und so gesteuert, dass es für alle Teilnehmer gleich war.Es gab zwei verschiedene Bedingungen der Aufgabe: 1) Kommissionieren und Sortieren neben dem Roboter und 2) Kommissionieren und Sortieren ohne Roboter.Jede Bedingung hatte fünf Versuche (dh 2 × 5 = 10 Versuche des Kommissionierens und Sortierens).Die Wiederholung für jede Bedingung wurde festgelegt, um jegliche Ermüdung (geistig oder körperlich) zu verhindern, die sich durch den Test angesammelt hat.Der Teilnehmer erlebte fünf Wiederholungen einer Bedingung, dann die anderen fünf.In jedem Versuch erhielt der Teilnehmer eine Liste mit den Gegenständen, die er abholen musste;Der Artikel in jedem Regal wurde zufällig ausgewählt.Die gleichen fünf Listen wurden in beiden Bedingungen verwendet.Der Teilnehmer wurde gebeten, die Gegenstände der Reihe nach auszuwählen und die Aufgabe mit seiner dominanten Hand auszuführen.Dies umfasste das Kommissionieren, Sortieren und Wagenschieben (wann immer ein Handwagenschieben erforderlich ist).Vor der Datenerhebung wurde keine Schulung durchgeführt.Der Co-Bot in der aktuellen Studie stellte eine generische mobile Plattform dar, die die Bewegungsbahn mehrerer Funktionen in Einzelhandelsumgebungen wie Desinfektion, Reinigung und Bestandsverwaltung nachahmen kann.Der Roboter im Experiment war so programmiert, dass er sich automatisch zwischen Wegpunkten bewegte, und er war in der Lage, Hindernissen auszuweichen und Routen neu zu planen.Die Wegpunkte wurden so vordefiniert, dass sich Teilnehmer und Roboter häufig begegneten (Abb. 3).Um sicherzustellen, dass es während der Versuche zu keiner physischen Kollision kommt, übernahm der Forscher bei Bedarf die Steuerung des Roboters.Diese Fälle wurden in den Datenblättern als „interveniert“ gekennzeichnet.Demonstration der Kommissionier- und Sortieraufgabe in der WRT-Anlage zusammen mit den vordefinierten Wegpunkten des Roboters.Der Ursprung und die Achsenrichtungen des Human-Motion-Capture-Systems sind ebenfalls enthalten.Im Anschluss an die Kommissionier- und Sortieraufgaben wurden von jedem Teilnehmer vier Bestandsprüfungsversuche durchgeführt.Ähnlich wie bei Aufgabe I gab es auch zwei Bedingungen, nämlich Bestandsprüfung neben dem Roboter und Bestandsprüfung ohne Roboter.In jedem Versuch erhielt der Teilnehmer eine Checkliste mit den zu überprüfenden Artikeln aus den acht Regalen (Abb. 4).Der Teilnehmer musste die Punkte auf der Liste der Reihe nach zählen.Der Einkaufswagen wurde während dieser Aufgabe zu keinem Zeitpunkt verwendet.Der Teilnehmer erlebte zuerst entweder den Roboterzustand oder den Nicht-Roboterzustand, und jeder Zustand hatte zwei Wiederholungen (dh 2 × 2 = 4 Versuche der Bestandsprüfung).Artikel aus jedem Regal wurden nach dem Zufallsprinzip ausgewählt und dieselben zwei Checklisten wurden unter beiden Bedingungen verwendet.Vor dieser Aufgabe wurde keine Schulung durchgeführt.Links: Ein Beispielbild des Teilnehmers, der einen Artikel aus dem Regal nimmt.Rechts: Der Teilnehmer führte die Bestandsprüfung durch, während der Roboter vorbeifuhr.Der Teilnehmer hat der Veröffentlichung zur Verwendung seines Bildnisses zugestimmt.Es ist erwähnenswert, dass die Aufgabenauswahl nach sorgfältiger Überlegung getroffen wurde.Die größte Herausforderung im HRI-Bereich ergibt sich aus der „Interaktion“, „Zusammenarbeit“ und „Kooperation“ zwischen Agenten (sowohl physisch als auch kognitiv), insbesondere für HRI-Szenarien mit festen Manipulatoren.In Bezug auf mobile Roboteranwendungen können jedoch aufgrund ihrer fortgeschrittenen Mobilität im räumlichen Bereich Interaktionen zwischen mobilen Robotern und menschlichen Partnern in einem viel größeren Raum (räumlich) oder in unterschiedlichen Formen (zeitlich) stattfinden.Insbesondere in der Einzelhandelsumgebung sind die direkten Interaktionen zwischen Mensch und Roboter noch nicht allgemein zu sehen, abgesehen von einigen explorativen Anwendungen wie Auto-Einkaufsführern oder Einkaufswagen.Die meisten der derzeit im Einzelhandel eingesetzten Co-Bots interagieren nicht direkt mit Menschen, wie z. B. Bodenreinigungsroboter, Desinfektionsroboter und Roboter zum Scannen von Inventar.Sie interagieren jedoch immer noch in einem allgemeineren Sinne miteinander und koexistieren nicht nur im selben Raum mit menschlichen Partnern.Beispielsweise kann der mobile Roboter ein automatischer Bodenreinigungsroboter oder ein Bestandsabtastroboter sein, deren Verhalten das Einkaufserlebnis menschlicher Partner und die Gesamtleistung des Ökosystems (dh des Einzelhandelsgeschäfts) unweigerlich wesentlich beeinflussen wird.Um eine gute Praktikabilität zu gewährleisten, umfasste die aktuelle Arbeit Testszenarien mit diesen häufiger gesehenen Anwendungen, anstatt mit solchen, die noch weiter entfernt sind.Untersuchungen der ausgewählten HRI-Szenarien im Einzelhandelsumfeld können dazu führen, zu untersuchen, wie Menschen physisch und kognitiv auf mobile Roboter reagieren, und sozial bewusstere Roboterbewegungen zu entwickeln.Mehr als 260 Minuten an Daten wurden aufgezeichnet, darunter Daten von Robotersensoren, menschlicher Bewegungserfassung und Blickmessungen.Um die Öffentlichkeit frei zugänglich zu machen, wurden die Daten in die Science Data Bank39 (https://doi.org/10.11922/sciencedb.01351) hochgeladen, ein offenes, allgemeines Datenrepository, das vom Computer Network Information Center von entwickelt und gepflegt wird der Chinesischen Akademie der Wissenschaften.Leser können auch über die Website (https://uf-retail-cobot-dataset.github.io/) auf den Datensatz zugreifen, wo eine detaillierte Beschreibung der einzelnen Datentypen verfügbar ist.Von den 112 Versuchen, die von acht Teilnehmern durchgeführt wurden, waren 80 (8 Teilnehmer × 5 Wiederholungen × 2 Bedingungen) von ihnen Kommissionier- und Sortieraufgaben und Bestandsprüfungsaufgaben entfielen auf die anderen 32 (8 Teilnehmer × 2 Wiederholungen × 2 Bedingungen) Versuche.Die Details der aufgezeichneten Daten sind wie folgt aufgelistet.Alle Sensordaten des Roboters, darunter Bilder von der Kamera, Punktwolken von Lidar, Beschleunigungs- und Winkelgeschwindigkeitsmessungen von IMU und Gelenkzustände von Rad-Encodern, wurden als serialisierte ROS-Nachrichtendaten im Rosbag-Format aufgezeichnet.Beachten Sie, dass die Bilder zur Durchführung von Online-Aufnahmen mit 640 x 480p aufgezeichnet wurden, was vergleichbaren Arbeiten entspricht und ausreicht, um die Informationen aus der Roboterperspektive aus der ersten Person anzuzeigen.Darüber hinaus wurden die Navigationsinformationen (dh die Online-Pose-Schätzungen und der geplante Pfad) während jedes Versuchs, die in der folgenden Analyse diskutiert werden, auch in den Rosbag-Dateien aufgezeichnet.Da nur bei der Hälfte der Versuche Roboter involviert waren, sind 56 (40 Kommissionieren und Sortieren + 16 Inventurprüfungen) Beuteldateien im Datensatz verfügbar.Insgesamt sind 112 Excel-Dateien im MOCAP-Datenordner verfügbar.Bei vier Studien wurde eine schlechte Datenqualität festgestellt (dh Off-Axis), und die entsprechenden Dateien wurden als „Off-Axis“ gekennzeichnet.Die menschlichen Bewegungsdaten von Xsens enthalten über 930.000 Frames mit Informationen zur menschlichen Körperhaltung (dh Gelenkpositionen).Folgende menschliche Bewegungen wurden während des Experiments häufig beobachtet: 1) Aufnehmen und Ablegen der Artikelliste, 2) Schieben und Ziehen des Einkaufswagens, 3) Durchstöbern des Regals, 4) Bücken und Hocken, 5) Aufnehmen von Artikeln aus dem Regal, 6) Artikel in den Mülleimer legen, 7) auf die Checkliste schreiben, 8) zwischen den Regalen gehen, 9) Artikel zählen und 10) wenn nötig Roboter meiden.Mit Videoaufzeichnungen und tragbaren Bewegungsverfolgungsdatenströmen (alle sind zugänglich) können diese semantischen Informationen extrahiert und von der Öffentlichkeit gekennzeichnet werden.In jedem Teilnehmerordner enthalten die Versuchsdateien die Zeitstempelinformationen und Positionsdaten von 23 Gelenken, einschließlich Becken, L5, L3, T12, T8, Nacken, Kopf, rechter und linker Schulter, rechter und linker Oberarm, rechter und linker Unterarm, rechts und linke Hand, rechter und linker Oberschenkel, rechter und linker Unterschenkel, rechter und linker Fuß, rechter und linker Zeh.Alle Positionsdaten verwenden das gleiche Koordinatensystem (dh den Ursprung und die Achsenrichtungen), wie in Abb. 3 gezeigt. Außerdem wurden die Teilnehmeridentifikationsnummer (von 1 bis 8) und die Versuchsidentifikationsnummer (von 1 bis 14) richtig markiert .Eye-Tracking-Daten wie Blickrichtungen und Augenbewegungen wurden in 112 Excel-Dateien (8 Teilnehmer × 14 Versuche) gespeichert.Die gesammelten Daten wurden mit Zeitstempeln exportiert, damit sie zusammen mit anderen Messungen weiter analysiert werden können.Darüber hinaus stehen im aktuellen Datensatz auch insgesamt 112 Videos (.MP4) zur Verfügung, die von der eingebetteten Szenenkamera aufgenommen wurden.Die demografischen Daten der Teilnehmer, Versuchsbedingungen und Aufgabendauer wurden in „Teilnehmerdatenblatt.docx“ aufgezeichnet.Die Teilnehmer mussten während des Experiments enge Kleidung tragen, um eine Sensorbewegung zu verhindern.Wie im Abschnitt „Methoden“ beschrieben, erfolgte die Platzierung der tragbaren Sensoren (dh IMU-Sensoren und Eyetracker) gemäß den Anweisungen des Herstellers.Darüber hinaus wurde vor jedem Experimentversuch die Signalqualität jedes Sensors manuell durch die Erfassungssoftware des Systems überprüft.Darüber hinaus wurden die tragbaren Sensoren aus Konsistenzgründen von denselben Forschern angebracht.Um die Qualität der im aktuellen Datensatz aufgezeichneten menschlichen Trajektorien zu bewerten, wurden von Rudenko et al.40 vorgeschlagene Methoden verwendet, um die Verfolgungsdauer, die Krümmung der Trajektorie, das Wahrnehmungsrauschen und die Bewegungsgeschwindigkeit jedes Versuchs zu berechnen.Für die Berechnung wurde die Position des IMU-Sensors am Becken herangezogen, da diese nahezu dem Massenschwerpunkt des menschlichen Körpers entspricht.Alle Positionsdaten wurden vor der Berechnung mit einem Tiefpassfilter (Butterworth, 2. Ordnung, 6 Hz Grenzfrequenz, Nullverzögerung) gefiltert.Die Ergebnisse wurden mit bestehenden relevanten Datensätzen verglichen: THÖR40, ETH15, ATC22 und Edinburgh17.Wie in Tabelle 3 gezeigt, hat unser Datensatz im Vergleich zu anderen Datensätzen eine längere Dauer (143,7 ± 53,8 s) und eine höhere Flugbahnkrümmung (13,5 ± 39,7 m-1).Dies weist darauf hin, dass die von unseren Teilnehmern durchlaufenen Gehwege relativ komplizierter und nicht linear sind.Darüber hinaus wurden im aktuellen Datensatz ein relativ hohes Wahrnehmungsrauschen (0,65 m⋅ s−2) und Zeitlupengeschwindigkeit (0,21 ± 0,25 m⋅ s−1) beobachtet, was auf die längere statische Phase der Teilnehmer während des Items zurückgeführt werden konnte Suchphase der Aufgabe.Die Mischung von Aktivitäten (z. B. Gehen und Stehen) in einem so engen Raum mit der Anwesenheit eines mobilen Co-Bots in der Nähe erhöhte möglicherweise die Flugbahnkrümmung und das Wahrnehmungsrauschen weiter, während die Gesamtbewegungsgeschwindigkeit im Vergleich zu einfacheren Aufgaben verringert wurde.Insgesamt bestätigen diese Analysen gemeinsam den einzigartigen Wert, den unser Datensatz der Forschungsgemeinschaft bringen kann.Die Videokamera des mobilen Roboters zeichnete die Umgebung auf, die zum Trainieren verschiedener Computer-Vision-basierter Machine Learning (ML)-Modelle verwendet werden kann.Als Machbarkeitsnachweis haben wir auf unseren Videobildern den YOLO V541 eingesetzt, eine hochmoderne Objekterkennungsarchitektur, die auf dem COCO-Datensatz vortrainiert wurde.Die Ergebnisse sind interessant: Vortrainierte Modelle können den menschlichen Arbeiter und große Objekte in der Szene mit relativ hoher Zuverlässigkeit zuverlässig erkennen.In Bezug auf die Artikel und Produkte in den Regalen gibt es jedoch einen erheblichen Anteil an Fehlerkennungen und Fehlerkennungen (Abb. 5).Um das obige Problem anzugehen und die ML-Modelle weiter zu verfeinern, sind mehr kontextbasierte Videobilder in hoher Qualität erforderlich.Wir hoffen, dass unsere anfänglichen Bemühungen zur Entstehung einer neuen Welle geeigneter Datensätze führen werden.Eine Demonstrationsabbildung des von YOLO V5 kommentierten Videoframes.Der Teilnehmer hat der Veröffentlichung zur Verwendung seines Bildnisses zugestimmt.Die Trajektorien der Teilnehmer unter zwei Roboterbedingungen (ohne Roboter vs. neben Roboter) sind in Fig. 6 aufgetragen, um die Abweichungen zu zeigen, die die Teilnehmer während jeder Aufgabe gemacht haben (z. B. Kommissionier- und Sortieraufgabe und Bestandsprüfungsaufgabe).Im Gegensatz zu den Aufgaben ohne Roboter (Abb. 6a) zeigten die Bewegungsbahnen der Teilnehmer beim Kommissionieren und Sortieren neben dem Roboter (Abb. 6b) ein stärker abweichendes und abweichendes Muster.Während Bestandsprüfungsaufträgen gibt es keine merkliche Variation in den Trajektorienmustern mit oder ohne Anwesenheit des Roboters.Unterdessen gibt es keinen erkennbaren Unterschied in den Trajektorienmustern zwischen den Zuständen neben und ohne Roboter während der Bestandsprüfungsaufgaben.Die verlängerte Dauer des statischen Stehens, die für Bestandsprüfungsaufgaben erforderlich ist, kann eine Erklärung dafür sein, warum kein Unterschied gefunden wurde.Es ist möglich, dass während der Bestandsprüfungsaufgaben die meisten potenziellen Mensch-Roboter-Kollisionen dadurch vermieden wurden, dass der sich bewegende Roboter seine Flugbahn anpasste, und nicht durch die stehenden Teilnehmer.Zukünftige Folgeanalysen sind erforderlich, um die Begründung weiter zu bestätigen und faszinierende Verhaltensreaktionen der Teilnehmer bei der Interaktion mit einem Roboter aufzudecken.Trajektorien der Teilnehmer unter zwei Roboterbedingungen (ohne Roboter vs. neben Roboter) während der Kommissionier- und Sortieraufgabe und der Bestandsprüfungsaufgabe.Durch die Integration der Ausgaben sowohl des Roboter- als auch des menschlichen Bewegungsverfolgungsinstruments war es möglich, ihre kollektiven Bewegungsmuster zu untersuchen.Darüber hinaus konnte durch die Verwendung der zusätzlichen Datendimension der humanphysiologischen Messung eine detailliertere und präzisere räumlich-zeitliche Musteranalyse erhalten werden.Abbildung 7 zeigt die Integration von Roboter- und Menschenpositionen, Eye-Tracking-Informationen sowie menschlicher 3D-Haltung aus einem zufällig ausgewählten Stichprobenversuch (P001_06).Die Positionen des Roboters (rote gestrichelte Linie) wurden unter Verwendung des adaptiven Monte-Carlo-Lokalisierungsalgorithmus geschätzt, der einen Partikelfilter verwendet, um die Position eines Roboters zu verfolgen, indem die Punktwolken mit einer bekannten Karte abgeglichen werden42.Die Karte der Einzelhandelsumgebung wurde vom Roboter vor dem Experiment unter Verwendung eines Lidar-basierten Gmapping-Ansatzes33 erstellt.Aus den MOCAP-Daten extrahierte Becken-2D-Positionen wurden verwendet, um die Positionen der Teilnehmer zu bestimmen (blaue gestrichelte Linie).Die Bilder in der linken Spalte zeigen die Kartierung der Positionen von Mensch und Roboter zu verschiedenen Zeitpunkten im Versuch.In der Mitte sind die Screenshots vom Eyetracker an den entsprechenden Frames.In der rechten Spalte befinden sich die Figuren des 3D-Menschmodells, das mit Xsens MOCAP-Daten erstellt wurde.Frame A repräsentiert den ersten Blick des Teilnehmers auf den Roboter.Frame B stellt den Moment dar, in dem der Teilnehmer und der Roboter beginnen, einander auszuweichen.Frame C zeigt den Teilnehmer, der der Vermeidungsinteraktion folgt und nach einem Gegenstand im Regal sucht.Die Trajektorien sowohl des Roboters als auch des Teilnehmers wurden dann auf die Karte der Einzelhandelsumgebung gelegt.Darüber hinaus kann durch die Synchronisation der Positionsdaten mit dem Eye-Tracking-System anhand des Zeitstempels das Verhalten von Mensch und Roboter (z. B. Vermeidung von Hindernissen) besser visualisiert und untersucht werden.Anhand der 3D-Positionsdaten von 23 Segmenten wurde auch die Ganzkörperhaltung des Teilnehmers zu unterschiedlichen Zeitpunkten demonstriert.Kurz gesagt, dieses Beispieldatenstück zeigt eine vollständige Szene eines Treffens eines menschlichen Teilnehmers und vermeidet einen Co-Bot.Die Szene beginnt damit, dass der Teilnehmer den Roboter virtuell identifiziert, gefolgt von einer Reihe von mentalen Entscheidungen und physischen Manövern, um von der vorherigen Flugbahn abzuweichen und eine mögliche Kollision zu vermeiden, und endet, wenn die beiden Agenten erfolgreich abgereist sind und zu ihren normalen Arbeitsmodi zurückgekehrt sind .Unser Datensatz wird für Robotiker wertvoll sein, um sichere Robotersteuerungsstrategien in von Menschen besiedelten Umgebungen besser zu entwerfen, insbesondere in sicherheitskritischen Szenarien31, sowie für Verhaltenswissenschaftler und Humansystemforscher, um das grundlegende menschliche Verhalten bei der Interaktion mit Robotern besser zu verstehen.Für die zukünftige Arbeit planen wir zusätzlich zu dem in dieser Studie angenommenen Robotersteuerungsschema, mehrere Roboternavigationsalgorithmen und Kollisionsvermeidungsstrategien zu testen, wie z.Es wäre interessant zu untersuchen, wie effektiv die Roboter arbeiten und wie Menschen in einem gemeinsamen Raum darauf reagieren.Das folgende GitHub-Repository enthält das benutzerdefinierte MATLAB-Skript (R2020a) zum Laden und Visualisieren von Roboterbahn- und Bewegungserfassungsdaten, die in Abb. 7 gezeigt werden: https://github.com/UF-ISE-HSE/UF-Retail-HRI-Dataset.Liang, J., Jiang, L., Murphy, K., Yu, T. & Hauptmann, A. Der Garten der sich verzweigenden Pfade: Auf dem Weg zur Vorhersage von Trajektorien für mehrere Zukunft.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.10508–10518 (2020).Tang, YC & Salakhutdinov, R. Vorhersage mehrerer Zukünfte.Fortschritte in neuronalen Informationsverarbeitungssystemen 32 (2019).Chai, Y., Sapp, B., Bansal, M. & Anguelov, D. Multipath: Mehrere probabilistische Ankerbahnhypothesen zur Verhaltensvorhersage.In Konferenz über Roboterlernen.86–99 (2020).Smith, T., Chen, Y., Hewitt, N., Hu, B. & Gu, Y. Sozialbewusste Hindernisvermeidung durch Roboter unter Berücksichtigung menschlicher Absichten und Vorlieben.Internationale Zeitschrift für soziale Robotik.1–18 (2021).Chen, Y., Smith, T., Hewitt, N., Gu, Y. & Hu, B. Auswirkungen des menschlichen persönlichen Raums auf das Hindernisvermeidungsverhalten von Robotern: Eine Human-in-the-Loop-Bewertung.In Proceedings of the Human Factors and Ergonomics Society Annual Meeting, vol.65, 1195–1199 (SAGE Publications Sage CA: Los Angeles, CA, 2021).Hentout, A., Aouache, M., Maoudj, A. & Akli, I. Mensch-Roboter-Interaktion in der industriellen kollaborativen Robotik: eine Literaturübersicht des Jahrzehnts 2008–2017.Fortgeschrittene Robotik.33, 764–799 (2019).Kruse, T., Basili, P., Glasauer, S. & Kirsch, A. Lesbare Roboternavigation in der Nähe von sich bewegenden Menschen.2012 IEEE-Workshop zu fortschrittlicher Robotik und ihren sozialen Auswirkungen (ARSO).83–88 (IEEE, 2012).Fernando, T., Denman, S., Sridharan, S. & Fookes, C. Soft+ festverdrahtete Aufmerksamkeit: Ein lstm-Framework für die Vorhersage menschlicher Trajektorien und die Erkennung abnormaler Ereignisse.Neuronale Netze.108, 466–478 (2018).Kosaraju, V. et al.Social-bigat: Multimodale Trajektorienvorhersage unter Verwendung von Bicycle-Gan- und Graph-Aufmerksamkeitsnetzwerken.Fortschritte in neuronalen Informationsverarbeitungssystemen 32 (2019).Helbing, D. & Molnar, P. Soziales Kraftmodell für Fußgängerdynamik.