s_fz16.jpg

 

form+zweck 16

Markierungen
William Morris II

 

 

Stefan Wachter

Maschinensehen

 

Jüngst meldete das kalifornische Salk Institute for Biological Studies, eines ihrer Wissenschaftlerteams habe ein Programm entwickelt, das an den Bewegungen der Gesichtsmuskulatur echte von vorgetäuschten Emotionen unterscheiden könne. Das Prinzip soll vorerst in der Medizin und in der Strafverfolgung eingesetzt werden. Stefan Wachter hat ein Programm entwickelt, das an der Körpergestik ansetzt. Aus Bewegungsfolgen soll auf die Absichten von Personen geschlossen werden. Er beschreibt die Funktionsweise dieser maschinellen Kontrolle menschlicher Bewegungskurvaturen.


Die Fähigkeit, menschliche Bewegungen durch Bildauswertung zu erkennen, ist eine Schlüsseleigenschaft beim Entwurf von Maschinen, die mühelos und intelligent mit Menschen interagieren sollen. Dazu sind die Maschinen mit einer oder mehreren Kameras ausgestattet, durch die sie ihre Umgebung wahrnehmen können.

An dieser Stelle sei zunächst erläutert, was in diesem Zusammenhang unter dem Erkennen einer Bewegung verstanden wird: eine Maschine hat eine Bewegung durch Bildauswertung erkannt, wenn sie aus den aufgenommenen Bildern eine Beschreibung der wahrgenommenen Bewegung ableiten konnte, die das Wesentliche der Bewegung in expliziter Form enthält. Die Spannweite möglicher Beschreibungen reicht dabei von einfachen geometrischen bis hin zu abstrakten begrifflichen Beschreibungen.

Zur Illustration stelle man sich vor, ein Mensch gehe an einer mit einer Kamera ausgestatteten Maschine vorbei. Eine sehr einfache Beschreibung bestände darin, daß sich etwas an einer bestimmten Stelle in den Bildern bewegt. Eine derartige Beschreibung kann der Maschine bereits dazu dienen, die Kamera der erfaßten Bewegung nachzuführen. Eine deutlich detailliertere Beschreibung könnte für jeden Zeitpunkt einen Satz von Gelenkwinkelwerten enthalten, der die Stellung der Körperglieder beschreibt. Diese Beschreibung könnte beispielsweise dazu genutzt werden, einen in einer Computergrafik enthaltenen Menschen zu animieren. Eine begriffliche Beschreibung könnte schließlich besagen, daß die Arme und Beine der beobachteten Person periodisch pendeln, woraus zu folgern ist, daß sie geht.

Zur Ableitung der Beschreibungen stehen den Maschinen zwei Informationsquellen zur Verfügung: zum einen ihre Wahrnehmungen, d.h. die aufgenommenen Bilder, und zum anderen Wissen über die erwarteten Szenen. Dabei gilt generell: je abstrakter die abzuleitenden Beschreibungen sind, desto mehr Wissen muß eingesetzt werden. Zur Ableitung der einfachsten oben genannten Beschreibung (etwas bewegt sich an einer bestimmten Stelle in den Bildern) muß lediglich das Wissen eingesetzt werden, daß Bewegungen Änderungen in den Bildern hervorrufen und daß Objekte in zusammenhängende Bildbereiche abgebildet werden. Zur Ableitung der zweiten genannten Beschreibung muß Wissen über die Gestalt von Personen eingesetzt werden, das z.B. in Form eines dreidimensionalen Zylindermodells vorliegt. Zur Ableitung begrifflicher Beschreibungen wird zusätzlich Wissen über die einzelnen Körperteile, ihre Funktion, ihr Zusammenwirken und evtl. die Bedeutung einer Geste in einem bestimmten Kulturkreis benötigt.

 

... lesen Sie weiter in form+zweck 16: Markierungen ...