Mit geschärfter Klinge

Mit geschärfter Klinge durch das digitale Auge:

Machine Learning und Pose-Estimation bewegungsanalytisch durchleuchtet

Abb.1

Das Archiv und sein
Bildquellenbestand

Den Ausgangspunkt des Experimentes bildeten die Derra de Moroda Dance Archives und ihre vielzähligen tanzbezogenen Quellen in Geschichte und Gegenwart. Neben den zahlreichen Büchern, Zeitschriften und Magazinen, waren es in diesem Fall besonders die Bildquellen, die mich in meiner neuen Rolle als KI-Entwicklerin faszinierten. Denn um ein Pose-Estimation System auf das Erkennen von gewalttätigen Handlungen trainieren zu können, muss zuerst ein umfangreicher, gut kuratierter Bilddatensatz zusammengestellt werden. Dieser sollte den Gegenstand auf möglichst viele unterschiedliche Arten wiedergeben, ohne sich dabei in der Beschaffenheit der Daten zu stark zu unterscheiden. Damit dies gewährleistet werden kann, muss bereits zu Beginn eine strenge Selektion der Bildquellen vorgenommen werden, denn: So breit das historische Spektrum des Archivs ist, so vielfältig sind auch die Arten der Bildquellen. Sie reichen von Abbildungen aus der Renaissance stammender Holzschnitte, bis hin zu Farbfotografien aus dem 21. Jahrhundert. Ich benötigte deshalb ein Auswahlkriterium für meine Bilddaten, d.h. eine zeitliche und kulturspezifische Eingrenzung, die mir sowohl Ähnlichkeit in der Beschaffenheit der Daten garantiert als auch bildinhaltliche Parallelen in Bezug auf die soziokulturellen Auffassungen von Gewaltakten aufweist.

Eine Epoche, beziehungsweise ein Stil, der nicht nur Opulenz und Schönheit, sondern auch Krisen und Kriege in unglaublicher Üppigkeit behandelte, ist der Barock.[1] Als „Epoche der ‚Schau-Lust‘“[2] verband er in seinen theatralen Darbietungen am Hof Choreografie mit Kampf, Inszenierung mit militärischen Agenden und steigerte damit die Bedeutung der Divertissements und Reitspektakel in eine sozialpolitische Dimension.[3]

Eine Periode also, in dem die Theatralität und das Inszenieren über die Spektakel und das Bühnengeschehen hinaus, durch seine machtpolitische Funktion und das Zurschaustellen von kriegerischen Handlungen großen Einfluss auf das gesellschaftliche Leben hatte.

Dieser funktionale Einsatz von Gewaltdarstellungen im Barock weist Parallelen zu der Rolle von automatisierten Gewalterkennungssystemen durch KI in unserer heutigen Zeit auf. Auch sie konstituieren und/oder verstärken die gesellschaftlichen und politischen Ideologien ihrer Entwickler:innen und „kodieren“ damit Machtkonstrukte.[4] So erwies sich der Barock als passender, abgesteckter Rahmen für meine Analysen, denn nicht nur KI-Systeme verlangen nach klar definierten Handlungsräumen. Auch die Auseinandersetzung mit dem Gewaltbegriff bedarf einer bestimmten zeitlichen Einordnung: „Violence is […] an ambiguous concept. Its definitional boundaries shift and change over time, depending on the cultural and political conventions of any given society.”[5]

Abb.2

Abb.3

Abb.4

Filtern von relevanten Quellen

Durch das Prisma des Barocks prüfte ich den Bildbestand der Derra de Moroda Dance Archives und suchte nach geeigneten Quellen für mein KI-Vorhaben. Relativ schnell fielen mir große, aufeinandergestapelte Mappen im hinteren Teil der Archivräumlichkeiten ins Auge. Auf ihren Umschlägen kleben weiße Etiketten mit der Aufschrift „Denkmäler des Theaters. Herausgegeben von der Direktion der Nationalbibliothek Wien“. Diese zwölf, ca. Din A3 großen Mappen beinhalten zahlreiche druckgraphische Bildtafeln zur Inszenierungsgeschichte mit Beispielen aus der Antike bis ins 19. Jahrhundert. Den Mappen, die sich thematisch in unterschiedliche Schwerpunkte gliedern, liegen jeweils kleine Heftchen bei, die die Hintergründe der Themengebiete, so wie die der einzelnen Darstellungen erläutern. Beim Durchblättern des Begleitheftes der „12. Mappe“ mit dem Titel „Wiens letzte große Theaterzeit“ blieb ich an einem Satz hängen: „Ursprünglich nicht durchaus beabsichtigt, aber erfahrungsgemäß immer mehr in den Vordergrund tretend, wo immer die theatralische Heimatsgeschichte des mittleren Europa als Grundlage gewählt wird, hat sich die Epoche, die von den Jahreszahlen 1600 und 1800 eingefaßt wird, also das Zeitalter des Barock und des Rokoko, in dem Werke am meisten ausgebreitet.“[6] Die „Denkmäler des Theaters“ wurden zu meiner Hauptquelle für das Experiment.

In einem ersten Schritt sichtete ich die Mappen nach Abbildungen aus dem Zeitalter des Barocks. Doch waren tatsächlich alle aus dieser Epoche stammenden Bildquellen für mein Vorhaben relevant? Vor allem interessierten mich jene Darstellungen, die Spuren von gewalttätigen Handlungen aufwiesen. Erneut musste ich meine Quellenauswahl einer Selektion unterziehen. Diesmal mit dem Ziel, Abbildungen von Gewaltakten, oder solchen die es potenziell sein könnten, herauszufiltern. Dabei konzentrierte ich mich besonders auf Bildtafeln, die Waffen (Schwerter, Lanzen, Knüppel etc.) oder direkten Körperkontakt von zwei oder mehreren Personen illustrieren. Mit den Bildtafeln der Mappen, in Kombination mit ein paar wenigen einzelnen Druckgraphiken, die ich verteilt in Schubladen des Archivs aufgestöbert habe, hatte ich am Ende meiner Suche und Auswahl 110 Bildquellen für meinen Datensatz zusammengestellt. In der nächsten Phase des Experiments stand die Digitalisierung meines bis dato rein physisch vorhandenen Datensatzes an, um diesen infolge für ein KI-System aufbereiten zu können.

Abb.5

Digitalisierung

Die Digitalisierung der Bildtafeln erwies sich als entscheidender Arbeitsschritt in meinem Vorhaben. Ohne die digitalen Versionen der physischen Bildquellen wäre es nicht möglich einen Labeling-Prozess durchzuführen und infolge ein Pose-Estimation System darauf trainieren zu können. Da die barocken Druckgraphiken sehr detailreich gestaltet und auch die kleinsten Elemente von großer Wichtigkeit für die Bewegungsanalysen sind, war es essenziell, hochaufgelöste Digitalisate zu erstellen. Dafür wurden in diesem Arbeitsschritt Scans der Bildquellen in JPEG-Format mittels eines speziellen Aufsichtscanners angefertigt. Die hohe Auflösung der Digitalisate ermöglichte es, innerhalb der Darstellungen einzelne Personen(gruppen) stark zu vergrößern und wenn nötig diese sogar zu isolieren, ohne dabei an Bildqualität einsparen zu müssen.

Unterteilung der Bildtafeln in Analyseeinheiten

Der inhaltlichen Vielfalt der Bildquellen geschuldet, war nicht von Anfang an klar, wer und was als Analyseeinheit galt. Für meine Betrachtungen habe ich drei verschiedene Möglichkeiten der Analyseeinheit herausgearbeitet.

Die erste Möglichkeit ergab sich aus den vielen detailreich gestalteten und pompösen Szenenansichten von barocken Feierlichkeiten mit großen Menschenmengen. Teilweise befinden sich über hundert Personendarstellungen auf einer Bildtafel. In diesem Fall wäre es zu zeitaufwändig, jede Figur einzeln zu analysieren. Stattdessen wurden sogenannte „Stellvertreter:innen“ gesucht, die repräsentativ für Personengruppen analysiert werden sollten, denen sie in Körperhaltung und Dynamik ähneln. In diesem Fall kann eine Bildtafel beispielsweise 170 Figuren aufweisen, jedoch nur aus 20 Analyseeinheiten bestehen.

Die zweite Variante bildeten Reitabbildungen, formiert durch ein Pferd oder eine große Fabelgestalt auf deren Rücken eine Person reitet. Hier oszillieren Reiter:in und Pferd/Fabelgestalt zu einer Analyseeinheit. Diese Entscheidung beruht auf einer Bemerkung, die bei der intensiven Auseinandersetzung mit zahlreichen Reitdarstellungen entstand: Dynamische Faktoren lassen sich an den reitenden Personen allein nicht eindeutig festmachen. Ihre Körperpositionen wirken oft steif und starr, manchmal sogar geradezu unbewegt. Im Kontrast dazu sind die berittenen Pferde/Fabelwesen mit wehenden Mähnen, hoher Muskelspannung oder sogar im Sprung dargestellt. Es erschien falsch diese zwei Körper voneinander zu trennen, da sie in einer Art von Energieaustausch stehen und sich die Einordnung ihrer Bewegung erst im Zusammenspiel erschließt. Für die Analyse wurde pro Einheit (Reiter:in + Pferd/Fabelwesen) ausschließlich die Körperposition der reitenden Person analysiert. Für die IVB-Kategorien „Belastung wechseln“, „Energieaufwand“ und „Energieverteilung“ wurden jedoch sowohl Reiter:in als auch Pferd/Fabelwesen betrachtet und deren Ergebnisse vermerkt. Wie sich daraus die Einordnungen in „violent“ oder „non-violent“ ergaben, wird im Abschnitt „Einordnung der Analyseergebnisse in den ‚Merkmalkatalog‘“ näher erläutert.

Die letzte mögliche Analyseeinheit ist die wohl eindeutigste. Sie umfasst Einzelpersonen, die nur für sich selbst stehen und daher losgelöst von anderen Figuren betrachtet und analysiert werden. Dieser Fall tritt auch ein, sollten dargestellte Personen Körperkontakt zu anderen aufweisen.

Für alle Analyseeinheiten galt, dass einzig lebendige Wesen in die Analyse nach IVB miteingebunden wurden. Etwaige Waffen oder Gegenstände mit direktem Körperkontakt zu den betrachteten Figuren wurden in der Analyse nach IVB demnach nicht berücksichtigt, dafür jedoch im Merkmalkatalog vermerkt.

Abb.7

Abb.8

Abb.6

Abb.9

Abb.10

Analyse der Einheiten nach IVB

Wie in der Einleitung bereits erwähnt, treffen Pose-Estimation Systeme ihre Entscheidungen nicht, indem sie den Kontext der Bilddaten erfassen, sondern orientieren sich an den Klassifizierungen des Datensatzes, auf den hin sie trainiert wurden. Um in diesem Projekt eine einheitliche Klassifizierungsstruktur der Bewegungsdaten zu schaffen, wurde die bewegungsanalytische Methode IVB von Claudia Jeschke als Grundlage für den Labelingprozess des barocken Bilddatensatzes herangezogen. Dafür unterzog ich alle Analyseeinheiten auf den Bildtafeln einer solchen Untersuchung und vermerkte die Beobachtungen in piktografischer Form in Tabellen.

IVB eignet sich für dieses Vorhaben besonders als referenzgebendes Tool, da es die unterschiedlichen Bewegungskriterien „Körper, Bewegungsart, Raum und Zeit"[7] in der Analyse verbindet. Erst durch die Kombination von dynamischen Faktoren mit Körperposition und -haltung kann später eine Entscheidung bezüglich der Einordung von Bewegungen in „violent“ oder „non-violent“ getroffen werden. Ein weiterer Vorteil von IVB liegt in ihrer formalen Niederschrift begründet. Die zeichenorientierte und tabellarische Aufschlüsselung erleichtert das Vergleichen der Analyseergebnisse. So können Ähnlichkeiten oder auch Unterschiede zwischen den einzelnen Untersuchungen einfach erfasst werden – kurz gesagt: Bewegungsmuster können schnell identifiziert werden. Da die Mustererkennung als Grundlage aller Computer Vision Techniken [8] gilt und somit auch die Basis von Pose-Estimation Systemen bildet, erweist sich IVB als ideale Methode um die Bewegungserscheinungen auf den Bildtafeln zu erfassen und anschließend einer auf den erkannten Mustern basierenden Klassifizierung zu unterziehen.

„The purpose of pattern recognition is to assign classes to objects according to some similarity properties.”[9] – Daher muss bei der Definition der Muster auf kohärente und eindeutige Faktoren geachtet werden. Um mögliche linguistische Fehlinterpretationen zu vermeiden und die eindeutige Zuordnung in Muster zu garantieren, wird für die Niederschrift der Analyse nach IVB ausschließlich ihre piktografische Form verwendet.

Im Laufe des Analysierens stellten sich bestimmte Schwierigkeiten in der Identifikation der dynamischen Faktoren ein. Während die in die Bewegung involvierten Körperteile und räumlichen Verläufe recht eindeutig festzustellen waren, konnten Energieaufwand und Energieverteilung aufgrund der statischen Beschaffenheit von Bildquellen oft nur schwer eingeordnet werden. In diesen Fällen zog ich visuelle Merkmale heran, um Aussagen über Kraft, Stabilität, Modulation, Phrasierung und Tempo treffen zu können. So waren beispielsweise wehende Haare oder Kleidung Indikatoren für Beschleunigungen, stark konturierte Muskeln Indizien für ein hohes Maß an Muskelkraft und Energieaufwand und überraschte Gesichtsausdrücke Hinweise für einen plötzlichen Energiewechsel. In uneindeutigen Darstellungen wurde zusätzlich ein Reenactment der Bewegungssituation durchgeführt, damit eine Einschätzung getroffen werden konnte.

Anhand des 110 Bildtafeln umfassenden Datensatzes fanden im Rahmen dieses Projektes 295 Analysen nach IVB statt. Da dieser enorme Umfang von Analyseergebnissen trotz tabellarischer Aufschlüsselung unübersichtlich ist, erstellte ich einen „Merkmalkatalog“, der ausgehend von den IVB-Resultaten die wichtigsten Kriterien von potenziell gewalttätigen Bewegungen hervorheben sollte. ->

Erstellung eines Merkmalkatalogs

Der „Merkmalkatalog“ setzt sich aus 13 Kategorien zusammen, die durch den Vergleich der Analyseergebnisse und dem jeweiligen Kontext ihrer Bildtafeln entstanden und Indikatoren für gewaltvolle Bewegungen bereitstellen sollen. Herangezogen wurden jene Bildquellen, die eindeutig kämpferische Handlungen abbilden, wie beispielsweise Darstellungen von Schwert-, Lanzen- oder Faustkämpfen. In Abgleich mit den durch IVB ermittelten Körperpositionen und dynamischen Bewegungsfaktoren wurden Ähnlichkeiten in den Darstellungen erörtert. So entstanden die Kategorien „einbeinige Belastung“, „Bewegung der Beine entlang der Längsfläche“, „Bewegung der Arme entlang der Längsfläche“, „Beugung des oberen Körpersektors“, „mind. ein Arm fern vom Körper“, „ein Knie gebeugt, eines gestreckt“, „beide Knie gebeugt“, „Kraft steigernd“, „plötzlicher Energiewechsel“ und „Tempo beschleunigen“. Die restlichen drei Kategorien „Waffe“, „Pferd“ und „Körperkontakt“ ergaben sich aus jenen Faktoren, die überdurchschnittlich häufig bei eindeutig gewaltvollen Bewegungsabbildungen auftauchten, jedoch nicht mittels IVB erfasst werden können. Selbst wenn diese Kategorien keine Bewegungsphänomene an sich beschreiben, können sie Einfluss auf den Bewegungsapparat Körper nehmen und wurden deshalb in den Merkmalkatalog mitaufgenommen.

Abb.11

Abb.12

Einordnung der Analyseergebnisse
in den Merkmalkatalog

Während des Labelns des Datensatzes war dieser Merkmalkatlog die Grundlage meiner Entscheidung, ob eine Bewegung als „violent“ oder „non-violent“ eingestuft wurde. Alle Analysen wurden hinsichtlich dieser 13 Kategorien überprüft und ihr „Erfüllen“ oder „nicht Erfüllen“ vermerkt. Damit meine Label-Entscheidungen noch nachvollziehbarer und konstanter wurden, entwickelte ich eine Regelung, nach der eine Analyseeinheit erst als „violent“ galt, wenn sie die Mehrheit der Kategorien, also mindestens 7, aufweisen konnte. Beinhaltete eine Analyse nur 6 oder weniger Kategorien galt sie als „non-violent“.

So ergaben sich einerseits Labels für Analyseeinheiten, die ich mit meiner subjektiven Einschätzung der auf der Bildtafel abgebildeten Situation als durchaus passend empfand. Andererseits ergaben sich durch den Merkmalkatalog auch Einschätzungen über Bewegungsaufkommen, die aus dem Bildkontext heraus nicht schlüssig erschienen. Damit meine Labelingkriterien und damit auch mein gesamter Prozess eine Kohärenz aufweisen, entschied ich mich dafür, die Klassifizierungen ausschließlich durch den Merkmalkatalog zu bestimmen, ohne dabei auf eine Bildkontextualisierung zu achten. Diese Vorgehensweise spiegelt die Funktion von Pose-Estimation Systemen wider und ist Voraussetzung für die Leistungsfähigkeit eines ML-Algorithmus.

Eine Besonderheit in der Einordnung meiner durch IVB erlangten Ergebnisse in den Merkmalkatalog stellten jene der Reitabbildungen dar. Hier bilden Reiter:in und berittenes Wesen eine Analyseeinheit, in der die Bewegungsdynamischen Faktoren für beide Lebewesen analysiert werden. Das Vermerken der Resultate in den Merkmalkatalog findet von beiden Akteur:innen, jedoch in derselben Kachel statt. Diese Umstände verlangen nach einer leicht adaptieren Version der Regelung zur Klassifizierung in „violent“ und „non-violent“: Anstatt nur die menschlichen Faktoren zu berücksichtigen, gilt für jede Kachel das dominantere bewegungsdynamische Analyseergebnis. Ist in einer Kachel also „plötzlicher Energiewechsel -> P[ferd] Ja, M[ensch] Nein“ zu lesen, so wird diese Kachel als „Ja“ gewertet.

Abb.13

Abb.14

Abb.15

Abb.16

violent

Eine Klassifizierung als „violent“ kam dann zustande, wenn pro Analyseeinheit mindestens 7 der Kategorien des Merkmalkatalogs erfüllt wurden. Aus den insgesamt 295 Analysen wurden durch diese Methode 135 Einheiten als „violent“ identifiziert.

non-violent

Konnte eine Analyseeinheit nur 6 oder weniger Kategorien des Merkmalkatlogs aufweisen, so wurde sie als „non-violent“ gewertet. Dies betraf 160 der 295 Analyseeinheiten.

Annotieren der Daten

Nachdem alle Analyseeinheiten mithilfe von IVB in „violent“ oder „non-violent“ eingestuft wurden, mussten die digitalen Bilddaten mit den Klassifizierungen verknüpft werden – dieser Prozess wird Annotieren oder auch Labeling genannt. In diesem Projekt verwendete ich dafür das Labelingtool „Anylabeling“. Es hat den Vorteil, dass sowohl die von mir dort hochgeladenen Bilddaten als auch deren Labels nur lokal auf meinem Rechner gespeichert und nicht für dritte sichtbar oder zugänglich werden. Andere webbasierte Programme wie beispielsweise „Roboflow“ arbeiten mit Cloudsystemen, die zwar Speicherplatz auf den Endnutzergeräten sparen, jedoch die Daten (Datensätze und Labels) speichern und für ihre eigenen Zwecke weiterverwenden können.

Um mit dem Annotieren zu beginnen, musste zuerst die Gesamtheit der Bilddaten in das Programm geladen werden. Erst danach konnten die einzelnen Analyseeinheiten mithilfe von farbigen Kästchen auf den Bildtafeln in Klassifizierungen eingeteilt werden. Rote Kästchen zog ich um jene Einheiten die als „violent“ eingestuft und grüne um solche, die von mir als „non-violent“ bestimmt wurden. Dabei musste das Kästchen so gezogen werden, dass es die Ausmaße der Figur so eng wie möglich umrandete, ohne Gliedmaßen oder Kleidung abzuschneiden. „Segmenting, tracing, bounding-boxes, and labeling are key operations used to teach machines to separate data from data, signal from noise, and orderly things from disorderly ones.“[10] Da Machine Vision Systeme auf Grundlage visueller Mustererkennung funktionieren, muss auch das Ziehen der Kästchen streng reglementiert sein und immer einem durchgängigen Schema folgen. Die Qualität der trainierten ML-Systeme ist immer direkt auf das Labeling und die Zusammenstellung ihres Datensatzes zurückzuführen. Daher müssen ihre Einordnungen und Ergebnisse immer wieder evaluiert und anschließend der Annotationsprozess (was in ein Kästchen inkludiert wird und was nicht) so angeglichen werden, dass bessere Ergebnisse erzielt werden können. Die Richtlinien für mein Labeling ergaben sich nach einem einmaligen Evaluierungsprozess:

Waffen (Schwerter, Lanzen, Knüppel etc.) wurden in das Kästchen inkludiert, obwohl sie bei der Analyse nach IVB keine Berücksichtigung fanden. Da sie jedoch in meinem Katalog als Merkmal für gewalttätige Bewegungen bestimmt wurden, durften sie beim Annotieren nicht exkludiert werden.

Berittene Wesen wurden nicht in das Kästchen miteingeschlossen, obwohl sie mit ihren Reiter:innen als eine Analyseeinheit galten. Als ein erster Durchgang meines Trainings, indem die berittenen Wesen noch in den Kästchen inkludiert waren, zu ungenaue Ergebnisse lieferte, passte ich meinen Labelingprozess dahingehend an.

Normalerweise wird das Annotieren von Daten für KI-Systeme von großen Tech-Unternehmen ausgelagert und von tausenden von Crowdworker:innen unter schlechtester Bezahlung ausgeführt.[11] Sie „werden dazu mit der unlösbaren Aufgabe betraut, die Bilder mit einer Geschwindigkeit von 50 Stück pro Minute auszuwerten […].“[12] Für die Beurteilung der einzelnen Bildinhalte bleiben demnach nicht mehr als ein bis zwei Sekunden. Im Vergleich dazu ist mein Verfahren langwieriger. Anstatt weniger Sekunden dauert das Labeln einer Bildtafel nach meiner Methode durchschnittlich etwa 2-2,5 Stunden. Demnach benötigte ich zusammengezählt ungefähr 11,5 Tage um meinen Datensatz mittels IVB zu labeln. Ein:e Crowdworker:in hätte dafür nur circa 1,8 Minuten aufgewendet.

Abb.17

Abb.18

Abb.19

Erstellung eines gelabelten Datensatzes

Die Summe der gelabelten Bilddaten bildete den Datensatz, auf den mein Pose-Estimation System trainiert wurde. Genau genommen bestand dieser Datensatz jedoch nicht aus den annotierten 110 Bildtafeln, sondern aus einer durchaus größeren Anzahl an Bilddaten. Da die barocken Bildtafeln so detailreich und kleinteilig gestaltet sind, wurden sie in kleinere Bildeinheiten zerteilt. So konnte auch noch so kleinen Feinheiten Bedeutung geschenkt werden. Für die Fragmentierung der Bildtafel waren die hochaufgelösten Scans von großer Bedeutung, zumal das Teilen in kleinere Einheiten einer starken Vergrößerung bedarf.

Der Datensatz wurde als seine Einzelbilder und mit den jeweils zugehörigen Koordinaten der Labeling-Kästchen als Text-Files abgespeichert und zum Training weiterverwendet.

Abb.20

Training des ML-Algorithmus

Während des sogenannten Trainings des ML-Systems, wurde dem Algorithmus anhand des annotierten Datensatzes beigebracht, die erstellten Klassifizierungen zu erkennen. Ein Python-Skript ermöglichte die Verwendung der Frameworks „OpenCV“, „TensorFlow“ sowie YOLO11, die zur Bildverarbeitung, Objekterkennung und zum Ausführen von ML-Algorithmen benötigt werden.

Noch bevor das richtige Training begann, wurde der Datensatz in ein Trainings- und ein Validierungsset eingeteilt, die sich während des gesamten Vorgangs nicht „sehen“ konnten. Das bedeutet, dass der Algorithmus nur mithilfe des Trainingssets lernt. Erst anschließend wird anhand des Validierungssets, welches bereits die richtigen Labels aufweist, gemessen, wie gut das Training funktioniert hat. Damit ein ML-System gute Erkennungen aufweisen kann, sind viele, kleinere Trainingsdurchläufe erforderlich, diese werden als Epochen bezeichnet. Die Anzahl der durchgeführten Epochen bestimmt die Länge des gesamten Trainingsvorganges. Nach jeder Epoche gibt es eine Statistik über den Funktionsgrad des Durchlaufes. Hier wird ausgewertet, wie hoch die Übereinstimmungen der Erkennungen des ML-Algorithmus und der Labels des Validierungssets sind. Bei kleinen Datensätzen, wie es auch meiner ist, besteht das Risiko des “Over-Trainings”. Es beschreibt die Gefahr, dass der Algorithmus bei zu vielen Epochen ausschließlich Bilder des vorhandenen Datensatzes zuverlässig erkennen kann. Durch den geringen Umfang des Datensatzes schießt sich das System förmlich auf die vorhandenen Bilder ein und ist nicht in der Lage, auf andere visuelle Inputs zu reagieren. Daher gilt es eine Balance zwischen ausreichendem und übermäßigem Training zu finden.

Im Falle dieses Projektes, trainierte ich etwa 200 Epochen und wählte danach die Epoche mit den besten statistischen Werten aus, um sie für mein Pose-Estimation System zu verwenden.

Abb.21

Testen des Pose-Estimation Systems

In diesem Abschnitt zeigte sich, ob und vor allem wie gut das Experiment „Labeling nach IVB“ funktioniert hat.

Für ein einfacheres Handling integrierte ich das trainierte Pose-Estimation System in den Wrapper „ComfyUI“, das ein Interface zur Verfügung stellt, welches Code visuell aufbereitet und so eine übersichtlichere Struktur für die Tests schaffte. In dem Interface konnten nun dem Datensatz ähnliche Bilder hochgeladen werden, um in Folge eine Analyse durch mein System zu erfahren. Da der Algorithmus spezifisch auf Druckgraphiken des Barocks trainiert wurde, kann er nur ähnliche visuelle Darstellungsformen verarbeiten. Fotos, Aquarelle oder andere Bildformen sind für mein Pose-Estimation System nicht verständlich. Aus diesem Grund verwendete ich für meine Tests vor allem barocke Bildquellen der digitalen Sammlung „Gallica“ der Bibliothèque nationale de France. Auf das Hochladen der Bilder folgte eine sekundenschnelle Analyse. Das Ergebnis präsentierte sich, so wie auch der Input, in bildlicher Form. Das System zeichnete die Erkennungen mittels beschrifteter Kästchen auf den hochgeladenen Bildquellen ein. Neben der Kennzeichnung „violent“ und „non-violent“ wurde zusätzlich die Confidence der Erkennung in Prozentzahlen angegeben. Ist eine Einordnung mit beispielsweise „violent 0.81“ gekennzeichnet, so ist sich das System zu 81% sicher, dass es sich hier um eine gewalttätige Bewegung handelt.

Evaluation

Evaluation

Die Evaluation steht am Ende der Kreation eines jeden ML-Systems. Die Ergebnisse der Tests müssen auf ihre Sinnhaftigkeit untersucht und die Kontinuität des Systems erprobt werden. Handelt es sich bei richtigen Einordnungen um Zufälle oder um tatsächlich erlerntes „Wissen“ des Algorithmus?

In diesem Experiment kann die Qualität des Pose-Estimation Systems anhand unterschiedlicher Faktoren festgestellt werden:

Werden nur Figuren, die auch als solche im Vorhinein von mir definiert wurden erkannt, oder finden auch Einordnungen von anderen Objekten statt?

Weisen die Erkennungen von gewalttätigen Bewegungen Ähnlichkeiten in Haltung und Dynamik zu jenen im Datensatz auf?

Weisen die Erkennungen von nicht gewalttätigen Bewegungen Ähnlichkeiten in Haltung und Dynamik zu jenen im Datensatz auf?

Werden alle Figuren auf einem Bild erkannt oder nur manche?

Funktioniert die Erkennung bei allen Testbildern gleich gut oder gibt es Ausnahmen?

Wie hoch ist die Confidence (Sicherheit) der Erkennungen?

Im Anschluss an die Evaluation müssen ausgehend von den „Fehlern“ der Einordnungen Rückschlüsse auf den Klassifizierungsprozess gezogen werden. Wie hängt die Art des Labelns mit den Falscherkennungen zusammen? Können die Rahmenbedingungen des Labelns nachgeschärft werden, um so mehr Klarheit für das System zu erzielen? Man begibt sich also am Ende der Erstellung des Algorithmus wieder fast zurück an den Anfang und beginnt den gesamten Labeling-Prozess von vorne.

Auch ich vollzog den gesamten Prozess zweimal, da die Ergebnisse des ersten Durchgangs nicht zufriedenstellend waren. Ich änderte das Labeln dahingehend, dass ich die berittenen Wesen aus meinen gezogenen Label-Kästchen ausschloss, die Analysen nach IVB auf ihre Kontinuität überprüfte und in Zweifelsfällen nachschärfte.

Nach rund einem Jahr intensiver Auseinandersetzung und stetiger Überarbeitung des Projekts habe ich ein auf Basis von IVB funktionierendes Pose-Estimation System erschaffen, das relativ zuverlässig gewalttätige von nicht gewalttätigen Bewegungen unterscheiden kann. Dabei ist zu anzumerken, dass es noch kein System gibt, das zu 100 Prozent zuverlässig arbeitet. Dennoch zeigt dieses Experiment wie wertvoll die tanzwissenschaftliche Methode IVB auch für neue digitale Phänomene wie KI sein kann und dass viel Potential in bewegungsanalytischen Verfahren für die Erschaffung von Pose-Estimation Systemen besteht.

Referenzen

Fußnoten:

1 Vgl. Großegger, Elisabeth; Sommer-Mathias, Andrea; Wessely, Katharina: Vorwort. In: Großegger, Elisabeth; Sommer-Mathias, Andrea; Wessely, Katharina (Hg.): Spettacolo Barocco – Performanz, Translation, Zirkulation. Wien: Hollitzer Wissenschaftsverlag 2018, S. 7.

2 Großegger et al., Vorwort, S. 7.

3 Vgl. Papiro, Martina: Choreographie der Herrschaft. Stefano della Bellas Radierungen zu den Reiterfesten am Flornetiner Hof 1637-1661. Paderborn: Wilhelm Fink 2016, S. 23-25.

4 Vgl. Crawford, Kate: Atals der KI: Die materielle Wahrheit hinter den neuen Datenimperien. München: Verlag C.H. Beck 2024 S. 139-140.

5 Dwyer, Philip: Violence. A Very Short Introduction. Oxford: Oxford University Press 2022, S. 2.

6 Begleitheft S. 5, In: Zwölfte Mappe. Wiens letzte große Theaterzeit – Denkmäler des Theaters. Inszenierung/Dekoration Kostüm des Theaters und der grossen Feste aller Zeiten. Wien/München: R. Piper & Co. Verlag 1930.

7 Jeschke, Claudia; unter Mitwirkung von Cary Rick: Tanz als BewegungsText: Analysen zum Verhältnis von Tanztheater und Gesellschaftstanz (1910-1965). Tübingen: Niemeyer 1999, S.46.

8 Vgl. Stolkin, Rustam: Preface. In: Stolkin, Rustam (Hg.): Scene Reconstruction, Pose Estimation and Traclking. London: IntechOpen 2007, S.IX.

9 Beyerer, Jürgen; Nagel, Matthias; Richter, Matthias: Pattern Recognition. Introduction, Features, Classifiers and Principles. Berlin/Boston: De Gruyter 2018, S. 1.

10 Papa, Elisa Giardina: Leaking Subjects and Bounding Boxes: On Training AI. München: Sorry Press 2022. S. 6.

11 Vgl. Preira, Gabriel: Wie die Bilddatensammlung ImageNet Wirklichkeit (re)konstruiert. In: Arns, Inke; Birkenstock, Eva; Bönisch, Dominik; Hunger, Francis (Hg.): Training the Archive. Köln: Verlag der Buchhandlung Walther und Franz König 2024, S. 30.

12 Crawford, Atals der KI: Die materielle Wahrheit hinter den neuen Datenimperien, S.156.

Abbildungsverzeichnis:

Abb.1: Derra de Moroda Dance Archives. Foto: Lea Karnutsch.

Abb.2: Bildtafel mit einer abgebildeten Waffe. Bildtafel XXII. In: Zehnte Mappe. Magna Allegoria Mortis Imagines – Denkmäler des Theaters. Inszenierung/Dekoration Kostüm des Theaters und der grossen Feste aller Zeiten. Wien/München: R. Piper & Co. Verlag 1930.

Abb.3: Kastenansicht in den Derra de Moroda Dance Archives. Foto: Lea Karnutsch.

Abb.4: Elfte Mappe. Feste des Sonnenkönigs – Denkmäler des Theaters. Inszenierung/Dekoration Kostüm des Theaters und der grossen Feste aller Zeiten. Wien/München: R. Piper & Co. Verlag 1930. Foto: Lea Karnutsch.

Abb.5: Arbeit mit dem Aufsichtscanner in den Derra de Moroda Dance Archives. Foto: Lea Karnutsch.

Abb.6: Analyseeinheit "Reitabbildungen". Bildtafel XII. In: Sechste Mappe. Courses de Testes et de Baque faites par le Roy – Denkmäler des Theaters. Inszenierung/Dekoration Kostüm des Theaters und der grossen Feste aller Zeiten. Wien/München: R. Piper & Co. Verlag 1925.

Abb.7: Analyseeinheit "Einzelperson". Bildtafel IV. In: Erste Mappe. L.O. Burnacini Maschere – Denkmäler des Theaters. Inszenierung/Dekoration Kostüm des Theaters und der grossen Feste aller Zeiten. Wien/München: R. Piper & Co. Verlag 1925.

Abb.8: Analyseeinheit "Stellvertreter:innen". Bildtafel XVII. In: Zehnte Mappe. Magna Allegoria Mortis Imagines – Denkmäler des Theaters. Inszenierung/Dekoration Kostüm des Theaters und der grossen Feste aller Zeiten. Wien/München: R. Piper & Co. Verlag 1930.

Abb.9: Detailaufnahme der piktografischen Niederschrift einer Analyse nach IVB. Foto: Lea Karnutsch.

Abb.10: Einige Analysetabellen. Foto: Lea Karnutsch.

Abb.11: Merkmalkatalog. Foto: Lea Karnutsch.

Abb.12: Detailaufnahme eines ausgefüllten Merkmalkatalogs. Foto: Lea Karnutsch.

Abb.13: Detailansicht einer als "violent" gelabelten Kampfansicht. Bildtafel ohne Beschriftung. In: Zweite Mappe. Szenische Architektur und Architekturphantasien – Denkmäler des Theaters. Inszenierung/Dekoration Kostüm des Theaters und der grossen Feste aller Zeiten. Wien/München: R. Piper & Co. Verlag 1926.

Abb.14: Detailansicht von Figuren, die als "violent" gelabelt wurden. Bildtafel XXII. In: Elfte Mappe. Feste des Sonnenkönigs – Denkmäler des Theaters. Inszenierung/Dekoration Kostüm des Theaters und der grossen Feste aller Zeiten. Wien/München: R. Piper & Co. Verlag 1930.

Abb.15: Detailansicht einer als "non-violent" gelabelten Figurenkonstellation. Bildtafel VII. In: Siebente Mappe. Theater und Garten – Denkmäler des Theaters. Inszenierung/Dekoration Kostüm des Theaters und der grossen Feste aller Zeiten. Wien/München: R. Piper & Co. Verlag 1926.

Abb.16: Detail eines als "non-violent" gelabelten Engelsreigen. Bühnenbild für Il favore de gli dei. Von Domenico Mauro und Gioan Antonio Lorenzini 1690. Derra de Moroda Dance Archives.

Abb.17: Aufnahme aus dem Prozess des Labelns mit "Anylabeling". Foto: Lea Karnutsch.

Abb.18: Detailaufnahme aus dem Labelingtool "Anylabeling". Foto: Lea Karnutsch. In dem Tool zu sehen ist: Bildtafel XLIII. In: Sechste Mappe. Courses de Testes et de Baque faites par le Roy – Denkmäler des Theaters. Inszenierung/Dekoration Kostüm des Theaters und der grossen Feste aller Zeiten. Wien/München: R. Piper & Co. Verlag 1925.

Abb.19: Auszug aus dem gelabelten Datensatz. Foto: Lea Karnutsch.

Abb.20: Auszug aus dem Python-Skript. Foto: Lea Karnutsch.

Abb.21: Ansicht des Interfaces von "ComfyUI". Foto: Lea Karnutsch. In Interface zu sehen: Jacques François Girard: L'Academie de l'homme d'épèe ; ou La science parfaite des exercises deffensifs et offensifs. La Haye: van Duren 1755.

Abb.22: Probe des trainierten Pose-Estimation Systems. Bildtafel 21. In: Valentin Trichter: Curiöses Reit-, Jagd-, Fecht-, Tantz- oder Ritter-Exercitien-Lexicon. Leipzig: Gleditsch 1742, Frontispiz.

➔

Referenzen