Im Rahmen meiner Bachelorarbeit habe ich ein neuronales Netz darauf trainiert die statischen Handposen des deutschen Fingeralphabets und die Ziffern von 0 bis 9 der
amerikanischen Gebärdensprache zu klassifizieren. Durch die Einbettung des Netzes in eine prototypische Anwendung kann die Handposition getrackt werden,
was es ermöglicht einfache Bewegungen in die Klassifikation miteinfließen zu lassen. So können beispielsweise A und Ä unterschieden werden. Außerdem ist durch die
Anwendung eine direkte Interaktion mit dem Nutzer über die Webcam möglich, sodass die Pose der getrackten Hand in Echtzeit klassifiziert werden kann.
Für den Trainingsdatensatz habe ich jeweils 50 Variationen der Hand für jede der 37 Klassen von zwölf Freiwilligen aufgenommen, sodass insgesamt 22.200 Bilder zur Verfügung standen.
Aus den Bildern wurden mit MediaPipe Hands die Koordinaten von 21 3D-Keypoints extrahiert. Durch diese Vereinfachung wurde auch die Augmentation ermöglicht, mit derer der Datensatz
noch einmal um den Faktor 10 vergrößert wurde. Der Zweck der Augmentation bestand darin durch minimale Skalierung und Rotation der Koordinaten die Grenzen zwischen den Klassen
deutlicher zu machen. Mit diesen augmentierten Koordinaten wurde das Netz letztendlich trainiert. Durchschnittlich wurden 97% der Ziffern und 92% der Buchstaben korrekt klassifiziert.
|