Haarerkennung mit der Kinect

Gerade beschäftige ich mich mit Bilderkennung, genauer gesagt mit dem Erkennen von Personen und deren Eigenschaften (“Features”). Dabei ist wenig vorgegeben, aber man landet recht schnell bei zwei Kandidaten, je nach Anwendungsfall:

Bei der Kinect für Bewegungs- (Gesten-, …), Tiefen- und Gesichtserkennung
Bei OpenCV für “Feature Detection” im eigentlichen Sinne, also weniger “wo ist das Gesicht” oder “wie steht der Arm”, als “trägt das Gesicht eine Brille” oder “wie viele Finger zeigt die Hand”

Zwar bringt die Kinect ebenfalls die Erkennung bestimmter Features mit, OpenCV funktioniert nur halt allgemeiner. In erster Annährung habe ich mich trotzdem auf die Kinect konzentriert, damit geht insbesondere im Gesicht schon recht viel (und ich muss nur eine neue Technologie zur Zeit lernen):

Direktlink, Quelle

Knifflig wird es, wenn man mehr als “nur” das Gesicht erkennen will – beispielsweise den Kopf als Ganzes. Oder die Frisur. Oder auch nur die Haarfarbe. Darum soll es im Folgenden gehen – wobei ich explizit nicht behaupte, dass das nicht anders einfacher geht! Hier nur meine Versuche und Erkenntnisse, vielleicht helfen sie ja wem.

Überlegung 1: Man geht vom erkannten Gesicht aus:

FaceTracker faceTracker = new FaceTracker(myKinectSensor);
FaceTrackFrame faceFrame = faceTracker.Track(colorImageFormat, colorImageData, depthImageFormat, depthImageData, skeleton);
if (faceFrame != null && faceFrame.TrackSuccessful)
{
    FaceRect face = faceFrame.FaceRect;
}

FaceTracker faceTracker = new FaceTracker(myKinectSensor);

FaceTrackFrame faceFrame = faceTracker.Track(colorImageFormat, colorImageData, depthImageFormat, depthImageData, skeleton);

if (faceFrame != null && faceFrame.TrackSuccessful)

{

FaceRect face = faceFrame.FaceRect;

}

Daraus ergibt sich ein Bereich um das Gesicht

// bounds of rect around head (including some padding and dynamic height):
xx = face.Left - 20;
yy = (int)(face.Top - face.Height / 1.5);
ww = face.Width + 40;
hh = face.Bottom - yy;

// bounds of rect around head (including some padding and dynamic height):

xx = face.Left - 20;

yy = (int)(face.Top - face.Height / 1.5);

ww = face.Width + 40;

hh = face.Bottom - yy;

, in dem man auf Basis der Tiefeninformationen Kopf von Wand unterscheidet. Vorteil wäre, dass zB blonde Haare nicht für Wand gehalten werden. Aber #1: Man hat zwar die Tiefendaten des Kinectsensors, aber diese kann man nicht “mal eben” über die RGB-Daten der Kamera legen. Das liegt (neben den unterschiedlichen Auflösungen der beiden Sensoren) am sogenannten “Schatten”, der dadurch entsteht, dass Tiefensensor und Kamera eben zwei diskrete Sensoren sind, die nebeneinander liegen. Der Tiefensensor guckt also “von der Seite” auf die Szene der Kamera. Im folgenden Bild durch den schwarzen, nunja, Schatten visualisiert:

Dessen ist Microsoft sich bewusst, und stellt Funktionen wie MapDepthFrameToColorFrame() bereit – mit mäßigem Erfolg:

Man beachte: Der Umriss ist schon irgendwie OK (aber in x-Richtung gestreckt?), aber vor allem rechts auf dem Bild sieht man eine Lücke. Man kann diesen Schatten zwar kompensieren, das ist aber nicht unbedingt trivial, außerdem gibt es noch das Aber #2, und das sieht man hier nicht so direkt: Der Tiefensensor hat Probleme mit Haaren. Hochstehende Frisuren werden “abgeschnitten”.

Deshalb zweiter Ansatz auf Basis von Farbwerten. Das scheint durchaus erfolgsversprechender, wie ein Paper der Universität von Maryland (lokale Kopie) nahelegt, die machen genau das (Algorithmus ab 2.1; Ergebnis dann auf Seite 5). Im ersten Schritt messen sie die Durchschnittsfarbe der Haut, und zwar unter beiden Augen und über der Nase (siehe Seite 4). Im obigen Screenshot sieht man das schon, dieser bräunliche Kasten links ist meine durchschnittliche Hautfarbe:

// right eye:
PointF outerPoint = faceTriangles[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.OuterCornerOfRightEye];
PointF innerPoint = faceTriangles[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.InnerCornerRightEye];
xx = (int)outerPoint.X;
yy = (int)outerPoint.Y + 5;
ww = (int)(innerPoint.X - outerPoint.X);
hh = 10;
stride = ww * bytesPerPixel;
byte[] dataRightEye = new byte[stride * hh];
colorImageWritableBitmap.CopyPixels(new Int32Rect(xx, yy, ww, hh), dataRightEye, stride, 0);

//... left eye, forehead, ...

// calculate average color:
byte[] colorSamples = new byte[dataRightEye.Length + dataLeftEye.Length + dataForehead.Length];
dataRightEye.CopyTo(colorSamples, 0);
dataLeftEye.CopyTo(colorSamples, dataRightEye.Length);
dataForehead.CopyTo(colorSamples, dataRightEye.Length + dataLeftEye.Length);
skinColor = calculateAverageColor(colorSamples);

// right eye:

PointF outerPoint = faceTriangles[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.OuterCornerOfRightEye];

PointF innerPoint = faceTriangles[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.InnerCornerRightEye];

xx = (int)outerPoint.X;

yy = (int)outerPoint.Y + 5;

ww = (int)(innerPoint.X - outerPoint.X);

hh = 10;

stride = ww * bytesPerPixel;

byte[] dataRightEye = new byte[stride * hh];

colorImageWritableBitmap.CopyPixels(new Int32Rect(xx, yy, ww, hh), dataRightEye, stride, 0);

//... left eye, forehead, ...

// calculate average color:

byte[] colorSamples = new byte[dataRightEye.Length + dataLeftEye.Length + dataForehead.Length];

dataRightEye.CopyTo(colorSamples, 0);

dataLeftEye.CopyTo(colorSamples, dataRightEye.Length);

dataForehead.CopyTo(colorSamples, dataRightEye.Length + dataLeftEye.Length);

skinColor = calculateAverageColor(colorSamples);

mit

private Color calculateAverageColor(byte[] colorSamples)
{
    if (System.BitConverter.IsLittleEndian)
    {
        System.Array.Reverse(colorSamples);
    }
    int alphas = 0;
    int reds = 0;
    int greens = 0;
    int blues = 0;
    for (int i = 0; i < colorSamples.Length; i += 4)
    {
        alphas += colorSamples[i];
        reds += colorSamples[i + 1];
        greens += colorSamples[i + 2];
        blues += colorSamples[i + 3];
    }

    return Color.FromArgb((byte)(alphas / colorSamples.Length * 4), (byte)(reds / colorSamples.Length * 4), (byte)(greens / colorSamples.Length * 4), (byte)(blues / colorSamples.Length * 4));
}

private Color calculateAverageColor(byte[] colorSamples)

{

if (System.BitConverter.IsLittleEndian)

{

System.Array.Reverse(colorSamples);

}

int alphas = 0;

int reds = 0;

int greens = 0;

int blues = 0;

for (int i = 0; i < colorSamples.Length; i += 4)

{

alphas += colorSamples[i];

reds += colorSamples[i + 1];

greens += colorSamples[i + 2];

blues += colorSamples[i + 3];

}

return Color.FromArgb((byte)(alphas / colorSamples.Length * 4), (byte)(reds / colorSamples.Length * 4), (byte)(greens / colorSamples.Length * 4), (byte)(blues / colorSamples.Length * 4));

}

Ergänzend (und analog) bilde ich die Durchschnittsfarbe der Wand links und rechts von dem Kasten um meinen Kopf. Dann kann ich alle Pixel des Kopfkastens durchiterieren, und Wand, Haut und Rest unterschieden:

distanceSkin = Math.Sqrt((Math.Min(pixels[i + 2] + lightningOffsetLeft, 255) - skinColor.R) ^ 2 + (Math.Min(pixels[i + 1] + lightningOffsetLeft, 255) - skinColor.G) ^ 2 + (Math.Min(pixels[i] + lightningOffsetLeft, 255) - skinColor.B) ^ 2);
distanceWall = Math.Sqrt((pixels[i + 2] - wallColor.R) ^ 2 + (pixels[i + 1] - wallColor.G) ^ 2 + (pixels[i] - wallColor.B) ^ 2);

distanceSkin = Math.Sqrt((Math.Min(pixels[i + 2] + lightningOffsetLeft, 255) - skinColor.R) ^ 2 + (Math.Min(pixels[i + 1] + lightningOffsetLeft, 255) - skinColor.G) ^ 2 + (Math.Min(pixels[i] + lightningOffsetLeft, 255) - skinColor.B) ^ 2);

distanceWall = Math.Sqrt((pixels[i + 2] - wallColor.R) ^ 2 + (pixels[i + 1] - wallColor.G) ^ 2 + (pixels[i] - wallColor.B) ^ 2);

Ich spare mir an dieser Stelle den Code der Erkennung, man muss recht viel feintunen:

Beispielsweise wird heller Schein auf der Haut als Wand erkannt, weshalb ich beide Hälften des gesichtes separat behandel – dadurch kann ich davon ausgehen, dass wenn der Kopf (die Wand) begonnen hat, keine Wand- (Kopf-) Pixel mehr kommen.
Ich gehe aber erst nach zwei entsprechend erkannten Pixeln davon aus, Kopf (Wand) gefunden zu haben, um toleranter gegen Fehlmessungen zu sein…
…außerdem verwende ich unterschiedliche Thresholds für jede Hälfte, da das Licht an meinem Schreibtisch von der linken Seite kommt – rechts ist dadurch dunkler.
Ergänzend addiere ich einen Offset (“lightningOffsetLeft” im obigen Code; kann auch negativ sein), um diesen Lichteinfall zu kompensieren

Das geht dann schon ganz gut:

Und man könnte sich denken: Wow, sogar Bart und Brille werden “erkannt”. Nicht so schnell, so sieht jeder aus, auch Leute ohne Bart und Brille.

Mir geht es hier nur um Frisur und (primär) Haarfarbe, deshalb ignoriere ich die Pixel im Gesicht: Dafür lege ich um die Nasenspitze eine Ellipse, und ignoriere alle Pixel innerhalb dieser Ellipse:

// left half of face:
int outerBound = (int)(faceFrame.GetProjected3DShape()[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.OuterCornerOfRightEye].X * 0.97) - xx;
int top = (int)faceFrame.GetProjected3DShape()[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.TopSkull].Y - yy;
int bottom = (int)faceFrame.GetProjected3DShape()[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.BottomOfChin].Y - yy;
double xRadius = ww - outerBound;
double yRadius = nose.Y * 0.8;
if (Math.Pow((xPos - outerBound - xRadius) / xRadius, 2) + Math.Pow((yPos - top - yRadius) / yRadius, 2) <= 1)
{
    // ellipse, "face"
}
// ...
// right half of face:
int outerBound = (int)(faceFrame.GetProjected3DShape()[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.OuterCornerOfLeftEye].X * 0.97) - xx;
int top = (int)faceFrame.GetProjected3DShape()[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.TopSkull].Y - yy;
int bottom = (int)faceFrame.GetProjected3DShape()[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.BottomOfChin].Y - yy;
double xRadius = ww - outerBound;
double yRadius = nose.Y * 0.8;
if (Math.Pow(xPos / xRadius, 2) + Math.Pow((yPos - top - yRadius) / yRadius, 2) <= 1)
{
    // "face"
}

// left half of face:

int outerBound = (int)(faceFrame.GetProjected3DShape()[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.OuterCornerOfRightEye].X * 0.97) - xx;

int top = (int)faceFrame.GetProjected3DShape()[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.TopSkull].Y - yy;

int bottom = (int)faceFrame.GetProjected3DShape()[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.BottomOfChin].Y - yy;

double xRadius = ww - outerBound;

double yRadius = nose.Y * 0.8;

if (Math.Pow((xPos - outerBound - xRadius) / xRadius, 2) + Math.Pow((yPos - top - yRadius) / yRadius, 2) <= 1)

{

// ellipse, "face"

}

// ...

// right half of face:

int outerBound = (int)(faceFrame.GetProjected3DShape()[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.OuterCornerOfLeftEye].X * 0.97) - xx;

int top = (int)faceFrame.GetProjected3DShape()[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.TopSkull].Y - yy;

int bottom = (int)faceFrame.GetProjected3DShape()[Microsoft.Kinect.Toolkit.FaceTracking.FeaturePoint.BottomOfChin].Y - yy;

double xRadius = ww - outerBound;

double yRadius = nose.Y * 0.8;

if (Math.Pow(xPos / xRadius, 2) + Math.Pow((yPos - top - yRadius) / yRadius, 2) <= 1)

{

// "face"

}

Außerdem ignoriere ich bis auf Weiteres alle Pixel unterhalb der Nase, um mir Probleme mit der vergleichsweise schattigen, also dunkleren, Region unter dem Kinn zu ersparen. Das Ergebnis:

ist nicht soo schlecht! Aber (es gibt immer ein aber): Man bekommt tatsächlich Probleme, wenn Haut, Haar (und hier die Wand) ähnliche Farben haben (auch hier ignoriere ich alle Pixel unterhalb der Nase!):

(Das Gesicht habe ich nachträglich verfälscht. Danke an M. für’s Modellsitzen!)

Ideen, das zu vermeiden, wären zum Beispiel die Einbeziehung von Kantenerkennung, um “Ende” der Wand und “Beginn” der Haut zu erkennen… oder gibt es weitere Vorschläge? Bis auf Weiteres soll es das aber erstmal gewesen sein. HTH!

UPDATE

PS, hier noch ein paar Libraries, die nützlich sein könnten (ungetestet):

headtrackr, “Javascript library for headtracking via webcam and WebRTC/getUserMedia”
FaceTracker, “Real time deformable face tracking in C++ with OpenCV 2.”
ofxFaceTracker, “ASM face tracking addon based on Jason Saragih’s FaceTracker.”

crusy.net

♪ Commit ins Abenteuerland ♫

Haarerkennung mit der Kinect

UPDATE

Leave a Reply Cancel reply