Nutzung der Entropie eines Datenraums zum Nachweis der Prozessfähigkeit

Eines der unbekanntesten Geheimnisse der Datenwissenschaft: die Entropie eines Datenraums

12/6/2020
|
Michael Welsch
&

Das Konzept der Entropie eines Datenraums kann als informationstheoretische Grundlage des SixSigma-Konzepts zum Nachweis der Prozessfähigkeit angesehen werden und stellt eine Verallgemeinerung dieses Konzepts für beliebig komplexe Daten dar. Möglich macht dies die Mathematik metrischer Räume, die wir in unserem Open-Source-Framework METRIC bereitstellen. Mathematisch basiert die Berechnung der metrischen Entropie auf einer mehrdimensionalen Gaußschen Integration unter Verwendung eines Nachbarschaftsgraphen des jeweiligen metrischen Raums.

Betrachten wir die metrische Entropie als Maß für ein Bewegungsmuster, das sich mit zunehmender Größe in Richtung mehr ändert Vielfalt.

Ein Muster wird verwendet, um einzelne Beobachtungen in einen Kontext zu setzen. Ein Mensch mit Armen, Beinen, Rumpf und Kopf bleibt ein einzelner Mensch, egal welche Körperhaltung er einnimmt. Jeder Körperhaltung entspricht die Beobachtung, z. B. in Form eines Fotos. Das Muster ist die Regelmäßigkeit, die diese verschiedenen Fotos verbindet.

Ein Muster ist untrennbar mit einer Sammlung von Beobachtungen verbunden, nicht jedoch mit einer zeitlichen Abfolge. Jede Beobachtung steht für sich. Wir können alle Fotos eines Videos mischen. Bei der Berechnung der Entropie wird der kontinuierliche Zusammenhang automatisch durch einen Graphen hergestellt. Sie ist keine Bedingung und schon gar keine Notwendigkeit für die Mustererkennung.

Das wird deutlich, wenn man sich die Entropie in der statistischen Physik anschaut, denn hier handelt es sich um das gleiche Prinzip.

Die Temperatur eines Moleküls ist proportional zur kinetischen Energie, die wiederum ein Maß für das Ausmaß ist, in dem die Möglichkeiten des Molekülzustands auftreten, nicht jedoch, welche Zustände strukturell auftreten. Diese Zustandssumme wird durch die Entropie beschrieben. Einem Eiswürfel bei 0°C kann Wärmeenergie zugeführt werden, ohne dass sich die Temperatur ändert. Hier wird Entropie übertragen, bis schließlich der Aggregatzustand des Eiswürfels kippt und die Moleküle in Form von Flüssigkeit mehr Bewegungsfreiheit haben. Erst nachdem diese neuen, strukturellen Möglichkeiten geschaffen wurden, steigt die Temperatur bzw. die kinetische Energie weiter an.

Anstatt zu untersuchen, ob und wann ein Muster von der Flugbahn durchlaufen wird (z. B. eine komplexe Schwingung im Raum), eine weist jedem Muster eine Beobachtungswahrscheinlichkeit zu. Ein Sinus wird daher nicht als kontinuierliche Funktion betrachtet, sondern als lose Ansammlung einzelner Werte. Dabei spielt es keine Rolle, in welcher Phase sich der Sinus gerade befindet.

Die Entropie ist ein Maß für die Anzahl möglicher Beobachtungen und damit ein Maß für das Muster selbst. Die metrische oder differenzielle Entropie hängt mit der intrinsischen Dimension zusammen. Genauer gesagt ist Entropie der Logarithmus der Länge einer Trajektorie durch den Datenraum. Da wir jedoch nicht von einer exakten solchen Trajektorie ausgehen, ist eine Umrechnung grundsätzlich nicht möglich und die Entropie das viel allgemeinere Maß.

Die folgende Animation zeigt für verschiedene Beispieldatensätze die berechnete Metrik (oder Differenz). Entropie für einen geometrischen Datensatz.

Abbildung 1 : Abhängigkeit der differentiellen Entropie von der intrinsischen Dimensionalität
Abbildung 1: Abhängigkeit der differentiellen Entropie von der intrinsischen Dimensionalität

Die Entropie nimmt mit zunehmender Freiheitslinie oder möglichem Aufenthaltsort oder der Vielfalt der Beobachtungen zu.

Entropie ist eine extrinsische Größe und daher von der Skalierung der Daten abhängig. Skalierungsänderungen wirken sich also direkt auf die Entropie aus. Um zwei Datenräume anhand der metrischen Entropie zu vergleichen, sollten die Datenräume daher normalisiert werden. Eine weitere Besonderheit ist, dass die kleinste Differenzentropie nicht gegen Null, sondern gegen minus Unendlich geht, die Entropie also negative Werte annehmen kann.

Vergleichen wir die Entropie des MNIST-Datensatzes. Die Ziffer 1 hat mit Abstand die kleinste Entropie, gefolgt von der 7. Ziffer. Die anderen Ziffern haben eine vergleichbare Entropie.

Abbildung 2: Entropie der Ziffern im MNIST-Datensatz.

Wie kann dieses Wissen also in der Praxis angewendet werden?

Einfach ausgedrückt: Sie möchten nicht, dass Ihr Produktionsprozess scheinbar spontan seinen Aggregatzustand ändert.

Obwohl ein Prozess makroskopisch gleich zu sein scheint (wie die Temperatur des Eiswürfels), , ist es sehr wahrscheinlich, dass es bereits zu einem kontinuierlichen Anstieg der Entropie kommt, der irgendwann dazu führt, dass das System spontan zusammenbricht. Dass die Entropie kontinuierlich zunimmt, ist nicht nur eine theoretische Möglichkeit. Gehen Sie davon aus, dass dieser Anstieg in der Praxis immer auftritt. Ein System wie eine automatisierte Anlage, das ohne äußeren Einfluss steht, entwickelt sich immer zu einem Zustand höchster Entropie. Eine Streuung entwickelt sich immer in Richtung der Normalverteilung, da diese der Zustand mit der höchsten Entropie aller Verteilungen (zumindest der unbegrenzten) ist. Ein solcher Prozess ist endlich im Gleichgewicht. Mit anderen Worten: Es ist stabil.

Allerdings ist eine Produktionsmaschine nicht von der Umgebung abgeschottet, so dass die Entropie und damit das Gleichgewicht ständig von außen beeinflusst wird und sich ein neues Gleichgewicht mit höherer Entropie einstellt immer etabliert. Dies bedeutet eine größere Streuung. Wenn Sie den Prozess neu einstellen, entziehen Sie dem System wieder Entropie.

Der unvermeidliche Anstieg der Entropie ist der Grund, warum Maschinen regelmäßig gewartet und neu eingestellt werden müssen, da Ihre Maschine von selbst zu einem besseren Prozess wird. ist möglich, aber ungefähr so wahrscheinlich wie ein Stein, der aufgrund lokaler Druckunterschiede in der Luft plötzlich nach oben schwebt.

Die Entropie des Datenraums kann ideal zur Analyse, Überprüfung und Überwachung der Prozessfähigkeit genutzt werden. Durch die kontinuierliche Auswertung von Beobachtungen mittels Sensoren kann ein Entropieanstieg ermittelt und überwacht werden, mit diesem Konzept kann ein völlig neues Niveau für die Zustandsüberwachung oder eine Predictive-Maintenance-Anwendung erreicht werden. Darüber hinaus ist die metrische Entropie ein entscheidender Baustein für die Erstellung eines autonomen Prozesses, da die Berechnung für jeden Datentyp und Prozess funktioniert und ein ideales Ziel für die automatisierte Optimierung darstellt.

Folgt uns auf
We do not only optimize production processes, but also our website! For this, we use tools such as cookies for analysis and marketing purposes. You can change your cookie settings at any time. Information and Settings