Maschine learning

Euklidischer Abstand und Rauschen

Das euklidische Distanzmaß im Einsatz mit verrauschten Daten

16/4/2021

Michael Welsch

Yannik Gaebel

Maschinelles Lernen verwendet sehr oft explizit oder implizit das euklidische Distanzmaß. Werfen wir einen Blick darauf, was das für verrauschte Daten bedeutet und was wir dagegen tun können.

In hohen Dimensionen tritt ein Phänomen auf, das in 2D und 3D noch nicht beobachtet wurde und oft als Fluch bezeichnet wird der Dimensionen: Der Abstand zwischen dem nächsten und dem entferntesten Punkt nähert sich dem gleichen Wert, dh alle Punkte sind gleich weit voneinander entfernt, obwohl sich der Informationsgehalt grundsätzlich unterscheiden kann. Dieses Phänomen kann für eine Vielzahl von Distanzmetriken beobachtet werden. Besonders ausgeprägt ist es jedoch bei der euklidischen Metrik, die wiederum besonders gut im 2- und 3-dimensionalen Raum funktioniert. Der Effekt ist daher kontraintuitiv und wir müssen lernen, ihn zu verstehen.

Sobald dieser Effekt auftritt, führt er sofort zum Zusammenbruch aller Ansätze des maschinellen Lernens, die implizit oder explizit euklidische oder verwandte Metriken auf hochdimensionale Daten anwenden. wie neuronale Netze (Gradientenverfahren mit entsprechender Verlustdefinition) oder beispielsweise K-Means-Clustering. Obwohl es also eindeutige Lösungen gäbe, kann keine Lösung bestimmt werden, wenn die Daten bewusst oder unbewusst in einen euklidischen Raum eingebettet sind.

Sehen wir uns dieses Phänomen anhand der folgenden Kurvenreihe an.

Die Funktionsabläufe werden durch ein Array von jeweils 100 numerischen Werten dargestellt oder abgetastet. Jeder einzelne Wert dieser Kurven wird nun mit einem Rauschgenerator moduliert. Jede Wiederholung dieses Experiments führt zu einem anderen Ausdruck der einzelnen Werte.

Zwei Beispiele für rauschmodulierte Kurven (Rauschstärke Sigma = 0,1)

Wenn Sie nun naiv den euklidischen Abstand zwischen zwei dieser Rausch- Modulierte Kurven, eingebettet in einen euklidischen Raum mit 100 Dimensionen, bestimmen sehr große Abstände oder eine sehr große Unähnlichkeit. Das ist offensichtlich falsch. Die Ausgangskurven sind genau gleich, ebenso die Parameter des Rauschgenerators. Der Informationsgehalt in beiden Kurven ist gleich. Würde man die Kurven ohne Rauschen und das Rauschen einzeln betrachten, wären die Abstände Null bei gleichem Versatz.

Alle paarweisen euklidischen Abstände in einer Distanzmatrix als Heatmap auftragen und den Rauschanteil sukzessive erhöhen sehen wir, wie alle Entfernungen abnehmen und sich einer mittleren Entfernung nähern.

Heatmap der verrauschten Kurven mit zunehmendem Sigma (0,01 - 0,25)

Wie kann der Fehler behoben werden?

Mit a -priori-Informationen über die Art des Rauschens (unabhängig von allen singulären Werten) und die Art des Arrays (eine kontinuierliche Funktion), selbst wenn die Daten in einen 100-dimensionalen Raum eingebettet sind, kann ein geeignetes Regularisierungsverfahren ausgewählt und das Rauschen getrennt werden wiederum mit Ausnahme numerischer Artefakte, da das Rauschen 100 Mal unabhängig voneinander auftritt. Zu diesem Zweck verwenden wir sogenannte inverse Diffusionsalgorithmen, die die Entstehung des Rauschens umgekehrt simulieren und so das Rauschen „abschwächen“ können. Wir haben hierfür Verfahren im Metric Framework implementiert, die nicht nur für einfache Kurven, sondern für beliebige Daten funktionieren. Eine auf inverser Diffusion basierende Regularisierung ist sehr effektiv, insbesondere wenn das Rauschen rudimentär normalverteilt ist.

Wir zerlegen jeden Datensatz auf diese Weise in seine Kurve ohne Rauschen und seine Rauschkomponente. Der Abstand ist nun der euklidische Abstand der regulierten Kurven plus der euklidische Abstand zwischen den CDFs der Rauschkomponenten, auch Cramér-von-Mises-Abstand genannt.

Wenn wir das Experiment mit dieser modifizierten Metrik wiederholen, sehen wir, dass die Abstände nehmen viel weniger ab und die Strukturen bleiben weitgehend erhalten.

Heatmap regulierter Kurven mit steigendem Sigma (0,01 - 0,25)

Was bedeutet das für die Praxis?

Daten müssen möglichst rauscharm erfasst werden wie möglich für maschinelles Lernen. Alternativ kann das Rauschen vor dem Training entfernt werden. Dies funktioniert jedoch nur, wenn man a priori korrekte Informationen über strukturelle Zusammenhänge in den Daten und die Art des Rauschens hat. In diesem Beispiel war es offensichtlich und die Grundwahrheit ist bekannt. Bei Felddaten ist dies jedoch nicht der Fall, insbesondere wenn die technischen Umstände der Datenerhebung nicht bekannt sind.

Einige Algorithmen bieten eine interne Regularisierung. Aber auch dies muss eine zufällige Anpassung an die Datenstruktur sein. Und das ist das Problem mit der Regularisierung: Ohne entsprechendes Wissen scheitert sie und ist kein Allheilmittel. Es kann sogar den gegenteiligen Effekt geben, dass eine ungeeignete Regularisierung (z. B. basierend auf Entropie) den Informationsgehalt entfernt, anstatt das Rauschen zu reduzieren.

Damit bleibt eigentlich nur die Erkenntnis für die Praxis: Verwenden Sie einfach nicht „noise“. Daten für maschinelles Lernen, es sei denn, Sie wissen genau, was Sie tun, und können Domänenwissen über die Daten einbringen, um das Rauschen zu unterdrücken.

Dies ist wirklich der Abgesang auf jeden AutoML-Ansatz. Auf die Qualität der Daten kommt es an, nicht auf den Algorithmus.

Übrigens zeichnen wir bei PANDA Daten, egal ob Zeitreihen oder Bilder, immer in höchster Qualität auf, zumindest in einer so hohen Auflösung, dass kein Rauschen entsteht kann durch Überabtastung sicher entfernt werden.

Folgt uns auf

zurück

weiter