Sensordatenfehler und die Auswirkungen auf KI-Anwendungen

Arten von Sensordatenfehlern und Lösungsansätze in praktischen Anwendungen

22/12/2021
|
Michael Welsch
&

Bei KI-Anwendungen geht es um Entscheidungen, die auf der Grundlage von Daten getroffen werden, die in technischen Anwendungen normalerweise mithilfe von Sensoren gewonnen werden. Es ist wichtig, den gemessenen Variablen vertrauen zu können. Es ist daher unumgänglich, sich mit Messfehlern auseinanderzusetzen, die in der Praxis zwangsläufig auftreten und durch den Einsatz von KI zu Fehlentscheidungen führen können. Nach Angaben der Internationalen Organisation für Normung (ISO) ist ein Messfehler definiert als das Ergebnis einer Messung minus dem wahren Wert der Größe. Dabei sind Messfehler nicht immer eindeutig von der Verarbeitung der Daten zu trennen. Bei PANDA gruppieren wir Messfehler nach Strategien, um sie zu identifizieren und damit umzugehen.


Klassifizierung und Ursache von Sensordatenfehlern

Bias, falsche Kalibrierung, Clipping und Drifts

Bias ist ein Fehler, der auf einen Wert zurückzuführen ist, der im Vergleich zum normalen Verhalten eines Sensors verschoben oder allgemein systematisch verzerrt ist. Um diesen Fehler zu vermeiden, ist normalerweise eine Anpassung mit einer Referenz erforderlich. Wird dies nicht oder nur teilweise richtig gemacht, führt dies zu einer fehlerhaften Umrechnung und in der Folge zu einer systematisch falsch gemessenen Größe. Häufige Fehler sind falsche Verstärkungsfaktoren, falscher Offset, Einheitenumrechnungsfehler und nicht berücksichtigte Nichtlinearitäten. Diese Fehler entstehen auch durch eine fehlerhaft durchgeführte Kalibrierung eines Sensors oder der Messkette. Auch die Referenz, die beispielsweise eine Referenzspannung am AD-Wandler sein kann, kann Veränderungen unterliegen.

Bei falscher Auslegung des Sensors kann der auftretende Messpegel den Messwert überschreiten Reichweite des Sensors bzw. der Elektronik, so dass Werte erfasst werden, die über einen Grenzwert hinaus keine Veränderung mehr zeigen. Dieses Verhalten nennt man Clipping.

Drifts sind Messwerte, die aufgrund von Veränderungen des Sensors, beispielsweise durch Alterung oder eine irreversible chemische Reaktion, oder aufgrund der Temperatur im Laufe der Zeit von ihrem wahren Wert abweichen Abhängigkeiten entstehen durch sich ändernde Umgebungsbedingungen und entsprechen somit nicht mehr einer Kalibrierung und die Kalibrierung muss angepasst werden.


Fehlende Daten, hängende Werte und Defekt

Ein häufiger Fehler in Bei den Sensordaten fehlen Daten in der Aufzeichnung. Das Ergebnis ist ein unvollständiger Datensatz. Fehlende Daten werden durch eine Vielzahl von Faktoren verursacht, darunter instabile Verbindungen aufgrund von Netzwerkproblemen, insbesondere drahtlosen Verbindungen; Ausfälle von Sensorgeräten aufgrund ihrer begrenzten Elektronik- oder Batterielebensdauer; Umweltstörungen wie Menschen, Wände und Wetterbedingungen; und Softwarefehler.

Hängende Werte sind Werte, die über die Zeit hinweg einen konstanten Wert aufweisen, wenn sie sich ändern sollten. Sie werden meist durch einen fehlerhaften Sensor oder Übertragungsprobleme verursacht und können sich daher tatsächlich als fehlende Daten herausstellen. Dabei handelt es sich häufig um Werte, die über einen längeren Zeitraum konstant auf Null liegen („stuck-at-zero“) oder um einen typischen Offset von Null, der auf einen Defekt der Elektronik schließen lässt.

Ein Defekt an der Elektronik oder der Verkabelung zeigt sich bei Hochfrequenzsensoren daran, dass die Schaltung starkes Rauschen oder eine Schwingung wie die Netzfrequenz von 50Hz auffängt. Hier handelt es sich häufig um unterbrochene Verbindungen, sodass durch Kabelbruch oder Wackelkontakt im Stecker ein Potenzial freigelegt wird und anfällig für elektromagnetische Strahlung jeglicher Art wird. Ebenso treten diese Effekte auf, wenn ungeschirmte Kabel verwendet werden.


Ausreißer und Anomalien

Die in wissenschaftlichen Publikationen am häufigsten diskutierte Fehlerart sind Ausreißer. Sie werden auch als Anomalien bezeichnet. Dabei handelt es sich um Werte, die erheblich von dem Verhalten abweichen, das durch eine Modellbetrachtung vorgegeben wird – beispielsweise im Vergleich zu einer Modellierung der Daten, bei der festgestellt wird, dass die Daten keiner Gauß-Verteilung oder einem Markov-Prozess folgen. Selbst ohne wissenschaftliche Modellierung wird eine Sensordatenmessung normalerweise als Ausreißer betrachtet, wenn sie sich deutlich von ihren vorherigen und nächsten Beobachtungen oder Beobachtungen benachbarter Sensorknoten unterscheidet, beispielsweise wenn in Zeitreihen einzelne Spitzen oder Abfälle auftreten.

Rauschen und Unsicherheit

Rauschen ist eine Fehlerart, die per se kein technischer Fehler ist. Es gibt (immer) kleine Schwankungen im Datensatz, die durch Effekte der statistischen Physik wie thermisches Rauschen und Effekte der Signalverarbeitung wie Hochfrequenzoszillationen und Aliasing bei der AD-Wandlung verursacht werden. Änderungen der Messwerte zeigen sich, obwohl keine Änderungen der Sensorwerte zu erwarten sind, da sich das System im makroskopischen Maßstab bewusst in Ruhe befindet.

Unter Unsicherheit versteht man die statistische Quantifizierung dieses Effekts als Fehlerabweichung vom Erwartungswert ab. Dabei wird davon ausgegangen, dass ein Messwert nie ohne Unsicherheit erfasst werden kann, eine Abweichung jedoch umso unwahrscheinlicher ist, je größer sie ist, so dass den Messwerten Vertrauensintervalle zugeordnet werden können. Mit Fehlerfortpflanzung lässt sich die Fehlerzunahme entlang einer Messkette beschreiben. Entlang einer analogen Übertragungskette nimmt das Rauschen ohne aktive Maßnahmen stetig zu. Nur digitalisierte Werte umgehen diesen Effekt.


Manipulations-, Bedien- und Programmierfehler

Während die bisherigen Fehlergruppen zu den klassischen Einflüssen zählen, gibt es auch Fehler, die bewusst und unbewusst verursacht werden Datenmanipulation. Die bewussten Manipulationen reichen von einer Verschönerung der Messwerte durch manuelle Datenkorrekturen bis hin zu einem Cyberangriff, bei dem eigentlich korrekt erfasste Werte nachträglich oder in Echtzeit durch äußere Kräfte verändert werden.

Dies steht im Gegensatz zur Bedienung und Programmierfehler, die unter Umständen auch zu Sensordatenfehlern führen können, oft aufgrund nicht intuitiver Software oder mangelnder Qualifikation zu Expertensystemen.


Umgang mit Sensordatenfehlern in KI-Anwendungen.

Die Vielfalt der aufgeführten Fehler zeigt, dass es viele Gründe gibt, warum Daten aus einer Aufzeichnung und einer darauf aufbauenden KI-Anwendung nicht vertrauenswürdig sein sollten. 

Neben der Frage, wie KI-Anwendungen mit regulären, aber unbekannten Daten umgehen, können sich in regulären Daten auch subtile bis extreme Sensordatenfehler einschleichen. Am Modellausgang stören die fehlerhaften Daten dann den Algorithmus, weshalb die Erkennung von Sensordatenfehlern nach der KI-Anwendung stark erschwert bis unmöglich ist.

Sensordatenfehler zeigen sich jedoch im Sensor -spezifische Merkmale, die zur Selbstkontrolle direkt am Dateneingang oder in der vorgelagerten Messkette und Elektronik genutzt werden können. Sensordatenfehler können daher parallel oder in der Vorverarbeitung der Dateneingabe analysiert werden. Hierzu können sowohl deterministische als auch KI-Methoden eingesetzt werden. Grundlage einer solchen Vertrauenskette ist die Beherrschung der gesamten Signalkette der Datenverarbeitung mit Kontrollen entlang der gesamten Kette.


Strategien zur Erkennung von Sensordatenfehlern

Beim Entwurf einer KI-Anwendung geht es neben der Schaffung der eigentlichen KI-Fähigkeit mit all ihren besonderen Herausforderungen immer darum, möglichst viele Fehlerquellen zu erfassen, die durch Sensordatenfehler entstehen. Die Methoden hierfür sollten grundsätzlich unabhängig von der eigentlichen KI-Anwendung oder dem Training sein.

Im Microservice-Ansatz von PANDA DRIFT kommuniziert jeder Dienst einen Status und einen Gesundheitszustand über den Zustand des Dienstes . Dieser einheitliche Kommunikationskanal kann verwendet werden, um Fehler aus verschiedenen Teilen einer Anwendung zu aggregieren und auf Dashboards anzuzeigen, eine Verbindung zu Ticketsystemen herzustellen und automatisierte Routinen aufzurufen. Während die infrastrukturelle Lösung zur Fehlerbehandlung mit Microservices recht einfach und universell gelöst werden kann, werden in PANDA an unterschiedlichen Stellen unterschiedliche Techniken zur Überwachung des Sensors in den fünf Gruppen eingesetzt.

Die erste Gruppe umfasst Fehljustierungen Sensoren. Das Sensorgerät von PANDA kann EEPROM-Chips lesen, die in Sensoren und Anschlüssen installiert sind. Hier können Kalibrierdaten gespeichert und dokumentiert werden. Sensordaten werden von DRIFT intern als mV-Einheiten gespeichert und rauschreduziert, so dass eine falsche Kalibrierung oder eine falsche Einheitenumrechnung im Nachhinein korrigiert werden kann, ohne die bereits gespeicherten Daten zu verändern. Darüber hinaus können Maschinen oft gezielt in einen Wartungsmodus versetzt werden, in dem das Verhalten der Sensoren bekannt ist und diese automatisch angepasst werden können.

In der zweiten Gruppe der Abschaltungen werden Testroutinen eingebaut in das PANDA-Sensorgerät, das auf Hardwareroutinen des AD-Wandlers zugreift. Die erfassten Daten werden lokal in Ringpuffern auf der SD-Karte zwischengespeichert und anschließend synchronisiert und bei Bedarf nachbearbeitet, wenn die Verbindung wiederhergestellt ist.

In der dritten Gruppe von Ausreißern ist es sinnvoll, sie zu erstellen robuste maschinelle Lerndienste. Dafür gibt es zwei Strategien. Entweder werden die Algorithmen direkt mit Ausreißern trainiert oder die Daten werden vor der eigentlichen Verarbeitung auf statistische Merkmale überprüft. Hier sind deterministische Methoden oft effektiver zu handhaben als neuronale Netze, etwa wenn es darum geht, zu erkennen, dass eine Kamera verstaubt ist oder ein Wert hängt. Die Ursachen einzelner Ausreißer können durch die Auswertung der erfassten Größen mit den exakten Filtereigenschaften oder den Nyquist-Shannon-Kriterien der Hardware untersucht werden, wobei Spitzen und Einbrüche nur in einer bestimmten Intensität auftreten dürfen. Diese Größen sind für die PANDA-Sensorgeräte genau bekannt.

In der vierten Gruppe von Rauschen und Unsicherheit hilft der Einsatz hochwertiger Elektronik und Sensorgeräte mit geringem Rauschen. Durch analoge und digitale Filterung sowie Oversampling-Strategien kann der Effekt weitgehend auf ein unkritisches Maß reduziert werden. Algorithmisch können sowohl frequenzbasierte Rauschunterdrückung als auch Regularisierungsverfahren eingesetzt werden, um das Rauschen anschließend zu entfernen. Allerdings ist dies immer nur die zweite Wahl, wenn man andererseits die Signalkette optimieren kann.

Die Auseinandersetzung mit der fünften Gruppe fällt nicht in den Bereich der Signaltheorie, kann aber durch entgegengewirkt werden modernste IT-Sicherheitsprinzipien und ein Fokus auf gutes API- und UX-Design. Insbesondere kann ein Linux-System mit reduzierten und verwalteten Abhängigkeiten gut gewartet werden. PANDA verlässt sich bei DRIFT-Instanzen auf PANDA-Rechengeräten auf Linux.

Folgt uns auf
We do not only optimize production processes, but also our website! For this, we use tools such as cookies for analysis and marketing purposes. You can change your cookie settings at any time. Information and Settings