Sichere künstliche Intelligenz – Beispiele für Widersacher

Sichere künstliche Intelligenz – Beispiele für Widersacher

Da Andrew Ng sagte, dass maschinelles Lernen die Elektrizität des 21. Jahrhunderts ist, hat es ein enormes Potenzial. Sie können nicht einmal auf ein Bereich innerhalb der Wirtschaft hinweisen, in dem künstliche Intelligenz nicht effektiv anwendbar wäre. Tatsächlich gibt es ein Gebiet, in dem die Verwendung künstlicher Intelligenzmodelle innerhalb sicherheitskritischer Systeme tragisch sein kann.

Im gegenwärtigen Stand der Technik der künstlichen Intelligenz sind gegnerische Angriffe weitaus fortgeschrittener und mächtiger als Abwehrkräfte. Daher ist maschinelles Lernen in sicherheitskritischen Systemen keine gute Idee, wenn Sie sich nur auf die künstliche Intelligenzmethode verlassen und nichts anderes. Es stellte sich heraus, dass maschinelle Lernmethoden und neuronale Netzwerke die Trainingsdaten unterfragten und einen riesigen latenten Raum freigelassen haben, in dem die bewusst berechneten gegnerischen Beispiele die Modelle täuschen können.

Ein gegenteiliges Beispiel sind Daten, die auf die gleiche Weise wie die regelmäßig erfassten Daten verwendet werden. Es geht in die Eingabe des Klassifizierers als reguläre Datenabtastung ein, und das Modell sagt das Ergebnis wie üblich voraus.

Regelmäßige Daten werden jedoch über Sensoren und IOT-Geräte aus der Praxis erfasst. Gegenbeispiele stammen nicht aus dieser Sammlung. Ein Beispiel für ein kontroverses Beispiel ist ein Beispiel, das direkt angepasst wird, um von einem Klassifizierermodell falsch klassifiziert zu werden.

Hier ein Beispiel zum besseren Verständnis:

60 % Panda                                                                                                                  99.9 % Gibbon

Eine Demonstration der schnellen, kontroversen Beispielgenerierung, die auf GoogLeNet (Szegedy et al., 2014a) in ImageNet angewendet wurde. Durch Hinzufügen eines unmerklich kleinen Vektors, dessen Elemente dem Vorzeichen der Elemente des Gradienten der Kostenfunktion in Bezug auf die Eingabe entsprechen, können wir die Klassifizierung des Bildes von GoogLeNet ändern. Hier entspricht unser Epsilon von .007 der Größe des kleinsten Bits einer 8-Bit-Bildkodierung nach der Umwandlung von GoogLeNet in reelle Zahlen. [1]

Das GoogLeNet, ein konvolutionäres neuronales Netzwerk, klassifizierte das Bild des linken Pandas mit einem Vertrauen von 60% zu Panda und klassifizierte den rechten Panda mit 99,9% für Gibbon. Offensichtlich ist es ein großer Fehler.

Ein Beispiel für einen Gegner ist nicht wirklich auf ein Klassifikationsmodell spezialisiert, und ein einziges Beispiel für einen Gegner kann mehrere verschiedene Arten von Modellen täuschen.

Kreuztechnische Übertragbarkeitsmatrix: Zelle (i, j) ist der Prozentsatz gegnerischer Proben, die einen irrtümlichen Klassifizierer erzeugen, der unter Verwendung der maschinellen Lernmethode i gelernt wurde und von einem mit Technik j trainierten Klassifikator falsch klassifiziert wird. [2]

Es hat sich bei der Untersuchung herausgestellt, dass viele verschiedene Modelle dasselbe widersprüchliche Beispiel falsch klassifizieren, und sie dieselbe Klasse zuweisen, was zu der Schlussfolgerung führte, dass wir mit einem unterpassenden Problem konfrontiert sind. Eine weitere Tatsache bestätigt die bisherige Vermutung. Wenn man den Unterschied zwischen einem ursprünglichen Beispiel und einem gegnerischen Beispiel nimmt, erhält man eine Richtung im Eingaberaum, der ein Vektor ist. Und wenn man den gleichen Vektor zu einem völlig anderen Original-Sample als dem Ergebnis hinzufügt, ist dies wieder ein Beispiel für einen Gegner. Dies ist ein systematischer Effekt, nicht nur ein Zufallseffekt, wie es bei Überanpassung der Fall wäre. Das Input-Output-Mapping ist tendenziell linear, verglichen mit dem Parameter-Output-Mapping, das stark nichtlinear ist.

Der blaue Pfeil ist der Richtungsvektor. Er ist das Ergebnis einer Originalprobe und eines gegenteiligen Beispielunterschieds.

Modelle verallgemeinern sich gut auf natürlich vorkommende Mengen, da diese sehr linearen Muster zu den natürlich vorkommenden Trainingsdaten passen und sogar zu den natürlich vorkommenden Testdaten verallgemeinern können. Woher die Trainingsdaten stammen, ist eine genaue Verteilung mit auf den Vertrieb spezialisierten Eigenschaften. Machine Learning-Modelle haben gelernt, jedes Beispiel, das aus derselben Distribution stammt wie die Trainingsdaten, auf eine Weise zu lösen, in der die Modelle Eigenschaften beobachten, die nicht von der Distribution unabhängig sind, sondern eine besondere Eigenschaft dieser exakten Distribution. Diese Verteilung ist nur ein kleiner Teil des Kuchens. Wenn also jemand die Testverteilung und die Probe absichtlich verlagert, können alle bekannten Machine-Learning-Modelle sehr leicht in die Irre geführt werden. Versteht mich nicht falsch, wenn wir sie mit natürlich vorkommenden Datensätzen testen, sind die Modelle fast immer korrekt.

UMGEKEHRTE BEISPIELE KÖNNEN VERWENDET WERDEN, UM MASCHINELLE LERNSYSTEME ZU BEEINTRÄCHTIGEN

Wenn jemand ein Modell täuschen will, aber:

  • keinen Zugriff auf das Modell haben.
  • Ich weiß nicht, welche Architektur verwendet wird.
  • weiß nicht, welcher Algorithmus verwendet wird.
    • weiß nicht, ob es sich um ein support vector mashine model oder ein deep neuronales Netz handelt.
  • kennen die Parameter des Modells nicht.

Eine Möglichkeit besteht darin, das Modell zu täuschen, wenn Sie nur eingeschränkten Zugriff auf das Modell haben. Dies bedeutet, dass Sie die Möglichkeit haben, Eingaben an das Modell zu senden und dessen Ausgänge zu beobachten Datensatz. Nach dem Training des Modells können gegnerische Beispiele für dieses Modell erstellt werden. Daher ist es sehr wahrscheinlich, dass diese Beispiele auch das Zielmodell übertragen und täuschen.

FEHLGESCHLAGENE VERTEIDIGUNGEN:

  • Generative pretraining
  • Removing perturbation with autoencoder
  • Adding noise at test time
  • Ensembles
  • Confidence-reducing perturbation at test time
  • Error correcting codes
  • Multiples glimpses
  • Weight decay
  • Double backpropagation
  • Dropout
  • Various non-linear units

Es ist die neueste künstliche Intelligenz, und das Problem ist noch nicht gelöst. Die Community kann sich nicht direkt gegen diese Art von Angriffen wehren, aber es gibt einige Versuche, wie eine solche zu entwickeln:

  • Die richtige hintere Verteilung der Klassenbezeichnung von y bei gegebenen Eingaben x erhalten.
  • Trainieren Sie an gegnerischen Beispielen.
  • und so weiter..

Wenn dieses Problem gelöst wird, stehen viele Möglichkeiten offen.

Wie Ian Goodfellow sagte: “Wenn wir modellbasierte Optimierungen durchführen können, können wir eine Funktion aufschreiben, die etwas beschreibt, das noch nicht existiert, aber wir wünschen uns, dass wir das hätten.”

Es werden automatisch neue Gene, neue Moleküle, neue Medikamente, neue 3D-Designs in allen Bereichen des 3D-Designs, die Wirkstoffsuche usw. entwickelt… ohne menschliches Engineering.

Wir sind sicher, dass es in Ihrem Unternehmen viele Aufgaben gibt, die mit AI automatisiert werden können: Wenn Sie die Vorteile der künstlichen Intelligenz genießen möchten, wenden Sie sich an unsere kostenlose Beratung bei einem unserer Ansprechpartner.

REFERENZEN:

[1]: I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and Harnessing Adversarial Examples,”. arXiv preprint: 1412.6572, 2015.

[2]: N. Papernot, P. McDaniel, I. J. Goodfellow, “Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples”. arXiv preprint: 1605.07277, 2016.

Menü schließen