DOPAMINE-RL

DOPAMINE-RL

Heutzutage gibt es im Internet eine Vielzahl von Open Source-Frameworks, die bei der Implementierung von AI-Anwendungen helfen. Die meisten Frameworks befassen sich mit beaufsichtigtem und unüberwachtem Lernen. Google hat gerade ein neues Framework (basierend auf dem beliebten Tensorflow) für das Lernen in Reinforcement veröffentlicht. Diese Decknamen: DOPAMINE. In unserem Beitrag lesen Sie über das Lernen im Bereich der Verstärkung und über die Eigenschaften des neuen Frameworks.

Google war immer auf der Verbesserung der Bibliotheken. Diese Tatsache belegt der Tensorflow. Tensorflow ist die Basis beliebter APIs (z. B. Keras), die Sie in unseren Kursen erwerben können. Diese Bibliotheken sind effektiv bei Problemen, bei denen die Daten- / Label-Paare verfügbar sind. Diese Art des Lernens wird als beaufsichtigtes Lernen bezeichnet. Wir nähern uns der Funktion zwischen den Eingabedaten und den Ausgabekennungen, das heißt das „Lehren“ unseres Modells. Wir haben gelernt, ein Auto auf dieselbe Weise in ein Bild einzuordnen. Unsere Eltern sagten uns, dass es ein Auto darstellt, und wir haben es an vielen Beispielen verstanden. Dieses intelligente hat Nachteile. Es kann niemals die Fähigkeiten seines Lehrers übertreffen, weil es nur eine schlechte Schnittstelle zur Welt hat.

  [2] Versuch und Fehler Methode 

Für das Reinforcement-Lernen sind keine beschrifteten Datensätze erforderlich, es werden Versuch und Irrtum verwendet. Wir setzen einen Agenten in eine Umgebung, in der er frei experimentieren kann. Die Umgebung belohnt den Agenten nach jeder durchgeführten Aktion. Das Hauptziel ist die Archivierung der höchstmöglichen Belohnung. Wir sagen ihnen nicht, was die gute Lösung ist, wir lassen es, um die Umwelt kennenzulernen. Unser Gang hat sich auf diese Weise verbessert. Unsere Eltern haben uns nicht gesagt, welche Signale wir an unsere Glieder senden müssen. Wir haben eine Milliarde Mal versucht, manchmal haben wir versagt, manchmal sind wir gegangen. Mit dieser Art des Lernens kann ein Agent die menschliche Leistung übertreffen. Der AlphaGo schlug den Weltmeister auf diese Weise.

Das Problem ist beim beaufsichtigten Lernen, dass eine große Menge gut beschrifteter digitaler Daten erforderlich ist, die nicht in jedem Sektor verfügbar sind. Im Finanzsektor sind alle Transaktionen leicht nachvollziehbar, sodass eine genaue Vorhersage möglich ist. Dies ist nicht in allen realen oder simulierten Umgebungen (z. B. Schach) der Fall, in denen die Sammlung vollständiger Abdeckungsbeispiele teuer ist und Zeit verschwendet.

Das Reinforcement-Lernen erfordert Zugang zur Umgebung, sodass es damit interagieren und Belohnungen erhalten kann (diese Belohnung kann erst später kommen, z. B .: in Schach, der letzte Schritt entscheidet). Sehr häufig, dass der Agent zuerst mit einer simulierten Umgebung interagiert, die zwei Hauptziele verfolgt: Schutz vor irreversiblen Nebenwirkungen und Beschleunigung des Lernprozesses. Um einen RL-Agenten in einer simulierten Umgebung zu trainieren, gibt es im Internet einige Bibliotheken, zu denen auch die Umgebungen und die Agenten gehören. Diese Bibliotheken bieten keine Flexibilität und Stabilität, was die Optimierung und den Entwicklungsprozess verlangsamt.

Dopamin versucht, diese Probleme zu lösen. Das Ziel von Google bestand darin, ein Framework zu entwickeln, mit dem Entwickler auf einfache Weise Modelle erstellen und neue Parameter ausprobieren können. So können die Entwickler schnell experimentieren und mit einer Parameterkombination, die falsch verworfen wurde, eine bessere Leistung erzielen. Der RAINBOW, der der führende RL-Agent ist, ist ebenfalls Teil dieser Implementierung. Der Vollständigkeit halber wird auch das traditionelle DQN im Framework implementiert.

Die Zeit bestimmt, ob das neue Framework den zusätzlichen Hoffnungen dient oder nicht, aber es wird die Erstellung und Entwicklung von Prototypen sicherlich erheblich erleichtern. Unser nächster Beitrag wird sich mit OpenAI Gym beschäftigen, einem weit verbreiteten Framework für ein anderes Unternehmen, das derzeit weit verbreitet ist, um RL-Agenten zu unterrichten.

Wir sind sicher, dass es in Ihrem Unternehmen viele Aufgaben gibt, die mit AI automatisiert werden können: Wenn Sie die Vorteile der künstlichen Intelligenz genießen möchten, wenden Sie sich an unsere kostenlose Beratung bei einem unserer Ansprechpartner.

REFERENZEN:

[1] https://github.com/google/dopamine

[2] https://tempora-mutantur.co.uk/wp-content/uploads/sites/5/2018/01 / Trial-and-error.png

Menü schließen