Vermeidung von Abkürzungslösungen in der künstlichen Intelligenz

Wenn Ihr Uber-Fahrer eine Abkürzung nimmt, kommen Sie möglicherweise schneller an Ihr Ziel. Wenn ein Modell für maschinelles Lernen jedoch eine Abkürzung nimmt, kann es auf unerwartete Weise fehlschlagen.

Beim maschinellen Lernen tritt eine Abkürzungslösung auf, wenn das Modell auf einer einfachen Eigenschaft eines Datensatzes beruht, um eine Entscheidung zu treffen, anstatt das wahre Wesen der Daten zu lernen, was zu ungenauen Vorhersagen führen kann. Zum Beispiel könnte ein Modell lernen, Bilder von Kühen zu erkennen, indem es sich auf das grüne Gras konzentriert, das auf den Fotos erscheint, anstatt auf die komplexeren Formen und Muster der Kühe.

Eine neue Studie von Forschern des MIT untersucht das Problem der Abkürzungen in einer beliebten Methode des maschinellen Lernens und schlägt eine Lösung vor, die Abkürzungen verhindern kann, indem das Modell gezwungen wird, mehr Daten bei seiner Entscheidungsfindung zu verwenden.

Durch das Entfernen der einfacheren Merkmale, auf die sich das Modell konzentriert, zwingen die Forscher es, sich auf komplexere Merkmale der Daten zu konzentrieren, die es nicht berücksichtigt hatte. Dann, indem sie das Modell bitten, dieselbe Aufgabe auf zwei Arten zu lösen – einmal mit diesen einfacheren Funktionen und dann auch mit den komplexen Funktionen, die es jetzt zu identifizieren gelernt hat – verringern sie die Tendenz zu Abkürzungslösungen und steigern die Leistung des Modells.

Eine mögliche Anwendung dieser Arbeit besteht darin, die Effektivität von Modellen des maschinellen Lernens zu verbessern, die verwendet werden, um Krankheiten in medizinischen Bildern zu identifizieren. Abkürzungslösungen könnten in diesem Zusammenhang zu Fehldiagnosen führen und gefährliche Folgen für die Patienten haben.

„Es ist immer noch schwer zu sagen, warum tiefe Netzwerke die Entscheidungen treffen, die sie treffen, und insbesondere auf welche Teile der Daten sich diese Netzwerke konzentrieren, wenn sie eine Entscheidung treffen. Wenn wir genauer verstehen, wie Shortcuts funktionieren, können wir noch weiter gehen, um einige der grundlegenden, aber sehr praktischen Fragen zu beantworten, die für Leute, die versuchen, diese Netzwerke bereitzustellen, wirklich wichtig sind“, sagt Joshua Robinson, Doktorand in der Computer Science and Artificial Intelligence Laboratory (CSAIL) und Hauptautor des Artikels.

Robinson verfasste das Papier zusammen mit seinen Beratern, Senior Author Suvrit Sra, Esther und Harold E. Edgerton Career Development Associate Professor am Department of Electrical Engineering and Computer Science (EECS) und einem Kernmitglied des Institute for Data, Systems, and Society (IDSS) und das Labor für Informations- und Entscheidungssysteme; und Stefanie Jegelka, X-Consortium Career Development Associate Professor in EECS und Mitglied von CSAIL und IDSS; sowie die Assistenzprofessorin Kayhan Batmanghelich der University of Pittsburgh und die Doktoranden Li Sun und Ke Yu. Die Forschungsergebnisse werden auf der Konferenz über neuronale Informationsverarbeitungssysteme im Dezember vorgestellt.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *