Towards understanding convolutional neural networks through visualization and systematic simplification
Lade...
Dateien
Datum
2025
Autor:innen
Betreuer:innen
Zeitschriftentitel
ISSN der Zeitschrift
Bandtitel
Verlag
Zusammenfassung
Black-box systems like Convolutional Neural Networks (CNNs) have transformed the field of computer vision. While visualization tools have helped explore and explain CNNs, their inner workings remain opaque, particularly how they detect specific features. As deep learning applications become more widespread across various fields, it becomes crucial to understand these models. This understanding is needed to avoid misinterpretation and bias, which can seriously affect society.
This research motivates holistic visualization approaches, which show various aspects of CNNs. Existing visualizations often focus on a few aspects, answering specific questions. Combining them in comprehensive software could provide a more holistic view of CNNs and their inner processes. While 2D space cannot present all relevant information due to screen size restrictions, 3D environments offer new representation and interaction opportunities. Therefore, we enable the visualization of large CNNs in a virtual 3D space. This work further contributes to the visualization field by improving the activation maximization method for feature visualization, which previously struggled with local maxima.
In addition to visualization, this research increases CNN transparency through systematic simplification. We use pre-defined convolution filters from traditional image processing in modern CNN architectures. Instead of changing the filters during training, the training process finds linear combinations of the pre-defined filter outputs. Our Pre-defined Filter Convolutional Neural Networks (PFCNNs) with nine distinct edge and line detectors generalize better than standard CNNs, especially on smaller datasets. For ResNet18, we observed increased test accuracies ranging from 5-11 percentage points with the same number of trainable parameters across the Fine-Grained Visual Classification of Aircraft, StanfordCars, Caltech-UCSD Birds-200-2011, and the 102 Category Flower dataset. The results imply that many image recognition problems do not require training the convolution kernels. For practical use, PFCNNs can even save trainable weights.
Beschreibung
Black-Box-Systeme wie Convolutional Neural Networks (CNNs) haben Computer-Vision grundlegend verändert. Auch wenn Visualisierungsmethoden dabei helfen, CNNs zu erforschen und zu erklären, bleiben ihre inneren Abläufe undurchsichtig. Insbesondere bleibt unklar, wie spezifische Merkmale detektiert werden. Da Deep Learning in verschiedenen Bereichen immer mehr Anwendung findet, wird es zunehmend wichtiger, diese Modelle zu verstehen. So können Fehlinterpretationen und Verzerrungen vermieden werden, die bedeutende gesellschaftliche Folgen haben könnten.
Diese Forschung motiviert umfassende Visualisierungstechniken, die verschiedene Aspekte von CNNs berücksichtigen. Bisherige Ansätze konzentrieren sich oft auf nur wenige Aspekte und beantworten spezifische Fragen. Deren Kombination in einer Software könnte eine umfassendere Sicht auf CNNs und ihre inneren Prozesse ermöglichen. Während der zweidimensionale Raum wegen der begrenzten Bildschirmgröße nicht alle relevanten Informationen darstellen kann, bieten 3D-Visualisierungen neue Ansätze für Darstellung und Interaktion. Daher ermöglichen wir die Visualisierung großer CNNs im dreidimensionalen Raum. Als weiterer Beitrag zum Gebiet der Visualisierung verbessert diese Arbeit die Activation-Maximization-Methode für Merkmalvisualisierung, die zuvor mit lokalen Maxima zu kämpfen hatte.
Neben der Visualisierung verbessert diese Forschung die Transparenz von CNNs durch systematische Vereinfachung. Wir verwenden vordefinierte Faltungsfilter aus der traditionellen Bildverarbeitung in modernen CNN-Architekturen. Anstatt die Filter während des Trainings anzupassen, werden Linearkombinationen der Ausgaben dieser vordefinierten Filter gelernt. Unsere Pre-defined Filter Convolutional Neural Networks (PFCNNs), die nur neun verschiedene Kanten- und Linien-Detektoren nutzen, generalisieren insbesondere auf kleinen Datensätzen besser als Standardnetzwerke. Bei ResNet18 haben wir um 5-11 Prozentpunkte erhöhte Testgenauigkeiten beobachtet auf den Datensätzen Fine-Grained Visual Classification of Aircraft, StanfordCars, Caltech-UCSD Birds-200-2011 und 102 Category Flower, wobei die Anzahl der trainierbaren Parameter gleich geblieben ist. Die Ergebnisse zeigen, dass für viele Bildverarbeitungsprobleme kein Training der Faltungskerne erforderlich ist. In der Praxis können PFCNNs trainierbare sogar Gewichte einsparen.
Schlagwörter
Computer vision, Explainable Artificial Intelligence, Image recognition, Visualization, Pre-defined filters, Convolutional Neural Networks
Zitierform
Institut/Klinik
Institut für Neuro- und Bioinformatik