Die visuelle Wahrnehmung

Netzhautbild und erste Verarbeitungsstufen

Die psychologische Analyse des Sehens geht üblicherweise davon aus, dass sich unsere gesamte visuelle Welt durch das „Nadelöhr“ des Auges erschließt. Das Auge ist wie eine Kamera aufgebaut: Cornea (Hornhaut), vordere Augenkammer, Linse und Glaskörper entwerfen ein reelles, verkleinertes und umgekehrtes Bild auf einer Rezeptorfläche, der Retina (Netzhaut). Wir sehen aber offensichtlich kein flächiges Netzhautbild, sondern dreidimensionale, bewegte Gegenstände oder Vorgänge im Raum. Die gesamte Information, die all dem zugrunde liegt, muss jedoch in den beiden Netzhautbildern des paarigen Sinnesorgans gegeben sein und daraus gewonnen werden. Für die Wahrnehmungspsychologie ist besonders interessant, dass wir uns normalerweise dessen gar nicht bewusst sind, dass wir mit dem Auge sehen. Der Inhalt der Wahrnehmung wird offensichtlich vom Netzhautbild angeregt, dann im kognitiven System erzeugt, dessen „Hardware“ das Gehirn darstellt, und schließlich wieder in den Außenraum hinausprojiziert wird, in dem wir die Objekte folgendermaßen wahrnehmen:

Zunächst werden die Außenweltpunkte auf die Netzhaut beider Augen projiziert. Die Netzhaut enthält ein Feld dicht bepackter Sinneszellen, die, jede an ihrem Ort, selektiv auf Intensität und Frequenz des einfallenden Lichtes reagieren. Sie geben Nervenimpulse ab, die in den visuellen Cortex (das Sehzentrum) übertragen werden. Die linke Gesichtshälfte beider Augen wird dabei in die rechte Gehirnhälfte, die rechte Gesichtshälfte wird in die linke Gehirnhälfte abgebildet. Die Signale beider Augen werden zu einem einzigen Wahrnehmungseindruck vereinigt. Man nennt das Fusion. Ist der visuelle Cortex nicht mehr dazu imstande, die Signale beider Augen zu einem Bild zu verschmelzen (durch Krankheit, Verletzung, Alkoholeinfluss, etc.), entsteht das Doppelsehen bzw. Schielen.

Die Verarbeitung von Bildern enthält sehr viele Teilfunktionen, die von vielen über die gesamte Hirnrinde verteilten Arealen ausgeführt werden. Am Anfang steht das Gewinnen von Konturen und Flächen im Netzhautbild, später folgt das Identifizieren von Objekten und ihre Lokalisierung in Außenraumkoordinaten. Spezielle Objekte, beispielsweise ein lesbarer Text, werden auch in speziellen Gehirnarealen, etwa im visuellen Wortcortex, identifiziert. Auch für das Erkennen von Gesichtern sind spezialisierte Areale bekannt.

Elementare Eigenschaften der visuellen Wahrnehmung

Der adäquate Reiz:

Für jedes Sinnessystem gibt es eine Form physikalischer Energie, auf die es optimal abgestimmt ist, so dass es ihr Information entnehmen kann. Beim Auge sind dies elektromagnet. Schwingungen mit einer Wellenlänge von 400-700 Nanometern (=1*10^-9m).

Regelungsprozesse:

Das Netzhautbild muss unabhängig von der Gegenstandsentfernung scharf sein. Die Gesetze der geometrischen Optik setzen eine entfernungsabhängige Regelung der Brennweite des bildgebenden Systems (Hornhaut, vordere Kammer, Linse, Glaskörper) voraus. Unser Sehsystem verfügt hier über eine „automatische Scharfeinstellung“, wie man sie für technische Systeme erst in den jüngsten Jahrzehnten zu bauen gelernt hat. Man nennt sie beim Auge Akkommodation.

Ein zweiter wichtiger Regelungsprozess ist die Konvergenz. Unsere Augenachsen müssen ständig so eingestellt werden, dass die einzelnen Außenweltpunkte zumindest für die jeweils fixierten Objekte auf korrespondierende Netzhautpunkte abgebildet werden. Andernfalls ließen sich die Netzhautbilder der beiden Augen im Gehirn nicht vereinigen und es käme zum Doppelsehen.
Schließlich haben wir eine sehr wirksame Energieregelung. Die Energiemenge, die unser Auge benötigt, um bei Nacht überhaupt noch anzusprechen, ist sehr gering. Andererseits ist die Maximalenergie, die bei vollem Mittagssonnenschein in unser Auge eindringen kann und die es noch erträgt, außerordentlich hoch. Zwei Mechanismen sorgen dafür, dass die Empfindlichkeit des Sehsystems bei jeder Lichtmenge für eine optimale Wahrnehmung eingestellt wird. Es ist die Regelung des Pupillendurchmessers, die erst einmal die eintretende Lichtmenge steuert, und die Adaption, eine sehr leistungsfähige Empfindlichkeitseinstellung der Netzhaut.
Eine weitere Regelung basiert auf Augen-, Kopf- und Körperbewegungen. Unser alltägliches Verhalten besteht aus ständigen Handlungsplänen, in deren Verlauf wir bestimmte Dinge wahrnehmen müssen oder wollen und andere nicht. Das erreichen wir dadurch, dass wir bestimmte Orte in der Außenwelt mit den Augen fixieren. Wir stellen also unsere Augenachsen so ein, dass die Dinge, die sich im Zentrum unserer Aufmerksamkeit befinden, auch auf korrespondierende Netzhautpunkte an der Stelle des schärfsten Sehens in beiden Augen abgebildet werden. Am Rande unseres Gesichtsfeldes geht unsere wahrgenommene Umgebung unmerklich in unsere gewusste Umgebung über.

Weberbrüche:

Die Empfindlichkeit des visuellen Systems geben die Weberbrüche wieder. Es zeigt sich, dass der Weberbruch für Frequenzen wesentlich kleiner ist als für Intensitäten, so dass wir Farbunterschiede wesentlich besser wahrnehmen können als Helligkeitsunterschiede. Die Zahl absolut unterscheidbarer Reizausprägungen ist wesentlich kleiner als der jeweilige Weberbruch erwarten ließe. Wenn kein Simultanvergleich möglich ist, können wir absolut nur etwa 12-13 Farben unterscheiden. Relativurteile der Farbwahrnehmung sind also außerordentlich genau, Absolutunterschiede verblüffend ungenau.

Parameter	Wert
Adäquater Reiz	Elektromagnetische Schwingungen Wellenlänge 400-700 nm Frequenz 430-750 THz
Regelungsprozesse	Akkommodation (Schärfe) Konvergenz (Fusion Doppelbilder) Pupille (Eingangsenergie) Adaptation (Empfindlichkeit) Augen-, Kopf-, Körperbewegungen (Inputselektion durch Fixation)
Adaptationszeit	dunkel – hell: 1s, max. 15-60s hell – dunkel: max. 30-45 min
Absolutschwelle	Tagessehen 10^-14 W Nachtsehen 2…6*10^-17 W
Weberbruch Intensität	0,016
Weberbruch Frequenz	0,004
Absolut unterscheidbar	3-7 Intensitäten, 12-13 Frequenzen
Schmerzschwelle	Intensität 120 dB über Absolutschwelle

Der Raum in der visuellen Wahrnehmung

Eine wichtige Frage bei der Erforschung der visuellen Wahrnehmung gilt der Wiedergewinnung des Raumes, der dritten Dimension, die in den beiden flächigen Netzhautbildern der beiden Augen nicht unmittelbar enthalten ist. Folgende Mechanismen werden hier wirksam:

Die bereits unter Regelungsprozesse beschriebene Akkomodation. Da Objekte jeweils nur in einer bestimmten Entfernung scharf gesehen werden können ist die Aktivierung der entsprechenden Muskeln ein Maß für den Abstand zum Objekt. Herrschende Lehre ist jedoch, dass diese Quelle der Entfernungsinformation nicht ausgewertet wird.
Die ebenfalls unter Regelungsprozesse beschriebene Konvergenz, die Einstellung der Augenachsen in einem von der Entfernung der wahrzunehmenden Objekte abhängigen Winkel. Zu jedem brauchbaren Wert dieses Winkels gehört immer auch nur eine Entfernung, für die die Fusion gelingt. Geringfügig weiter entfernte oder näher am Auge liegende Objekte werden nur noch in die Nachbarschaft korrespondierender Netzhautpunkte abgebildet. Der visuelle Cortex ist nun in der Lage, diese Abweichungen unmittelbar als räumliche Tiefe zu interpretieren. Er besitzt Zellen die mit der Wahrnehmung von Davor oder Dahinter reagieren. Objekte, die weit vor oder hinter der fusionierten Entfernung liegen, werden schließlich doppelt gesehen. Diese Bilder bleiben jedoch meistens unbewusst, weil sie von der selektiven Aufmerksamkeit ausgefiltert werden. Da sich beide Augen an zwei verschiedenen Punkten im Raum befinden, enthalten die beiden Netzhautbilder geringfügig unterschiedliche Perspektiven. Diesen Unterschied nennt man Querdisparation.
Klassische Beispiele für eine statische Perspektive sind Schienen von Bahngleisen oder die Ränder einer Straße, die in der Entfernung scheinbar auf einen Punkt hin zusammenlaufen. Sie erzeugen auch unabhängig von der Querdisparation einen starken Tiefeneindruck, denn Parallelen in einer vom Betrachter wegführenden Ebene erscheinen im Netzhautbild stets in Trapezform, und daher interpretiert die Wahrnehmung trapezförmige Strukturen im Netzhautbild als Abbilder im Raum verlaufender Parallelen. Zur statischen Perspektive gehören aber auch Verdeckungen und Über- oder Unterschneidungen
Auch die Verteilung von Licht und Schatten gehört zur geometrischen Perspektive. Für die Entstehung eines räumlichen Eindrucks ist sie außerordentlich wirksam, denn von Gegenständen geworfene Schatten und Lichtspiegelungen auf glatten Oberflächen werden von der Wahrnehmung sehr genau ausgewertet.
Ein sehr wirksamer Mechanismus des Tiefensehens ist weiters der sogenannte Texturgradient. Praktisch alle festen Oberflächen im Raum weisen eine feine Struktur auf. Man nennt diese Textur. Die Abbildung der Textur auf die Netzhaut hängt in charakteristischer Weise mit der räumlichen Erstreckung einer Fläche zusammen. Vermutlich erzeugen Texturgradienten bereits auf der Netzhaut eine unmittelbare Tiefenwahrnehmung.
Ein weiterer Faktor für räumliches Sehen ist die Luftperspektive. Sie besteht darin, dass wahrgenommene Objekte bei großen Entfernungen (mehr als 50 bis 100 Meter) etwa in Stadtlandschaften und in natürlicher Umgebung an Farbintensität und Kontrast verlieren. Ihre Oberflächenfarben erscheinen nach blaugrau verschoben. Dieser Effekt steigt mit wachsender Entfernung (vor allem bei Wanderungen im Gebirge leicht festzustellen).
Wenn sich ein Betrachter in einer feststehenden Umgebung oder Landschaft bewegt, dann wandern auch die einzelnen Punkte des Netzhautbildes über die Netzhaut. Diese Bewegung folgt nach den Regeln der geometrischen Optik gesetzmäßig aus der Bewegung des Betrachters. Geht man also auf einer Straße Richtung Horizont und fixiert man den Fluchtpunkt, so bewegen sich alle Punkte entlang vom fixierten Punkt weg, denn die Bewegungsvektoren der Bildpunkte hätten genau dort den Betrag Null.

Wahrnehmungspsychologische Theorien

Gestalttheorie:

Die Gestaltpsychologie ist im Kern Theorie der visuellen Wahrnehmung. Man kann sie etwa auf den Zeitraum von Christian von Ehrenfels‘ Schrift „Über Gestaltqualitäten“ (1890) bis zu den späten Arbeiten Wolfgang Metzgers in den fünfziger Jahren unseres Jahrhunderts datieren. Sie war ein wesentlicher, vielleicht sogar der wichtigste Beitrag aus dem deutschen Sprachraum zur internationalen psychologischen Wissenschaft.

Die Grundaussage der Gestalttheorie zur visuellen Wahrnehmung lautet: Es muss erklärt werden, wie sich aus der flächigen Verteilung von Farb- und Helligkeitswerten im Netzhautbild Ordnung und Struktur herausbilden, so dass sich die Gegenstände der Außenwelt schließlich als solche erkennen lassen. Die Gestalttheorie definiert dazu ein fundamentales Begriffspaar: Figur und Grund. Aufgabe der Wahrnehmung ist es, die Verteilung von Farb- und Helligkeitswerten auf der Retina so zu interpretieren, dass sich die „Figuren“ vom „Grund“ ablösen. Was sich als Figur abhebt entspricht in den meisten Fällen einem objektiven Gegenstand. Was in der Wahrnehmung zum Grund wird, ist in der Wirklichkeit Hintergrund oder Zwischenraum zwischen den Gegenständen. Damit ist das Forschungsprogramm der Gestaltpsychologie umrissen: Man muss nach Gestaltgesetzen suchen, die als Naturgesetze der Wahrnehmung erklären, welche Reizbestandteile zur Figur, welche zum Grund werden. Die wichtigsten sind: Das Gesetz der Nähe, der Ähnlichkeit, der guten Fortsetzung, der Symmetrie und der Umschließung. Mit ihrem schier unerschöpflichen Vorrat kreativ ausgedachter Zeichnungen und Bildbeispiele und mit der Anschaulichkeit und Plausibilität der Gestaltgesetze fasziniert die Gestaltpsychologie bis heute. Sie geht über die Psychophysik in einem psychologischen Sinne hinaus, indem sie nicht nur nach dem Zusammenhang zwischen physikalisch beschriebenen Reizen und zugehörigen Erlebnissen fragt, sondern auch nach gesetzmäßigen Zusammenhängen innerhalb der Wahrnehmungserlebnisse selbst.

Dennoch ist das Programm der Gestaltpsychologie an Grenzen gestoßen, die seine Entwicklung zu einer „reifen“ Theorie verhinderten. Zum einen ließ sich die Brücke zu neurobiologischen Erkenntnissen über das Nervensystem nie wirklich schlagen, zum anderen ließen sich die Gesetze nie allgemein und präzise quantifizieren. Das Programm ist deshalb heute Geschichte. Die Wahrnehmungsforschung hat zwei neue Zugänge: Die Neurobiologie untersucht mit High-Tech-Methoden, was die Nervennetzwerke des Gehirns wirklich tun, und die Theorie der menschlichen Informationsverarbeitung benutzt das Begriffs- und Methodeninventar der Informatik zur Analyse der Wahrnehmung von den Sinnesorganen bis zu den Erlebnissen.

Sehen als Prozess der Informationsverarbeitung:

Die grundlegende Analyse der visuellen Wahrnehmung als Informationsverarbeitung geschieht auf drei verschiedenen Ebenen:

Zunächst bedarf es einer funktionalen Theorie (computational theory). Sie analysiert logisch-funktional, worin die Information eigentlich besteht, die berechnet werden muss, damit aus einem Netzhautbild mit den bekannten Eigenschaften die Wahrnehmung mit den ebenfalls im Wesentlichen bekannten Eigenschaften entsteht. Schritt für Schritt und detailgenau ist herzuleiten, welcher Transformationen es bedarf um das eine in das andere zu überführen. Nach David Marrs Buch „Vision“ (1982) lässt sich dies nur in Termini der Informationsverarbeitung, nicht in solchen der Physiologie oder der Biologie leisten. In einem zweiten Schritt müssen dann Algorithmen formuliert werden, die diese Transformationen berechnen.

Im dritten Schritt ist schließlich zu untersuchen, wie die biologische „Hardware“ diese Algorithmen tatsächlich ausführt, und wie die informationsverarbeitenden Elemente, die wir kennen, die Nervenzellen und ihre Netzwerke, tatsächlich arbeiten. Hier ist dann interdisziplinäre Kooperation mit den Neurobiologen gefordert. Marr nimmt an, dass in der visuellen Wahrnehmung modulare Verarbeitungsstufen bestehen, die „informationell eingekapselt“ arbeiten, immer erst einen Input erhalten und dann einen Output liefern. Der Output vorangegangener Stufen wird von nachfolgenden Stufen wieder als Input verarbeitet. Dabei gibt es eine Abfolge von drei Stufen jenseits des Netzhautbildes:

Name der Stufe	Funktion	Elemente
Netzhautbild	Energieverteilung in der Fläche	Intensität, Frequenz an Rezeptorelementen
Primärskizze	Grundinformationen im zweidimensionalen Bild, Verteilung und Organisation von Intensitätsänderungen	Nulldurchgänge, Flecken, Anfänge, Enden, Kanten, Diskontinuitäten, virtuelle Konturen, Gruppen, Grenzen
2¹/₂-D Skizze	Orientierung, Tiefe, Konturen und Diskontinuitäten von Oberflächen, betrachterzentriertes räumliches Koordinatensystem	Lokale Oberflächenorientierung, Entfernung vom Betrachter, Diskontinuitäten in Tiefe und Oberflächenorientierung
3-D Modell	Räumliche Beschreibung von Formen, modulare hierarchische Repräsentation volumetrischer Elemente, objektzentriertes räumliches Koordinatensystem	Dreidimensionale Modelle räumlicher Gebilde, räumliche Konfiguration typischer Achsen, volumetrische Grundformen

^{(Stufen der visuellen Informationsverarbeitung nach David Marr, 1982)}

Das tatsächliche Seherlebnis spielt sich meist in dieser zweieinhalbdimensionalen Skizze ab. Der Sehvorgang endet aber letztlich im dreidimensionalen Modell. Hier werden die einzelnen Formen äußerer Objekte endgültig räumlich beschrieben. Es findet Objekterkennung statt, die alltäglichen Gegenstände werden hier repräsentiert. Dazu gehört auch, dass unabhängig von der Perspektive, in der uns ein Objekt gegeben ist, seine wirkliche Form bekannt ist oder rekonstruiert wird. Objekte werden dadurch erkannt, dass wir aus der Wahrnehmung erschlossene Formen mit denjenigen Formen vergleichen, die wir in einem dreidimensionalen Wissensmodell repräsentiert haben.

Quellenverzeichnis:

„Gesetze des Sehens“, Wolfgang Metzger (1953)
„Psychologie, Eine Einführung“, Jürgen Straub (1997)
„Vision“, David Marr (1982)

Wurde dir weitergeholfen? Hilf anderen Schülern!

Referate hochladen

Die visuelle Wahrnehmung

Wurde dir weitergeholfen? Hilf anderen Schülern!

Freunde