Sollten Sie im linken Frame kein Video sehen, dann haben sie wahrscheinlich noch nicht den Real Player installiert. Unter www.real.com finden Sie den kostenlosen Real-Player Basic (etwas herumsuchen !).

Von der Vorlesung gibt es auch das Audio MP3 File " Kohonen_MP3 " zum Herunterladen. Ein neues Service - nun müssen Sie nur mehr die CD selber machen.

 

Die durch die Prägung entstehenden Gebiete bleiben ein Leben lang erhalten. Allerdings ist es möglich, daß sich durch Training diese Gebiete - vor allem in der inneren Struktur - noch etwas verändern können. Dafür ist es aber notwendig, daß ausreichend Neuronen zur Verfügung stehen, das heißt, wenn sich die Gebiete nicht korrekt entwickeln konnten und die Neuronen abgestorben sind, dann kann auch das beste Training nicht weiterhelfen.


Abbildung 1.13: Die sensorischen Felder, die mit den Fingerspitzen korrespondieren.


Ein Affe wurde trainiert eine Aufgabe durchzuführen, bei der er häufig die Spitzen des zweiten und dritten, gelegentlich auch des vierten, Fingers einsetzen musste. Durch das Training vergrößerten sich die jeweiligen Gebiete des somatosensorischen Areals. Die Abbildung 1.13 stellt die Repräsentation der Fingerspitzen vor Trainingsbeginn (Abb. 1.13oben) im Vergleich zur Phase nach der starker Stimulation (Abb. 1.13unten) dar.


Wie man leicht in Abbildung 1.14 erkennen kann, verändert sich die Größe der Neuronen, die Zahl der Synapsen und die Verästelung der Dendriten über einen größeren Zeitraum.

Abbildung 1.14: Die Entwicklung der Großhirnrinde (Broca-Areal) auf zellulärem Niveau zum Zeitpunkt der Geburt (A), nach einem Monat (B), nach 3 Monaten (C), nach 6 Monaten (D), nach 15 Monaten (E), und nach 24 Monaten (F).


Abbildung 1.15: Das Synapsenwachstum im visuellen Cortex, beziehungsweise im Stirnlappen und der Myelinisierungsgrad der Axone in verschiedenen Gebieten der Großhirnrinde (oben). Die weißen Gebiete werden als erstes myelinisiert.

Die Entwicklung des menschlichen Gehirns ist erst nach der Pubertät abgeschlossen. Manche Gebiete werden erst sehr spät in das Netzwerk Gehirn integriert. Zum Beispiel der Hippocampus. Diese Struktur ist für unser deklaratives Lernen verantwortlich. Die meisten Menschen erinnern sich praktisch kaum an erlebte Fakten vor dem 3. Lebensjahr - der Hippocampus wird erst zu diesem Zeitpunkt "angeschlossen".

So kann der Zustand der Myelinisierung (Abbildung 1.16) der Axone über den Entwicklungsstand der einzelnen Rindenareale Auskunft geben. Die dunklen Areale werden früh, die hellgrauen später und die weißen sehr spät (bis in die Pubertät hinein) myelinisiert. Auch das Synapsenwachstum (Abbildung 1.15) ändert sich und ist erst nach 20 Jahren abgeschlossen. Trotzdem können zu einem späteren Zeitpunkt immer noch Synapsen wachsen, beziehungsweise modifiziert werden.

 

Selbstorganisierende Karten

2.0 Selbstorganisierende Karten

Zur Entwicklung des Nervensystems gibt es noch einige interessante Fragen. Die Retina der beiden Augen ist jeweils eine runde Fläche. Die Neuronen der halben Retinafläche projizieren auf den primären visuellen Cortex, der eher rechteckig ist. Für den somatosensorischen Cortex wird dieser Sachverhalt schon etwas komplizierter. Die Oberfläche des menschlichen Körpers - die Haut - ist ein zweidimensionales Gebilde in einer dreidimensionalen Welt. Wie wird ein solches - zumal komplexes - Gebilde auf ein zweidimensionales rechteckige Gebiet projiziert, wobei die Nachbarschaft erhalten bleiben soll.

Um diese Frage zu klären, können wir den Kohonen-Algorithmus benutzen. Dieser Netzwerkstyp wurde erstmals von Christoph von der Malsburg vorgestellt. Aber erst rund 15 Jahre später konnte Teuvo Kohonen durch einige von ihm vorgeschlagene Vereinfachungen dem Algorithmus zum Durchbruch verhelfen. Der Algorithmus zeichnet sich dadurch aus, daß er ohne Lehrervorgaben auskommt und ziemlich stark versucht die Biologie zu implementieren. Das Verfahren kann lernen, ohne daß ein externen Input notwendig ist. Mit ihm können einige Fragen zur Entwicklung des Nervensystems geklärt werden.

Christoph von der Malsburg ging von drei weitgehend akzeptierten Grundannahmen aus:

(1) Die Verbindungsstellen zwischen den Neuronen verändern ihre Wirksamkeit aufgrund beider Verbindungspartner. Diese Regel, die bereits Donald O. Hebb bereits 1949 vorgeschlagen hat, bildet die Basis für die Lernfähigkeit biologischer Netze.

(2) Neuronale Aktivität breitet sich nicht nur in die nächstfolgende Schicht, sondern auch innerhalb der eigenen Schicht ein kleines Stück seitwärts aus.

(3) Kortikale Neuronen und ihre Verbindungsstellen konkurrieren miteinander. Neuronen mit stärkerer Erregung unterdrücken die schwächeren. Im Extremfall unterdrückt das Neuron mit der maximalen Erregung alle anderen Neuronen.

Auf ähnlichen Überlegungen basieren zahlreiche neuere Modelle. Ein wesentlicher Vorteil dieses Netzwerktyps ist, daß die Struktur der Karte allein durch Präsentation von Beispielreizen entsteht, ohne daß ein Lehrer Auskunft über den bisherigen Erfolg des Lernens geben müsste. Eine Karte besteht aus N Neuronen, die sich durch eine wohldefinierte Nachbarschaft (ein-, zwei- oder mehrdimensional) auszeichnen. Das heißt, jedes Neuron hat eine bestimmte Anzahl von Nachbarn, die beim Lernen beeinflusst werden. Bei einem zweidimensionalen Netz besitzt jedes Neuron typischerweise vier Nachbarneuronen.


Abbildung 2.0: Die Darstellung von zwei selbstorganisierenden Karten. Die 1. Schicht dient der Eingabe, während in der 2. Schicht die eigentliche Verarbeitung stattfindet. Die Dimensionen der einzelnen Schichten können unterschiedlich ausfallen.

Die zweite Schicht ist die relevante Schicht in der aktive Erkennungsprozesse ablaufen. Die erste Schicht stellt nur die Eingabeschicht dar. Jedes Neuron der Eingabeschicht projiziert auf jedes Neuron der 2. Schicht (verarbeitenden Schicht). Jedes Neuron der verarbeitenden Schicht steht - nur im vereinfachenden Sinn - für eine spezielle Eigenschaft. Natürlich ist es möglich, daß die Zahl der Neuronen der Eingabeschicht unterschiedlich zur Anzahl der Neuronen in der 2. Schicht ist.

Jedes Neuron der Eingabeschicht (1. Schicht) besitzt einen Wert xk mit k=1,...,p. Die nachbarschaftliche Beziehung in der Eingabeschicht ist egal. Damit ist ein Eingabevektor definiert. Betrachten wir eine zweidimensionale verarbeitende Schicht. Wesentlich ist die nachbarschaftliche Beziehung der Neuronen der 2. Schicht. Jedes Neuron hat vier Nachbarn. Ein Neuron ist somit durch seine Position i, j mit i=1,...,n (Anzahl der Spalten) und j=1,...,m (Anzahl der Reihen) definiert. Jedes Neuron verfügt über interne Werte - wkij mit k=1,...,p , die als Gewichte bezeichnet werden. Damit ist ein Gewichtsvektor definiert.

Der Eingabevektor und die jeweiligen Gewichtsvektoren besitzen einen Abstand. Der Kehrwert des Abstandes entspricht der Aktivität des i,j-ten Neurons. Die Aktivität wird folgendermaßen bestimmt:

Wenn also der Abstand minimal ist, dann ist die Aktivität am größten. Aus praktischen Gründen verwendet man nicht den Kehrwert, sondern den direkten Abstand - man muß dann nur berücksichtigen, daß das Neuron mit dem geringsten internen Zustand die maximale Aktivierung besitzt.

Am Anfang sind die Skalare der Gewichtsvektoren i=1,...n und j=1,...m absolut zufällig mit Werten zwischen 0 und 1 belegt, das heißt mit k=1,...,p. Das Prinzip das hier angewandt wird heißt "the winner takes ist all". Es kann nur ein Neuron bei dem die jeweiligen Gewichte zum Eingabevektor den geringsten Abstand besitzen.

Abbildung 2.2: Die Äquivalenz des Eingaberaums und des Gewichtsraums.

Betrachten wir wieder ein einfaches Beispiel - das Gewichtsproblem. Die Eingabeschicht besteht aus zwei Neuronen, dem Neuron für das Körpergewicht und einem Neuron für die Körpergröße. Jedes Neuron der 2. Schicht bekommt beide Informationen aus der 1.Schicht - das Körpergewicht und die Körpergröße. Umgekehrt stellen die Gewichte der Neuronen der 2. Schicht auch eine Position im Gewichtsraum dar (im 2-dimensionalen Raum kann man sich das leicht vorstellen). Die Position des Neurons im Gewichtsraum entspricht der Position im Eingangsraum. Eine Person mit dem Idealgewicht würde dem Neuron - dargestellt durch einen Kreis mit Punkt - im Gewichtsraum darstellen. Wie durch den Beweis von Papert und Minsky bekannt ist, kann ein Neuron die Eingabe nicht in drei Gebiete unterteilen. Es werden mehr Neuronen benötigt.

Abbildung 2.3: Unterschiedliche Nachbarschaften mit einer unterschiedlichen Anzahl von Neuronen.


Die Neuronen der verarbeitenden Schicht können auf die unterschiedlichste Weise angeordnet werden. So ist es möglich, daß die Neuronen aufgefädelt sind, wie auf einer Perlenschnur. Jedes Neuron hat nur zwei Nachbarn (eindimensionale Topologie). Andererseits können die Neuronen auch auf einem Gitter liegen, wobei die Neuronen 4 Nachbarn haben - mit Ausnahme der Neuronen am Rand. Die Zahl der Neuronen, die man verwendet, hängt stark vom Problem ab.

Natürlich sind auch andere Strukturen und Topologien möglich - der Phantasie sei keine Grenzen gesetzt. Aus praktischen Grenzen verwendet man fast nur ein- oder zwei-dimensionale Netze. Nur für ganz wenige Anwendungen sind drei-dimensionale Netze notwendig und sinnvoll (Rechenzeit).

Damit stellt sich die Frage, wie die Neuronen zu ihren internen Werten - den Gewichten - kommen. Für unser Beispiel wäre es leicht möglich die Gewichte anzugeben, ohne daß man viel rechnen muss. Aber in der Regel ist dies nicht so einfach, da der Eingabevektor ziemlich hochdimensional sein kann. Damit ist es nicht mehr möglich, den Eingaberaum aufzuzeichnen. Normalerweise bleiben die Neuronen der zweiten Schicht wie auf einer Perlenkette oder auf eine Netz angeordnet. Es gibt nur sehr wenige Anwendungen, bei denen es Sinn macht, eine höherdimensionale Nachbarschaft zu definieren. Betrachten wir also wieder unser Gewichtsproblem mit 3 Neuronen, die auf einer Perlenkette aufgefädelt sind.

Abbildung 2.4: Die Darstellung von 3 verbundenen Neuronen, die sich durch ein Eingabemuster verändern.


Am Anfang werden die Gewichte der Neuronen der 2. Schicht zufällig gewählt (linke obere Abbildung). Dann wird den Neuronen ein Beispielreiz (graues Kreuz) präsentiert und der Abstand zwischen den 3 Neuronen und dem Beispielreiz bestimmt (rechte obere Abbildung). Das Neuron mit dem geringsten Abstand (Neuron 1) ist der Gewinner. Seine Position - sprich seine Position im Gewichtsraum - wandert nun ein Stück in Richtung des Beispielreizes. Der nächste Nachbar - egal wie weit er weg ist - wandert auch etwas in Richtung des Beispielreizes. Das Neuron mit dem kleinsten Abstand (the winner), ändert seine internen Werte - die Gewichte folgendermaßen:

Der Lernparameter g wird so eingestellt, daß die Gewichtsänderung nicht zu heftig ausfällt - also kleiner als 1 ist - und nicht zu klein ist, damit das Lernen nicht zulange dauert. Also sollte für g gelten: 0.2 < g < 0.4. Natürlich ist dieser Wert nur ein Richtwerte - er kann von Problem zu Problem verschieden sein. Für die unmittelbaren Nachbarn ergibt sich

Da sich die unmittelbaren Nachbarn etwas weniger verändern sollen, wird ein zusätzlicher Lernparameter a eingeführt. Für ihn gilt das selbe wie für g. Man sollte aber nicht vergessen, daß die beiden Lernparameter a und g multipliziert werden. Damit kann a sogar etwas größer als g ausfallen. Da wir eine Kette von Neuronen vorliegen haben, gibt es nur einen Ordnungsparameter i für die Neuronen. Wenn ein Netz von Neuronen gegeben wäre, das heißt jedes Neuron hätte vier Nachbarn, dann wäre die Änderung der Gewichte für die Nachbarn durch folgende Formel gegeben:

Nun werden dem Netzwerk viele Reize der Reihe nach präsentiert. Dadurch kommt es zu einer Veränderung der Gewichte. Wenn die Reize geklustert sind, dann werden sich die Neuronen nach dem Schwerpunkt der Kluster ausrichten. Im optimalen Fall gibt es dann für jeden Kluster (auch Gebiet oder Gruppe) ein Neuron. Wenn die Daten eher kontinuierlich verteilt sind - so wie in diesem kleinen Beispiel - dann übernimmt für jeden Bereich (entspricht benachbarten Klusters) ein Neuron die Verantwortung, wobei die Grenze natürlich willkürlich gezogen wurde. Wenn die Nachbarschaften etwas komplizierter ausfallen, kann es notwendig sein, daß für ein Bereich mehrere Neuronen notwendig sind. Wenn der Algorithmus die Beispielreize verarbeitet hat, dann sind die Neuronen, oder besser gesagt, die Gewichte der Neuronen, wie in der Abbildung 2.6 links unten, verteilt. Neuron 1 ist für die Untergewichtigen, Neuron 2 für die Normalgewichtigen und Neuron 3 für die Übergewichtigen verantwortlich. Wenn die Neuronen aber am Anfang anders gelegen wären, siehe dazu die Abbildung 2.6 rechts unten, würde das Ergebnis etwas anders aussehen. Die Neuronen wären zwar genauso verteilt, aber die Enden wären vertauscht. Das heißt Neuron 1 würde den Bereich von Neuron 3 abdecken und umgekehrt. Das kann natürlich von vornherein nicht bekannt sein. Aus diesem Grund muss noch festgestellt werden, was das Netz gelernt hat. Für jeden wesentlichen Bereich gibt es einen (hoffentlich) typischen Beispielreiz. Für jeden Beispielreiz pro Bereich gibt es - wenn man alles richtig gemacht hat - ein Neuron, das am aktivsten ist. Diese Zuordnung muss extern durchgeführt werden. Das Gehirn löst dies auf eine eigene sehr interessante Weise, wie man im Kapitel über das Arbeitsgedächtnis lesen kann. Wenn ein Neuron für zwei Bereiche anspricht, dann sind entweder zuwenig Neuronen für das Problem vorhanden, oder das Netz hatte zu wenig Zeit zu lernen.

Der Unterschied zwischen dem von der Malsburg- und dem Kohonen-Algorithmus besteht in der Veränderung der Gewichte der Nachbarn. Bei von der Malsburg wurden alle Gewichte der Neuronen verändert. Der Gewinner - das Neuron mit der höchsten Aktivität - wurde am meisten verändert. Der Lernparameter g wurde durch eine Gaußkurve ersetzt, wodurch alle anderen Gewichte der Neuronen - auch die sehr weit entfernten - verändert wurden. Aber ab einem bestimmten Abstand ist die Änderung so gering, daß die Gewichtsänderung nicht mehr ins Gewicht fällt. Dadurch, daß Kohonen nur die nächsten - manchmal auch die übernächsten Neuronen - bei der Gewichtsänderung berücksichtigte, konnte er gewaltig an Rechenkapazität sparen und interessante Anwendungen realisieren. Eine interessante Innovation besteht in der Verwendung der Sombrerofunktion - beziehungsweise der diskreten Sombrerofunktion. Die übernächsten Nachbarn werden nicht zum Testreiz hingezogen, sondern sie werden sogar etwas weggedrängt. Dies führt zu einer rascheren Ausbreitung der Gewichte über dem Zielraum.

Der Kohonen-Algorithmus beschreibt selbstorganisierende Eigenschaftskarten. Ähnliches wird auf Ähnliches abgebildet. Dies ist praktisch ident mit den sensiblen Phasen bei der Entwicklung des Nervensystems. Die betreffenden Regionen werden mit nachbarschaftserhaltenden Informationen gefüttert und nach einiger Zeit sprechen nur mehr die richtigen Neuronen darauf an. Genauso wie beim Kohonen-Algorithmus sprechen auch benachbarte Neuronen auf ähnliche Reize an. Der Algorithmus versucht "nur" Ähnlichkeiten wiederzuerkennen.



Links: Leider stehen die Links nicht zur Vefügung.



Applet: Leider stehen keine Applets zur Verfügung.


Fragen: Diese Fragen sollten nach der Vorlesung beantwortet werden können,

Was ist der Unterschied zwischen einer Kohonen-Map und einer Malsburg-Map ?

Welche Grundannahmen setzte Christoph von der Malsburg voraus?

Wie funktioniert eine Kohonen-Map?

Warum ist eine Kohonen-Map unbiologisch?