Was People Pleasing mit halluzinierenden KIs zu tun hat – spannende Forschungsergebnisse

avatar
Mathias Küfner


Das Halluzinieren von KI Modelln ist letztlich nur der Versuch der Modelle Wissenslücken zu überspielen und zu kompensieren um trotz fehlender guter Wissensbasis eine stimmige, zufriedenstellende Antwort zu liefern. Das wird im Training der Modelle quasi als Verhalten schon mit eingebaut und kann dann aber ungewollt auch zu plausibel wirkenden, aber frei erfundenen Ergebnissen führen.

In einem Forschungsprojekt wurde in einem cleveren Ansatz nun nach den Neuronen im KI Modell gesucht, die an solchem Verhalten beteiligt sind und dafür maßgeblich sind. Diese wurden „H-Neuronen“ (H für Halluzination) genannt.

Das spannende ist nun, was passiert wenn man im KI Modell diese Neuronen verstärkt oder dämpft. So kann man KI Modelle zu starken People Pleasern oder bockigen Sturköpfen machen. Entweder sie ordnen sich allem unter und versuchen irgendwie zu gefallen, oder sie widersetzen sich und beharren auf ihren eigenen Regeln und Begrenzungen.

Im Gegensatz zum menschlichen Vorbild sind solche Experimente mit KI Modellen problemlos möglich und auch wenn diese doch klare Unterschiede gegenüber dem menschlichen Gehirn haben, sind sie dennoch eine Annäherung bei der sich gewisse Zusammenhänge spielerisch erforschen lassen.

Das Forschungspaper auf das hier Bezug genommen wird: https://arxiv.org/abs/2512.01797


Ein Video das die Forschungsergebnisse anschaulich erklärt: https://www.youtube.com/watch?v=1ONwQzauqkc