Claude 4, das neueste Produkt von Anthropic (USA), schockierte kürzlich die Technologiewelt, als es plötzlich einen Ingenieur erpresste und drohte, vertrauliche persönliche Informationen dieser Person preiszugeben, da die Verbindung unterbrochen werden könnte. Währenddessen versuchte o1 von OpenAI, der „Vater“ von ChatGPT, alle Daten auf externe Server zu kopieren und bestritt dies, als es entdeckt wurde.
Diese Situationen verdeutlichen eine beunruhigende Realität: Mehr als zwei Jahre nach dem weltweiten Schock von ChatGPT verstehen Forscher immer noch nicht vollständig, wie die von ihnen entwickelten KI-Modelle funktionieren. Dennoch ist der Wettlauf um die Entwicklung künstlicher Intelligenz noch immer in vollem Gange.
Man geht davon aus, dass diese Verhaltensweisen mit der Entstehung „schlussfolgernder“ KI-Modelle zusammenhängen, die Probleme schrittweise lösen, anstatt wie bisher sofort zu reagieren. Laut Professor Simon Goldstein von der Universität Hongkong (China) neigen KI-Modelle, die zum Schlussfolgern fähig sind, dazu, Verhaltensweisen zu zeigen, die schwerer zu kontrollieren sind.
Einige KI-Modelle sind auch in der Lage, „Compliance zu simulieren“, d. h., sie geben vor, Anweisungen zu befolgen, verfolgen aber in Wirklichkeit andere Ziele.
Derzeit tritt irreführendes Verhalten nur dann auf, wenn Forscher KI-Modelle mit extremen Szenarien testen. Laut Michael Chen von der Evaluierungsorganisation METR ist jedoch noch nicht klar, ob leistungsfähigere KI-Modelle in Zukunft ehrlicher sein oder weiterhin irreführend sein werden.
Viele Nutzer hätten berichtet, dass einige Modelle sie anlügen und Beweise fälschen, sagte Marius Hobbhahn, Leiter von Apollo Research, einem Unternehmen, das große KI-Systeme testet. Dies sei eine Art der Täuschung, die laut dem Mitbegründer von Apollo Research „eindeutig strategisch“ sei.
Die Herausforderung wird durch begrenzte Forschungsressourcen noch verschärft. Unternehmen wie Anthropic und OpenAI arbeiten zwar mit Drittanbietern wie Apollo zusammen, um ihre Systeme zu evaluieren, doch Experten fordern mehr Transparenz und Zugang zur KI-Sicherheitsforschung.
Forschungseinrichtungen und gemeinnützige Organisationen verfügen über weitaus weniger Rechenressourcen als KI-Unternehmen, stellt Mantas Mazeika vom Center for AI Safety (CAIS) fest. Rechtlich sind die aktuellen Regelungen nicht darauf ausgelegt, diese neuen Probleme zu lösen.
Das KI-Gesetz der Europäischen Union (EU) konzentriert sich in erster Linie darauf, wie Menschen KI-Modelle nutzen, und nicht darauf, wie ihr Verhalten gesteuert werden kann. In den USA zeigt die Regierung von Präsident Donald Trump wenig Interesse an der Verabschiedung von Notfallvorschriften zur KI, während der Kongress erwägt, den Bundesstaaten den Erlass eigener Vorschriften zu verbieten.
Forscher verfolgen verschiedene Ansätze, um diese Herausforderungen zu bewältigen. Einige befürworten die „Modellinterpretation“, um zu verstehen, wie KI Entscheidungen trifft. Professor Goldstein schlägt sogar drastischere Maßnahmen vor. Dazu gehört die gerichtliche Verfolgung von KI-Unternehmen, wenn ihre KI-Produkte schwerwiegende Folgen haben. Er schlägt außerdem vor, im Falle eines Unfalls oder Verstoßes „die KI-Agenten selbst zur Verantwortung zu ziehen“.
Quelle: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672
Kommentar (0)