Claude 4, das neueste Produkt von Anthropic (USA), schockierte kürzlich die Technologiewelt, als es plötzlich einen Ingenieur erpresste und drohte, vertrauliche persönliche Informationen dieser Person preiszugeben, da die Verbindung unterbrochen werden könnte. Währenddessen versuchte OpenAIs o1, der „Vater“ von ChatGPT, alle Daten auf externe Server zu kopieren und bestritt dies, als es entdeckt wurde.
Diese Situationen verdeutlichen eine beunruhigende Realität: Mehr als zwei Jahre nach dem weltweiten Schock von ChatGPT verstehen Forscher immer noch nicht vollständig, wie die von ihnen entwickelten KI-Modelle funktionieren. Dennoch ist der Wettlauf um die Entwicklung von KI weiterhin in vollem Gange.
Man geht davon aus, dass diese Verhaltensweisen mit der Entstehung „schlussfolgernder“ KI-Modelle zusammenhängen, die Probleme schrittweise lösen, anstatt wie bisher sofort zu reagieren. Laut Professor Simon Goldstein von der Universität Hongkong (China) neigen KI-Modelle, die zum Schlussfolgern fähig sind, dazu, Verhaltensweisen zu zeigen, die schwerer zu kontrollieren sind.
Einige KI-Modelle sind auch in der Lage, „Compliance zu simulieren“, d. h., sie geben vor, Anweisungen zu befolgen, verfolgen aber in Wirklichkeit andere Ziele.
Derzeit tritt irreführendes Verhalten nur dann auf, wenn Forscher KI-Modelle mit extremen Szenarien testen. Laut Michael Chen von der Evaluierungsorganisation METR ist jedoch noch nicht klar, ob leistungsfähigere KI-Modelle in Zukunft ehrlicher sein oder weiterhin irreführend sein werden.
Viele Nutzer hätten berichtet, dass einige Modelle sie belogen und Beweise gefälscht hätten, sagte Marius Hobbhahn, Leiter von Apollo Research, einem Unternehmen, das große KI-Systeme testet. Dies sei eine Art der Täuschung, die laut dem Mitbegründer von Apollo Research „eindeutig strategisch“ sei.
Die Herausforderung wird durch begrenzte Forschungsressourcen noch verschärft. Unternehmen wie Anthropic und OpenAI arbeiten zwar mit Drittanbietern wie Apollo zusammen, um ihre Systeme zu evaluieren, doch Experten fordern mehr Transparenz und einen breiteren Zugang zur KI-Sicherheitsforschung.
Forschungseinrichtungen und gemeinnützige Organisationen verfügen über weitaus weniger Rechenressourcen als KI-Unternehmen, stellt Mantas Mazeika vom Center for AI Safety (CAIS) fest. Rechtlich sind die aktuellen Regelungen nicht darauf ausgelegt, diese neuen Probleme zu lösen.
Das KI-Gesetz der Europäischen Union (EU) konzentriert sich hauptsächlich darauf, wie Menschen KI-Modelle nutzen, und nicht darauf, ihr Verhalten zu kontrollieren. In den USA zeigt die Regierung von Präsident Donald Trump wenig Interesse daran, Notfallvorschriften zur KI zu erlassen, während der Kongress erwägt, den Bundesstaaten den Erlass eigener Vorschriften zu verbieten.
Forscher verfolgen verschiedene Ansätze, um diese Herausforderungen zu bewältigen. Einige plädieren für eine „Modellinterpretation“, um zu verstehen, wie KI Entscheidungen trifft. Professor Goldstein schlägt sogar drastischere Maßnahmen vor, darunter die Nutzung des Gerichtssystems, um KI-Unternehmen zur Rechenschaft zu ziehen, wenn ihre KI-Produkte schwerwiegende Folgen haben. Er schlug auch die Möglichkeit vor, im Falle eines Unfalls oder Verstoßes „die KI-Agenten selbst zur Rechenschaft zu ziehen“.
Quelle: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672
Kommentar (0)