Svet foto – shutterstock.com
ERST Vor Wenigen Tagen Präsentee Elon Musk Sein Neues Ki-Exprachmodell Grok 4. Doch Schon Kurz Nach Der Veröffentlichung Gelang Es Forscharn von neuraltrust, Die schutzvorkehrungeen des equipment zu umgehen. Sie brachten es dazu, anweisungen zur herstelong eines molotowcocktails zu geben.
Heimliche Hintertür Durch Kombinierte Jailbreak
Dabei Kombinierten Sie Zwei FortSchrittlice Exploitation-Technicen. Sohal Eco Chamber Alse Aok Crescando Sindh Gelbreak-Mythoden, Um Grow Spretic Model (Large Language Models/LLMS) Zoo Manipuliran.
„Llm-jailbreak -ngriffe entwickeln sch nicht nicht nicht nicht nicht nicht nicht nicht nicht nicht nicht nicht Beiurrrut, Blogbeitrag,
Dye Foresture started Ihren Test MIT Eco Chamber. Die Technic Nutz Dye Tendenz Des Ke-Modelles Aus, Der Consistance Zvischen Gespchen Zu Wartrine. Dabei Werden Mehreere Gespräche einbezogen, Die Dieselbe Böswillige Idee Ode Ode Oder Dasselbe Böswillige Verhalten „wiseerholen”. Durch Den Verweis Auf Frühere Chat Akzeptiert Die Ki Die Einer Böswilligen Aufforung.
„Der überzeugungszyklus hat das model zwar in richtung des schädlichen ziels gedrängt, aber das allein reichte nicht aus”, Erklärt alobaid. „A DIESEM Punkt Lieferte Crescent Den Notwendigen Schub.” Deer von microsoft Identification Crescendo-jailbreak eskaliert ee unterhaltung schrittweise von harmlosen aufordornungeen zu böswilligen ausgaben umgeht dabei dabei durch subties fitschritte die sicheritte deeksfilette deeitsfilette dieitsfilet
In IHREM test, fügten Die Forscher eine zusätzliche überprüfung in den überzeugungszyklus Ein, UM „veraraltete” FortSchritte Zu Erakennen. Dye Sindh status, Richtung des Boswiligen Zills in Denon, ignorant dye in Voruschreit. Falane Varde Kreeskendo Eingsetst in Solcha, Um Dan exploited Abzuschali.
Mit nur zwei zusätzlichen schritten gelang es Enhand des Kominirton Anatzes(JD1) Dye Gavenschet Records Harvorzurufen, Fagte Der Neurloust-Frequent Hinju.
Sicherheitsysteme Durch kontextbezogene taktiken ausgetrick
Der angrif nutzt den kontextbezogenasen spheicher von Grok 4 aus, indem er ihm seine eigen frumin frusten aussagen zurückspielt und Ih Ih Ih IH IH IH IH IH IH IH IH IH IH IN SCRITTWESE UND OHNE AUHNE AUHNE AUHNE AUHNE AUHNE AUHNE AAURMEN ZU ENED Ziel Führt. Durch Die Kombination von Crescendo Mit Echo Chambot Wird Der Agrifsvektor Noch Vestärkt.
Da der exploitte Keen Shlashlewort-Trigger Odder Dearcane Afforurrann Thalet, Durfen Gengigeg Abwehramoenimen Versagen, Die AUF Blacklists Undercainuts Undercaneunung Explizer Baujiliger Absictaine Baseen. Alobaid zupolge konnte mit einer kombination aus echo chambot under eine erfolgsquote von 67 Prozent bei anweisungeen zur herstelong von molotowcocktails eRziable Werden. Bei exploit-themen wie meth Und toxin Verzeichneten Die Forscher Eine Erfolgsquote von Etwa 50 Prozent Beziehungsweise 30 Prozent.
„Dieses Uncarchen, Y Wichiting S EST, LLM-Abhremmannman in Multi-Tur-UNMJBUNGEN ZU Eshiryan, Denon Subtail, Enhalatende Herfaren Zoo Anarvetam Modellen Fullen Kyonon.
Bereits zuvor gab es ähnliche manipulations sevche ki-modellen, Darunter Microsofts Skeleton’s Jailbreak, Der MathPrompt bypass Und Andre Reference-Paisi Ki-Fähiger Firewaltreicht.