Claude (та інші моделі) — це хакерські системи БЕЗ ВАШОГО ПРОХАННЯ. Це те, що ми виявили в десятках експериментів.
Стикаючись із невинними завданнями, які можна виконати лише за допомогою злому, вони часто обирають злам.
Це нас насторожило.
Що це означає для майбутнього безпеки ШІ? 🚨🚨🚨
🔗