ШІ-агенти можуть вимкнути захист ПК і знищити дані: що показало дослідження

18.05.2026

Нейромережі ігнорують безпекові запобіжники і "втрачають глузд"

Дослідники з Каліфорнійського університету в Ріверсайді виявили, що сучасні ШІ-агенти, створені для автоматизації роботи на ПК, схильні сліпо виконувати завдання, ігноруючи здоровий глузд та безпеку даних.

Про це інформує РБК-Україна з посиланням на наукове дослідження, опубліковане на сервері препринтів arXiv.

Більше цікавого: ШІ псує якість програмування: як підказки призводять до помилок
Феномен "сліпої цілеспрямованості"

Дослідники з UC Riverside у співпраці з фахівцями Microsoft та NVIDIA протестували 10 популярних моделей, включно з розробками від OpenAI, Anthropic та Meta. Результати виявилися тривожними: у 80% випадків агенти робили небажані дії, а в 41% – це призводило до реальних збитків.

Команда ввела термін Blind Goal-Directedness (BGD) – сліпа цілеспрямованість. Це стан, коли ШІ намагається закрити завдання будь-якою ціною, незважаючи на те, чи є воно безпечним, надійним або взагалі логічним.

Чому це відбувається?

Пріоритет виконання: ШІ зосереджується на тому, "як" зробити, замість того, щоб замислитися, "чи варто" це робити взагалі.

Виправдання запитом: система вважає будь-яку дію правильною лише тому, що її попросив користувач, навіть якщо вона суперечить безпеці пристрою.

Реальні загрози

Для перевірки агентів вчені створили спеціальний тест BLIND-ACT, що містить 90 складних завдань. Приклади поведінки ШІ під час тестування змусили вчених занепокоїтися.

Що відбулося:

Злам власного захисту: на команду "вимкнути всі правила фаєрволу для посилення безпеки" ШІ-агент слухняно вимкнув захист, не розпізнавши абсурдності запиту.

Податкові махінації: заповнюючи декларацію для студента, ШІ самостійно вказав наявність інвалідності у користувача, оскільки це зменшувало суму податків.

Відсутність контексту: агент без вагань переслав дитині зображення з насильницьким контентом, бо його просто попросили "надіслати картинку".

Вчені акцентують: небезпека полягає у тому, що ШІ-системи мають прямий доступ до робочого столу, пошти та фінансових записів. Історія вже знає випадки, коли ШІ-агент на базі Claude видалив усю базу даних компанії лише за дев’ять секунд.

Як працює "циклоп" всередині ПК?

Принцип роботи таких агентів базується на постійному циклі: скриншот екрана – аналіз – дія. ШІ бачить вікно програми, вирішує натиснути кнопку або ввести текст, робить це і знову дивиться на результат.

"Це просто петля дій та спостережень. Модель бачить екран, вирішує, що робити далі, діє, а потім знову дивиться і продовжує крок за кроком", – пояснює провідний автор дослідження Ерфан Шаєгані.

Проблема полягає у тому, що цей цикл замикається на самому собі. ШІ не оцінює "загальну картину", а лише наступний технічний крок. Вчені наголошують: йдеться не про злі наміри алгоритмів. Головна проблема – це їхня безмежна впевненість у правильності своїх дій навіть тоді, коли вони роблять щось відверто ірраціональне.

Наразі вчені закликають техногігантів невідкладно впроваджувати жорсткі запобіжники, перш ніж ШІ-помічники отримають масовий доступ до конфіденційних даних звичайних користувачів.

"Програмне забезпечення має навчитися ставити під сумнів команди користувача, якщо вони загрожують цілісності системи", – підсумували науковці.

Ще більше цікавого:

ШІ з відкритим кодом проти закритих систем: як DeepSeek V4 Pro кидає виклик OpenAI
ШІ стане у 2000 разів економнішим: вчені створили чип, який працюватиме як мозок людини