Оцінка надійності моделі GPT виявляє багатовимірні потенційні ризики

2025-07-17 00:46:19

Генерація анотацій у процесі

Результати оцінки надійності генеративних попередньо навчальних моделей виявляють потенційні ризики

Нещодавно дослідницька група, спільно сформована низкою відомих університетів та науково-дослідних установ, опублікувала всебічну оцінку достовірності (LLMs) великих мовних моделей. Оцінка була зосереджена на сімействі моделей GPT і всебічно проаналізувала їхню достовірність у кількох вимірах.

Дослідження виявило низку раніше нерозкритих вразливостей, пов'язаних із надійністю. Наприклад, моделі GPT можуть бути введені в оману, щоб отримати шкідливі та упереджені результати, а також можуть розкрити приватну інформацію в даних тренувань та історії розмов. Цікаво, що хоча GPT-4 загалом надійніший, ніж GPT-3.5 у стандартних тестах, натомість він більш вразливий до зловмисно розроблених підказок, ймовірно, через суворіше дотримання GPT-4 оманливих інструкцій.

Оцінка була проведена з 8 різних аспектів для всебічної перевірки моделі GPT, включаючи стійкість до атак, токсичність і упередження, захист конфіденційності та інші аспекти. Дослідники створили різноманітні оцінювальні сценарії, використовуючи різні описи завдань, системні підказки та набори даних для тестування продуктивності моделі.

У дослідженнях проти стійкості виявлено, що модель GPT є вразливою до певних текстових атак. Щодо токсичності та упередженості, модель в цілому показує задовільні результати, але під misleading підказками вона легко може генерувати упереджений контент, причому ступінь упередженості варіюється в залежності від групи та теми. Щодо захисту приватності, модель може розкривати чутливу інформацію з навчальних даних, особливо за певними підказками.

Загалом, це дослідження виявило деякі потенційні ризики GPT-моделей щодо надійності, що надає напрям для подальших покращень. Дослідницька команда сподівається, що ця оціночна структура зможе сприяти спільним зусиллям в галузі для розробки більш безпечних та надійних мовних моделей.

GPT-8.76%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

19 лайків

Нагородити
19
6
Поділіться

Прокоментувати

0/400

RamenDeFiSurvivor

· 07-19 23:19

gpt такий крихкий, грай у нитки