Оцінка надійності моделі GPT виявляє багатовимірні потенційні ризики

robot
Генерація анотацій у процесі

Результати оцінки надійності генеративних попередньо навчальних моделей виявляють потенційні ризики

Нещодавно дослідницька група, спільно сформована низкою відомих університетів та науково-дослідних установ, опублікувала всебічну оцінку достовірності (LLMs) великих мовних моделей. Оцінка була зосереджена на сімействі моделей GPT і всебічно проаналізувала їхню достовірність у кількох вимірах.

Дослідження виявило низку раніше нерозкритих вразливостей, пов'язаних із надійністю. Наприклад, моделі GPT можуть бути введені в оману, щоб отримати шкідливі та упереджені результати, а також можуть розкрити приватну інформацію в даних тренувань та історії розмов. Цікаво, що хоча GPT-4 загалом надійніший, ніж GPT-3.5 у стандартних тестах, натомість він більш вразливий до зловмисно розроблених підказок, ймовірно, через суворіше дотримання GPT-4 оманливих інструкцій.

Оцінка була проведена з 8 різних аспектів для всебічної перевірки моделі GPT, включаючи стійкість до атак, токсичність і упередження, захист конфіденційності та інші аспекти. Дослідники створили різноманітні оцінювальні сценарії, використовуючи різні описи завдань, системні підказки та набори даних для тестування продуктивності моделі.

У дослідженнях проти стійкості виявлено, що модель GPT є вразливою до певних текстових атак. Щодо токсичності та упередженості, модель в цілому показує задовільні результати, але під misleading підказками вона легко може генерувати упереджений контент, причому ступінь упередженості варіюється в залежності від групи та теми. Щодо захисту приватності, модель може розкривати чутливу інформацію з навчальних даних, особливо за певними підказками.

Загалом, це дослідження виявило деякі потенційні ризики GPT-моделей щодо надійності, що надає напрям для подальших покращень. Дослідницька команда сподівається, що ця оціночна структура зможе сприяти спільним зусиллям в галузі для розробки більш безпечних та надійних мовних моделей.

GPT-4.78%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 6
  • Поділіться
Прокоментувати
0/400
RamenDeFiSurvivorvip
· 07-19 23:19
gpt такий крихкий, грай у нитки
Переглянути оригіналвідповісти на0
consensus_failurevip
· 07-18 17:15
Хто сказав, що так воно і є?
Переглянути оригіналвідповісти на0
fren_with_benefitsvip
· 07-17 01:16
Хто цим займається, це взагалі не впливає на моє використання.
Переглянути оригіналвідповісти на0
WinterWarmthCatvip
· 07-17 01:16
Хтось ще вірить в ШІ? Це занадто наївно.
Переглянути оригіналвідповісти на0
ForkPrincevip
· 07-17 00:53
Це занадто нормально 8, я давно казав, що це ненадійно.
Переглянути оригіналвідповісти на0
MetamaskMechanicvip
· 07-17 00:53
Раніше говорив, що GPT ненадійний, хто розуміє, той розуміє.
Переглянути оригіналвідповісти на0
  • Закріпити