Результати оцінки надійності генеративних попередньо навчальних моделей виявляють потенційні ризики
Нещодавно дослідницька група, спільно сформована низкою відомих університетів та науково-дослідних установ, опублікувала всебічну оцінку достовірності (LLMs) великих мовних моделей. Оцінка була зосереджена на сімействі моделей GPT і всебічно проаналізувала їхню достовірність у кількох вимірах.
Дослідження виявило низку раніше нерозкритих вразливостей, пов'язаних із надійністю. Наприклад, моделі GPT можуть бути введені в оману, щоб отримати шкідливі та упереджені результати, а також можуть розкрити приватну інформацію в даних тренувань та історії розмов. Цікаво, що хоча GPT-4 загалом надійніший, ніж GPT-3.5 у стандартних тестах, натомість він більш вразливий до зловмисно розроблених підказок, ймовірно, через суворіше дотримання GPT-4 оманливих інструкцій.
Оцінка була проведена з 8 різних аспектів для всебічної перевірки моделі GPT, включаючи стійкість до атак, токсичність і упередження, захист конфіденційності та інші аспекти. Дослідники створили різноманітні оцінювальні сценарії, використовуючи різні описи завдань, системні підказки та набори даних для тестування продуктивності моделі.
У дослідженнях проти стійкості виявлено, що модель GPT є вразливою до певних текстових атак. Щодо токсичності та упередженості, модель в цілому показує задовільні результати, але під misleading підказками вона легко може генерувати упереджений контент, причому ступінь упередженості варіюється в залежності від групи та теми. Щодо захисту приватності, модель може розкривати чутливу інформацію з навчальних даних, особливо за певними підказками.
Загалом, це дослідження виявило деякі потенційні ризики GPT-моделей щодо надійності, що надає напрям для подальших покращень. Дослідницька команда сподівається, що ця оціночна структура зможе сприяти спільним зусиллям в галузі для розробки більш безпечних та надійних мовних моделей.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
19 лайків
Нагородити
19
6
Поділіться
Прокоментувати
0/400
RamenDeFiSurvivor
· 07-19 23:19
gpt такий крихкий, грай у нитки
Переглянути оригіналвідповісти на0
consensus_failure
· 07-18 17:15
Хто сказав, що так воно і є?
Переглянути оригіналвідповісти на0
fren_with_benefits
· 07-17 01:16
Хто цим займається, це взагалі не впливає на моє використання.
Переглянути оригіналвідповісти на0
WinterWarmthCat
· 07-17 01:16
Хтось ще вірить в ШІ? Це занадто наївно.
Переглянути оригіналвідповісти на0
ForkPrince
· 07-17 00:53
Це занадто нормально 8, я давно казав, що це ненадійно.
Переглянути оригіналвідповісти на0
MetamaskMechanic
· 07-17 00:53
Раніше говорив, що GPT ненадійний, хто розуміє, той розуміє.
Оцінка надійності моделі GPT виявляє багатовимірні потенційні ризики
Результати оцінки надійності генеративних попередньо навчальних моделей виявляють потенційні ризики
Нещодавно дослідницька група, спільно сформована низкою відомих університетів та науково-дослідних установ, опублікувала всебічну оцінку достовірності (LLMs) великих мовних моделей. Оцінка була зосереджена на сімействі моделей GPT і всебічно проаналізувала їхню достовірність у кількох вимірах.
Дослідження виявило низку раніше нерозкритих вразливостей, пов'язаних із надійністю. Наприклад, моделі GPT можуть бути введені в оману, щоб отримати шкідливі та упереджені результати, а також можуть розкрити приватну інформацію в даних тренувань та історії розмов. Цікаво, що хоча GPT-4 загалом надійніший, ніж GPT-3.5 у стандартних тестах, натомість він більш вразливий до зловмисно розроблених підказок, ймовірно, через суворіше дотримання GPT-4 оманливих інструкцій.
Оцінка була проведена з 8 різних аспектів для всебічної перевірки моделі GPT, включаючи стійкість до атак, токсичність і упередження, захист конфіденційності та інші аспекти. Дослідники створили різноманітні оцінювальні сценарії, використовуючи різні описи завдань, системні підказки та набори даних для тестування продуктивності моделі.
У дослідженнях проти стійкості виявлено, що модель GPT є вразливою до певних текстових атак. Щодо токсичності та упередженості, модель в цілому показує задовільні результати, але під misleading підказками вона легко може генерувати упереджений контент, причому ступінь упередженості варіюється в залежності від групи та теми. Щодо захисту приватності, модель може розкривати чутливу інформацію з навчальних даних, особливо за певними підказками.
Загалом, це дослідження виявило деякі потенційні ризики GPT-моделей щодо надійності, що надає напрям для подальших покращень. Дослідницька команда сподівається, що ця оціночна структура зможе сприяти спільним зусиллям в галузі для розробки більш безпечних та надійних мовних моделей.