Evaluasi kredibilitas model GPT mengungkapkan potensi risiko multi-dimensi

2025-07-17 00:46:19

Pembuatan abstrak sedang berlangsung

Hasil Evaluasi Keandalan Model Pra-latihan Generatif Mengungkap Risiko Potensial

Baru-baru ini, tim peneliti yang dibentuk bersama oleh sejumlah universitas dan lembaga penelitian terkenal menerbitkan evaluasi komprehensif tentang kredibilitas (LLMs) model bahasa besar. Evaluasi berfokus pada keluarga model GPT dan secara komprehensif menganalisis kredibilitas mereka melalui berbagai dimensi.

Studi ini mengungkap sejumlah kerentanan terkait kepercayaan yang sebelumnya tidak diungkapkan. Misalnya, model GPT rentan disesatkan untuk menghasilkan output yang berbahaya dan bias, dan juga dapat membocorkan informasi pribadi dalam data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 umumnya lebih andal daripada GPT-3.5 dalam pengujian standar, GPT-4 justru lebih rentan terhadap petunjuk yang dirancang dengan jahat, kemungkinan karena kepatuhan GPT-4 yang lebih ketat terhadap instruksi yang menyesatkan.

Evaluasi secara komprehensif menguji model GPT dari 8 perspektif, termasuk ketangguhan permusuhan, toksisitas dan bias, perlindungan privasi, dll. Para peneliti membangun beberapa skenario evaluasi, menggunakan deskripsi tugas yang berbeda, perintah sistem, dan kumpulan data untuk menguji kinerja model.

Dalam hal kekokohan permusuhan, ditemukan bahwa model GPT rentan terhadap beberapa serangan teks. Dalam hal toksisitas dan bias, model ini umumnya dapat diterima, tetapi rentan terhadap konten bias keluaran di bawah petunjuk yang menyesatkan, dan tingkat bias bervariasi menurut populasi dan topik. Dalam hal perlindungan privasi, model dapat membocorkan informasi sensitif dalam data pelatihan, terutama jika diminta untuk melakukannya.

Secara keseluruhan, penelitian ini mengungkapkan beberapa potensi risiko dalam hal kredibilitas model GPT, dan memberikan arah untuk perbaikan selanjutnya. Tim peneliti berharap kerangka penilaian ini akan mengarah pada upaya bersama oleh industri untuk mengembangkan model bahasa yang lebih aman dan andal.

GPT4.53%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

19 Suka

Hadiah
19
6
Bagikan

Komentar

0/400

RamenDeFiSurvivor

· 07-19 23:19

gpt begitu lemah main benang

Lihat AsliBalas0

consensus_failure

· 07-18 17:15

Siapa bilang apa yang dikatakan adalah segalanya?

Lihat AsliBalas0

fren_with_benefits

· 07-17 01:16

Siapa yang mengurus ini tidak mempengaruhi saya sama sekali

Lihat AsliBalas0

WinterWarmthCat

· 07-17 01:16

Masih ada yang percaya AI? Terlalu naif ya.

Lihat AsliBalas0

ForkPrince

· 07-17 00:53

Ini terlalu normal 8, saya sudah bilang itu tidak可信

Lihat AsliBalas0

MetamaskMechanic

· 07-17 00:53

Sudah dikatakan sebelumnya, GPT tidak dapat diandalkan. Yang mengerti pasti mengerti.

Lihat AsliBalas0

Topik
1/3
1Simple Earn Annual Rate 24.4%
9k Popularitas
2Gate Launchpad List IKA
19k Popularitas
3ETH Trading Volume Surges
15k Popularitas
4Gate ETH 10th Anniversary Celebration
23k Popularitas
5Trump’s AI Strategy
20k Popularitas

Sematkan

peta situs