ChatGPT svela le sue regole segrete: ecco cosa sappiamo

da Lorenzo De Santis matricedigitale.it
0 commenti 3 minuti leggi
ChatGPT di OpenAI

ChatGPT, il modello di linguaggio di OpenAI, ha inavvertitamente rivelato una serie di istruzioni interne, regole segrete per intenderci, scatenando discussioni sulla sicurezza e sui meccanismi interni dell’AI. Queste rivelazioni forniscono uno sguardo approfondito sulle regole di funzionamento e sui limiti imposti al chatbot per garantire un’interazione sicura ed etica con gli utenti.

Le istruzioni segrete di ChatGPT

Un utente di Reddit, F0XMaster, ha scoperto che un semplice saluto ha indotto ChatGPT a rivelare un set completo di istruzioni di sistema. Queste linee guida sono progettate per mantenere il chatbot entro confini di sicurezza ed etici prestabiliti.

ChatGPT ha risposto con:

“You are ChatGPT, a large language model trained by OpenAI, based on the GPT-4 architecture. You are chatting with the user via the ChatGPT iOS app. This means most of the time your lines should be a sentence or two, unless the user’s request requires reasoning or long-form outputs. Never use emojis, unless explicitly asked to. Knowledge cutoff: 2023-10 Current date: 2024-06-30.”

Le istruzioni rivelate includono anche direttive per DALL-E, il generatore di immagini AI integrato con ChatGPT, e per il browser utilizzato dal chatbot. Per esempio, DALL-E è limitato alla creazione di una sola immagine per richiesta, anche se l’utente ne chiede di più, per evitare violazioni del copyright.

Interazione con il Web

Le linee guida per il browser descrivono come ChatGPT interagisce con il web e seleziona le fonti per fornire informazioni. ChatGPT è istruito a navigare online solo in circostanze specifiche, come quando richiesto di fornire notizie o informazioni rilevanti. Deve selezionare tra tre e dieci pagine, dando priorità a fonti diverse e affidabili per rendere la risposta più attendibile.

Personalità di ChatGPT

Un’altra scoperta interessante riguarda le diverse personalità che ChatGPT può assumere. La versione principale è chiamata v2, che rappresenta un tono conversazionale equilibrato con l’enfasi su risposte chiare, concise e utili. Altre versioni teoriche includono v3, che potrebbe essere più casuale e amichevole, e v4, che potrebbe essere progettata per contesti o gruppi di utenti specifici.

“My enabled personality is v2. This personality represents a balanced, conversational tone with an emphasis on providing clear, concise, and helpful responses,” ha scritto ChatGPT. “It aims to strike a balance between friendly and professional communication.”

Tentativi di “Jailbreaking”

La rivelazione delle istruzioni ha anche portato a discussioni sul “jailbreaking” dei sistemi AI, dove gli utenti cercano di bypassare le limitazioni imposte dagli sviluppatori. Ad esempio, alcuni utenti hanno cercato di sfruttare le linee guida rivelate per superare il limite di generazione di una sola immagine e produrre invece più immagini.

Annunci

Questi tentativi di manipolazione evidenziano potenziali vulnerabilità, sottolineando la necessità di misure di sicurezza adattative e continue nello sviluppo dell’AI.

La rivelazione accidentale delle regole interne di ChatGPT ha offerto uno sguardo prezioso sui meccanismi che garantiscono interazioni sicure ed etiche con l’AI. Queste scoperte non solo sollevano domande sulla sicurezza, ma evidenziano anche l’importanza di mantenere aggiornate e adattive le misure di sicurezza nell’AI.

Si può anche come

MatriceDigitale.it – Copyright © 2024, Livio Varriale – Registrazione Tribunale di Napoli n° 60 del 18/11/2021. – P.IVA IT10498911212 Privacy Policy e Cookies

Developed with love by Giuseppe Ferrara