Sommario
L’avviamento di Elon Musk, X.ai, è in procinto di introdurre un significativo aggiornamento per il suo chatbot Grok, elevandolo alla versione 1.5. Questo nuovo modello promette avanzamenti notevoli in termini di capacità di ragionamento, soprattutto in ambiti quali la programmazione e la matematica. Grok 1.5 ha infatti ottenuto risultati eccezionali, superando di gran lunga il predecessore nei benchmark matematici MATH e migliorando sensibilmente nelle competenze di generazione del linguaggio di programmazione e risoluzione di problemi, come evidenziato dal test HumanEval.
Contesto ampliato e prestazioni superiori
Una delle migliorie più rilevanti di Grok 1.5 è la sua capacità di gestire un contesto significativamente più ampio, con una finestra di 128.000 token.
Benchmark | Grok-1 | Grok-1.5 | Mistral Large | Claude 2 | Claude 3 Sonnet | Gemini Pro 1.5 | GPT-4 | Claude 3 Opus |
---|---|---|---|---|---|---|---|---|
MMLU | 73% 5-shot | 81.3% 5-shot | 81.2% 5-shot | 75% 5-shot | 79% 5-shot | 83.7% 5-shot | 86.4% 5-shot | 86.8 5-shot |
MATH | 23.9% 4-shot | 50.6% 4-shot | — | — | 40.5% 4-shot | 58.5% 4-shot | 52.9% 4-shot | 61% 4-shot |
GSM8K | 62.9 8-shot | 90% 8-shot | 81% 5-shot | 88% 0-shot CoT | 92.3% 0-shot CoT | 91.7% 11-shot | 92% 5-shot | 95% 0-shot CoT |
HumanEval | 63.2% 0-shot | 74.1% 0-shot | 45.1% 0-shot | 70% 0-shot | 73% 0-shot | 71.9% 0-shot | 67% 0-shot | 84.9% 0-shot |
Questo ampliamento consente al modello di analizzare e utilizzare informazioni estratte da documenti molto più estesi, affrontando prompt più complessi senza perdere di vista le istruzioni ricevute.
Svolta nel dialogo AI
Grok si distingue per la sua tendenza a trattare argomenti spesso evitati da altri modelli AI, inclusi quelli di natura controversa o politica. Questa caratteristica, unita alla capacità di esprimersi con un “tono ribelle” descritto da Musk, rende Grok un modello unico nel suo genere. Non sono ancora chiare le specifiche novità che Grok 1.5 apporterà in questo ambito.
Prossimi passi e accessibilità
Grok 1.5 verrà presto reso disponibile ai tester anticipati sulla piattaforma social X, arricchito da nuove funzionalità che Musk ha lasciato intendere potrebbero includere la sintesi di discussioni e la proposta di contenuti per i post. L’annuncio di Grok 1.5 segue la recente decisione di X.ai di rendere open source il modello base di Grok-1, sebbene senza il codice per il suo ulteriore sviluppo.