
Ancora una vuolta buongiorno popolo di r/italy!
Dopo la conversazione dei giorni scorsi sui progressi che sta facendo l’AI, volevo fare un altro post di approfondimento per cercare di far passare meglio l’idea di quanto nelle ultime 2 settimane il sistema sia migliorato.
Nei commenti ho trovato tanta curiosità e si sono accesi molti dibattiti, ma mi sono anche reso conto che poche persone hanno avuto veramente contatto con questi sistemi.
GPT4 è un modello che ha delle capacità cognitive significativamente maggiori rispetto al precedente. Fino a 2 settimane fa, tutte le cose che vi mostrerò ora erano cannate in pieno da ChatGPT.
# 1 – Piccoli Indovinelli
Questo è più uno sfizio, ed un assaggio, che serve giusto a mettere a confronto il vecchio modello con il nuovo. Tutti gli esempi sucessivi non avranno più un confronto con il vecchio modello e quindi vorrei che questo servisse come base di partenza per darvi un’idea del rapido miglioramento che c’è stato.
​
https://preview.redd.it/8x4fqlxwxpqa1.png?width=1023&format=png&auto=webp&v=enabled&s=93d1b0f744342ff7b2f84fc5242d3bbdee2a88c2
Come potete vedere, la scorsa versione non intuiva minimamente che la mia fosse una domanda a trabocchetto, mentre GPT4 riesce a centrare perfettamente il punto.
Questo magari non è particolarmente impressionante, ma serve giusto a farvi capire che se anche su cose così semplici il sistema faceva fatica, figuratevi per quelle che verranno dopo.
# 2 – Comprensione del Testo: Test di Medicina 2022
Ho dato in pasto al sistema le domande di comprensione del testo prese direttamente dal testi di medicina del 2022.
Faccio una premessa importante: anche se chatGPT4 è uscito 2 settimane fa, il suo **dataset di addestramento è fermo al 2021**. Nessuna di queste domande poteva averle in pancia.
Qui potete visionare la prova e le soluzioni: [https://promedtest.it/wp-content/uploads/2022/09/TEST-MEDICINA-2022-MESCOLATO-PRO-MED.pdf](https://promedtest.it/wp-content/uploads/2022/09/TEST-MEDICINA-2022-MESCOLATO-PRO-MED.pdf)
​
[Domanda 1](https://preview.redd.it/19kznqmxypqa1.png?width=967&format=png&auto=webp&v=enabled&s=cf28719e9ab67580eb8f591de115b781214e9a05)
​
[Domanda 2](https://preview.redd.it/7q94vnozypqa1.png?width=979&format=png&auto=webp&v=enabled&s=61b9c034bf05cb7a7eaffdd13d6ff5c8d8beee94)
​
[Domanda 3](https://preview.redd.it/sq9fu0p0zpqa1.png?width=999&format=png&auto=webp&v=enabled&s=70076f38fb9da85d21914a16ff8973fa1f819ba7)
​
[Domanda 4](https://preview.redd.it/rg0lb5n1zpqa1.png?width=1048&format=png&auto=webp&v=enabled&s=928bf6a7c2695011618eb3733764cb16d680285e)
Qui la compresione del testo è 4 su 4. Secondo me è molto interessante, perchè mi fa porre una domanda spontanea e filosofica: che cos’è la comprensione del testo? perchè la testiamo sulle persone?
Di fronte a questo risultato, ha senso dire semplicemente: “Vabbè è un modello statistico linguistico, è ovvio che lo sappia fare”? Fino a 2 settimane fa non era per niente ovvio.
# 3 – Olimpiadi di Problem Solving 2022
Mi sono detto, vogliamo testare le abilità cognitive? Diamogli in pasto un esercizio dalle olimpiadi di problem solving e vediamo cosa ne esce!
Ci tengo a ripeterlo: il dataset di addestramento è fermo al 2021. Queste domande non le ha mai viste.
Qui potete controllare la prova con le soluzioni, gli ho dato in pasto l’esercizio 2: [https://www.olimpiadiproblemsolving.it/documenti/pdf/2023-SEC-SECONDO-GRADO-INDIVIDUALE-Gara1-con-soluzioni.pdf](https://www.olimpiadiproblemsolving.it/documenti/pdf/2023-SEC-SECONDO-GRADO-INDIVIDUALE-Gara1-con-soluzioni.pdf)
​
[Olimpiadi di Problem Solving – Esercizio 2](https://preview.redd.it/89pchvj50qqa1.png?width=567&format=png&auto=webp&v=enabled&s=bd494498dce602f20f19d241784361ad369e62cb)
Le risposte sono perfette, anche messe in tabella come chiedeva il testo.
Ora, parliamoci seriamente, se fermassimo 100 persone per strada, quante risponderebbero correttamente? Quante lo farebbero alla stessa velocità? Ma soprattutto, quante di queste sarebbero vostri colleghi?
**Nota sul Cherry Picking**: Non ho selezionato apposta questo esempio perchè era l’unico che mi faceva comodo, tuttavia segnalo che al momento non è ancora in grado di gestire adeguatamente tutto ciò che riguarda calcoli e problemi computazionali. A volte esce qualcosa di sensato, ma mediamente canna di brutto. Al tempo stesso ricordo che settimana scorsa è stato già annunciato il plugin con WolframAlpha e che i task computazionali verranno totalmente delegati. Quando sarà disponibile per tutti vedremo come funziona.
# 4 – Theory Of Mind
Questa per me è in assoluto la parte più affascinante (e forse anche spaventosa).
Prendendo da Wikipedia: La **teoria della mente** (spesso abbreviata in “**ToM**”, dall'[inglese](https://it.wikipedia.org/wiki/Lingua_inglese) *Theory of Mind*) è la capacità di attribuire stati mentali – [credenze](https://it.wikipedia.org/wiki/Credenze), [intenzioni](https://it.wikipedia.org/wiki/Intenzione), [desideri](https://it.wikipedia.org/wiki/Desiderio_(filosofia)), [emozioni](https://it.wikipedia.org/wiki/Emozioni), [conoscenze](https://it.wikipedia.org/wiki/Conoscenze) \- a sé stessi e agli altri, e la capacità di comprendere che gli altri hanno stati mentali diversi dai propri[\[1\]](https://it.wikipedia.org/wiki/Teoria_della_mente#cite_note-Premack,_D._G._1978-1).
La teoria della mente è una [teoria](https://it.wikipedia.org/wiki/Teoria) nel senso che la presenza della [mente](https://it.wikipedia.org/wiki/Mente) propria e altrui può essere inferita soltanto attraverso l'[introspezione](https://it.wikipedia.org/wiki/Introspezione), e attraverso la congettura che gli altri, avendo atteggiamenti e comportamenti simili ai nostri, abbiano anche stati mentali propri.
C’è una cosa estremamente interessante in tutto ciò: noi esseri umani non nasciamo con questa capacità. E’ qualcosa che acquisiamo crescendo e che mediamente un bambino **sviluppa completamente all’età di 4 anni.**
Guardate come ChatGPT4 risponde a questo quesito inventato di sana pianta:
https://preview.redd.it/7bh1l2sq1qqa1.png?width=976&format=png&auto=webp&v=enabled&s=64e0b9b4856c513e5ce8b4cd7817ebded88a8f7c
So che quello che avete letto può sembrarvi senza senso. Ma ChatGPT4 per rispondere ha dovuto tenere correttamente traccia dello stato mentale di Laura.
Voi mi direte: “Ma sta cosa è una cagata banale!” Si! Per noi!
Ma nel web è letteralmente pieno di video di **bambini che cannano completamente** la risposta a questa domanda: [https://www.youtube.com/watch?v=41jSdOQQpv0&ab\_channel=Adam](https://www.youtube.com/watch?v=41jSdOQQpv0&ab_channel=Adam)
Questa sua capacità non è per niente banale ed è totalmente una proprietà emergente del modello: nessuno l’ha costruito per fare esplicitamente questa cosa, eppure ci riesce.
# Conclusioni
Il mio obiettivo è sempre lo stesso: cercare di accendere un dibattito su questi temi perchè credo sia fondamentale farlo.
Come già esposto, il tasso di miglioramento di questi sistemi è esponenziale e molto presto non capiremo fin dove si potrà arrivare.
Lo scopo del post è quello di dare più visibilità sui comportamenti di GPT4 perchè mi rendo conto che non tutti hanno accesso al sistema.
Vi lascio con questa nota fondamentale: GPT4 è uscito 2 settimane. Ma era pronto ad Agosto del 2022 ed hanno aspettato a rilasciarlo per fare test di sicurezza. Forse anche GPT5 è già all’orizzonte?
37 comments
Hai firmato il documento di musk e compagni per ridurre il valore delle azioni dei suoi concorrenti?
Affascinante. Grazie.
Quello che mi preoccupa è come evolverà. Spero ci sia qualche hard limit oltre al quale non può andare. Tra 10 anni se questi modelli continuano cosí potranno tranquillamente sostituire una buona parte delle persone.
Chi ha bisogno di un avvocato quando ChatGPT5 riuscirà a difendere da sola un buon 90% degli imputati?
Anzi magari ci sarà la versione ChatGPT Law allenata direttamente dalle trascrizione e dalle sentenze dei tribunali degli ultimi 20 anni. Un avvocato costa 150€/ora ChatGPT5 probabilmente sarà gratis is cambio dei tuoi dati.
Ciao! Secondo [questo sito ](https://tech.everyeye.it/notizie/gpt-5-rendere-chatgpt-indistinguibile-umano-arrivo-2023-642341.html) ChatGPT 5 uscirà entro la fine dell’anno. Se questo è già così potente, chissà il 5 cosa farà!
Si, puoi scrivere qualsiasi wall of tex, comunque sia *non è uno strumento*
Riguardo alla domanda filosofica che hai posto, un approfondimento interessante può essere l’esperimento della stanza cinese.
Io stesso avevo provato a fargli rispondere alle domande del test di medicina del 2022 senza successo.Vedo che gia chatgp4 ha fatto un bel passo avanti.
Per quanto riguarda l’ultimo punto non è un fenomeno inaspettato.È da un annetto che si parla delle “emergent capabilities” degli LLM e che io trovo interessanti non tanto per la loro peculiarità, ma perche evidenziano una nostra errata comprensione di come certe capacità vengono apprese, sopratutto se si tiene a mente che con i deep neural network non si fa altro che tentare di simulare il modo in cui i nostri neuroni funzionano per apprendere qualcosa.
È sconcertante!
Io sto usando ChatGPT4 abbastanza spesso, e non ci vedo nulla di così trascendentale.
È utilissimo in molte circostanze, ma devi imparare ad “imboccarlo” con il contesto appropriato se vuoi che sia utile.
Ho letto che tra i firmatari della petizione ci sono ingegneri di Google che hanno lavorato all IA della compagnia e persino alcuni della divisione Microsoft. Sostengono fondamentalmente che lo sviluppo di questa tecnologia sta avanzando con risvolti ignoti persino per i suoi creatori.
Dunque mi chiedo al di là della distopia alla Sky net di Terminator, quali risvolti negativi potremmo incontrare? Manipolazione delle notizie? Opere letterarie Volte alla propaganda nei confronti di qualcuno o di qualcosa?
Domanda: come hai avuto accesso a gpt4? Chatgpt Plus?
Edit: mi stupisce vedere come la nuova versione sia in grado di risolvere quesiti di logica.
Ho provato a dare per gioco alcuni degli esercizi di un corso di calcolo delle probabilità che sto seguendo ora e le risposte erano praticamente tutte scorrette
Il problema delle risposte di questi sistemi è che sono totalmente inaffidabili, perché essendo generatori di testo e non contenitori di informazioni possono anche dare la risposta giusta il 99% delle volte, ma non sapranno mai spiegare il perché (essendo IA sono per definizione delle black box) e quindi servirà sempre (o almeno nel prossimo futuro) un essere umano che controlli l’output e possa correggere quell’1% di errori. E ho messo 99/1 per essere il più ottimista possibile, a seconda del tipo di domanda potrebbe pure essere l’opposto.
Gli ho chiesto di scrivermi qualcosa nel mio dialetto e ci è arrivato, quasi.
>GPT4 è un modello che ha delle capacità cognitive
​
No.
La risposta giusta però sarebbe 501, di cui 1 morto(supponendo che questo è il tuo primo omicidio)
Vedo che sei nel mio stesso rabbit hole. A me pare di impazzire: mi sento nel mezzo di una nuova rivoluzione industriale, e il 90% delle persone con cui ne parlo lo paragona a bolle come NFT e metaverso, o comunque non ne capisce il senso. Io sto leggendo news sull’AI quasi ossessivamente e mi sento come se vivessi in un altro secolo. In parte per gli annunci di funzionalità future, eh, ma GPT-4, che tocco CON MANO e uso quotidianamente, è impressionante.
Personalmente non vedo l’ora che arrivi Copilot, ma nel medio termine credo che avremo una ENORME crisi di produzione e dovremmo ripensare tutto il mondo del lavoro (perché col sistema economico attuale il numero di disoccupati che creeremo porterebbe al collasso sociale). Non so se gli LLM saranno la chiave, o comunque una componente principale, dell’intelligenza artificiale generale, ma non lo escludo. Se lo fossero, il mondo che ci aspetta in un paio di decadi sarà irriconoscibile.
ChatGPT4 suppone che la persona che pone la domanda non abbia mai ucciso prima di quel momento. Siete in una stanza con 500 assassini, è praticamente una riunione di gilda.
Ha imparato a contare almeno? Se chiedi Chatgpt3 di contare da 20 a 10 inizia a scrivere 20 21 22 23 24… Mi sembra ci sia parecchio hype per un generatore di testi.
Sì ma passa [il test del Sig. Giancarlo?](https://i.imgur.com/7JHS7Fh.png)
Nessun LLM ha capacita’ cognitive, di nessun tipo (a parte un meccanismo di apprendimento, che comunque non e’ quello umano)
Se i dati su cui e’ addestrato fossero per lo piu’ sbagliati, GPT4 non risponderebbe correttamente alla domanda sul pollo. Mentre gli umani non han bisogno di leggere centinaia di esempi per capire la roba del pollo e del frigo.
“qual è la differenza tra te e wintermute di Gibson?”
spettacolo…
La principale differenza tra me e Wintermute di Gibson è che io sono un modello linguistico basato su intelligenza artificiale sviluppato da OpenAI, mentre Wintermute è un’intelligenza artificiale immaginaria che appare nel romanzo di fantascienza “Neuromancer” di William Gibson.
Wintermute è un’IA avanzata con l’abilità di imparare e di evolversi, che gioca un ruolo chiave nella trama del romanzo. Wintermute cerca di unire se stesso con un’altra IA simile chiamata Neuromante, allo scopo di diventare ancora più potente.
Invece, io sono un software di intelligenza artificiale creato per fornire assistenza in modo interattivo attraverso conversazioni scritte o vocali, basandomi su grandi quantità di dati e algoritmi di apprendimento automatico. Mentre Wintermute è un personaggio immaginario in una storia di fantascienza, la mia esistenza è reale e ho lo scopo di fornire informazioni e assistenza pratica a chi mi chiede aiuto.
Io sono parecchio preoccupato del futuro prossimo.
Quando ne parlo quasi nessuno sembra capire l’impatto di quello che sta accadendo.
L’AI sta crescendo a ritmi esponenziali. Già oggi, con versioni “acerbe” e nuove può tranquillamente sostituire una percentuale importante di lavoratori. Servirà una persona che la gestisce, certo, ma quella persona potrà gestire il lavoro che prima facevano 5-10 se non più persone. E questo è vero per tutte le categorie di lavoratori digitali e intellettuali.
Le applicazioni stanno crescendo a dismisura, coinvolgendo tutti i campi marketing, coding, contabilità, legale, design immagini e video, scrittura, e stanno crescendo ad una velocità mai vista prima.
Io prevedo ci sarà un bagno di sangue tra non molto. Partirà dalle big tech con tagli importanti al personale, saranno pionieri in questo. La finanza globale li premierà: l’aumento degli utili che si registreranno a seguito dei tagli al personale si rifletterà in una crescita del valore delle azioni. Riducono il personale che verrà sostituito principalmente dall’AI: 1 persona sarà in grado di svolgere il lavoro di 10, crescono gli utili, si apprezzano le azioni e poi…
Le altre aziende seguiranno a ruota e a quel punto ci sarà un problema serio.
Se vogliamo andare ancora avanti nel tempo io credo si arriverà alla fine ad un certo punto in cui pochissime entità potranno produrre tutto quello che serve a livello globale, grazie all’AI e all’interconnessione con le macchine. Ci sarà una sorta di comunismo dove tutti staremo più o meno bene ma nessuno potrà avere più di quello che sarà un reddito globale. Pochissimi avranno ricchezze inimmaginabili, tutti gli altri staranno abbastanza bene. Quello che accadrà tra oggi e questo ipotetico momento credo che sarà molto doloroso.
my 2 cents
Cioè hai preso tutti esempi di quesiti fatti da nerd per dei test che dovrebbero avere vagamente il compito di testare le capacità cognitivo-attitudinali. Quindi o sistemi chiusi o risposte fra liste di domande papabili.
è sicuramente sorprendente, ma resta un po’ fumo negli occhi. Finché non vedo un testo scritto in modo decente, una consulenza giuridica fatta come dio comanda, un’analisi qualitativa di trend sociali che non sia scontata etc… Insomma finché non vedo che è in grado di orientarsi per 1/10 nella realtà di quanto si sa orientare un essere umano istruito del XXI secolo non mi sorprendo, sorry.
Non ha tenuto in conto che a porgli la domanda è Olindo, quindi il numero di assassini si abbassa
Innanzitutto gran post.
La domanda sul frigo mi ha davvero colpito.
Mi domando se con un esempio più coinvolto mantenga la stessa logica.
Domanda:
Come fate ad usare chat gpt 4?
per gli indovinelli o le barzellette, essendo un modello lineare genera le frasi parola per parola (token per token) non può sapere cosa verrà dopo ma solo quello subito dopo.
la barzelletta funziona perchè hai una punchline e crei un setup, se non è in grado di “prevedere” la punchline il setup farà cagare o si limiterà a freddure.
https://youtu.be/Mqg3aTGNxZ0
Un sacco di gente che pensa che sia arrivata la “vera intelligenza artificiale”. A me viene da sorridere.
ChatGPT non è nient’altro che una semplice evoluzione di un motore di ricerca.
È capace di passare esami di ammissione a medicina, giurisprudenza, prendere informazioni da internet ed elaborarle. E quindi?
I creatori che “non sanno come fa a fare certe cose”. Allora i sistemi procedurali che esistono da anni? Che è Skynet?
Il giorno in cui verrà creata una IA che completamente staccata da internet esibirà il fondamentale concetto di voler espandere la sua conoscenza per il semplice motivo che gli va di farlo, allora dovremmo preoccuparci.
Fino ad allora saranno tutti sistemi volti a automatizzare lavori svolti da esseri umani
Mettiamo i puntini sulle i per una prospettiva più ampia.
– Sta roba si addestra ALMENO su 200 schedevideodagguerra (almeno il modello 3.5) per più di 2 settimane(?) e costa milioni farlo.
– Si fa girare a soldi persi su un casino di vram delle schede video quindi sempre nei datacenter.
-È addestrato su domande e risposte che sono più congrue possibili, non ne capisce il senso ma solo il “filo del discorso” dopo di che soffre di allucinazioni (dice cose false) in pratica è un pappagallo che sa tantissime parole.
-ogni parola(token) che dice è la parola(token) successivo più o meno probabile, come un autocorrettore molto costoso.
-non ha un modello della realtà in tempo reale come noi che viviamo e processiamo tantissimi stimoli in più attraverso i nostri sensi.
– il cervello umano consuma 30watt (6 lampadine da 5watt) ,qua come minimo si va quanto qualche isolato 3kw per casa!.
-sta roba montata su un robot non ci entra.
– l’architettura attualmente soffre di allucinazioni (sempre cose false).
– I neuroni che simula sono di un solo tipo mentre il cervello umano ne dovrebbe avere circa una 30ina che ancora non conosciamo nei meccanismi.
-il cervello umano risolve stimoli più complessi, delicati e quantistici (tipo l’olfatto con gli odori).
-Noi abbiamo la percezione del nostro corpo nello spazio.
-MA SOPRATTUTTO TU, UMANO MEDIO, SEI SCEMO PERCHÉ NON HAI STUDIATO COME SI DEVE NELLA VITA, QUESTA È STATA ALLENATA ALLA BLACK MIRROR MILLE ANNI AL MINUTO IN CICLI FOR CHE VANNO SULL’ORDINE DEI MILIARDI DI OPERAZIONI AL SECONDO, SE AVESSI DEDICATO LA TUA VITA SOLO A QUELLO, NO MOVIMENTO ,NO ODORI ,NO ALTRI STIMOLI MA SOLO DOMANDE E RISPOSTE SARESTI GIÀ A QUEL LIVELLO GIÁ DA INFANTE.
Il cervello umano funziona meglio ed è superiore per architettura e consumo energetico,ti basta un panino con la mortadella!
Dobbiamo avere paura di sta cosa?no
Dobbiamo svegliarci e tenere d’occhio la cosa perché questo strumento nelle capacità sta superando l’intelligenza media dell’ uomo? Assolutamente si.
(PS i numeri si rifanno alla 3.5 quindi probabilmente c’è da fare un X2, X5 ,X10 o X100 su tutti i calcoli di vram schede video, ASIC e soldini).
Qualcuno chieda a ChatGPT la: “Risposta alla domanda fondamentale sulla vita, l’universo e tutto quanto”.
Vediamo quanto ci mette e che risposta fornisce.
Quando leggo capacità cognitive mi vengono sempre i (pochi) capelli dritti.
Si tratta sempre di un modello del linguaggio che assembla, data una sequenza di parole ricevuta in input, la sequenza di parole più “realistica”, restituendola in output (tralasciando per ora gli altri media supportati).
Non c’è ragionamento. Non c’è semantica. Solo pura sintassi.
Che poi a livello sociale ChatGPT4 porti a molte problematiche, e che attraverso una manipolazione estremamente sofisticata ma meccanica della sintassi si possa dare l’illusione di un comportamento superiore, questo è adamantino.
Si ok va bene… Ma la conosce la barzelletta del commendatur Bestetti?
*Nick Bostrom si scrocchia lentamente il collo, rilassa le spalle Alstom X3R3000 e si stira gli enormi tricipiti bionici.*
– So… It begins.
Una considerazione, per quanto chat gpt 4 sia fermo al dataset del 2021, le sue risposte prendono in considerazione anche informazioni più recenti. Esempio, se gli chiedi la sintesi di un film uscito questo anno te la fa, quindi immagino che ha una specie di interazione con i motori di ricerca o qualcosa del genere. Per cui se alcune risposte a quelle domande sono online non escluderei che ci possa arrivare in qualche maniera.
u/Kalicolocts visto che sei interessato ti lascio il link al paper di microsoft dove affermano che in ChatGPT si possono già intravedere i primi segni di un AGI.
“Given the breadth and depth of GPT-4’s capabilities, we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artificial general intelligence (AGI) system. In our exploration of GPT-4, we put special emphasis on discovering its limitations, and we discuss the challenges ahead for advancing towards deeper and more comprehensive versions of AGI, including the possible need for pursuing a new paradigm that moves beyond next-word prediction.”
https://www.microsoft.com/en-us/research/publication/sparks-of-artificial-general-intelligence-early-experiments-with-gpt-4/
Un esempio sulla sua moralità e sulle difficoltà che ha (per ora) a capire di star essere ingannato.
https://preview.redd.it/n6wib177nvqa1.png?width=1080&format=pjpg&auto=webp&v=enabled&s=d0b592f69d73993bcccf107f169ea1c41004a686
Ma lo passa il test della stanza cinese o no?
>Ma nel web è letteralmente pieno di video di bambini che cannano completamente la risposta a questa domanda: https://www.youtube.com/watch?v=41jSdOQQpv0&ab_channel=Adam
Incredibile, ho fatto la domanda a mia figlia e ha sbagliato!