OpenAI attacca DeepSeek: avrebbe rubato i dati che OpenAI ha usato per Chatgpt

Introduzione

DeepSeek è il nuovo bot in stile chatgpt creato dalla Cina. OpenAI, la società che ha creato chatgpt, sostiene che DeepSeek sia riuscita a creare un modello linguistico di grandi dimensioni che supera quello di OpenAI spendendo molto meno e utilizzando chip più vecchi, utilizzando i dati di OpenAI in modo scorretto e senza compenso.

Discussione

Vi ricorda qualcosa questa accusa?
OpenAI ha rubato indiscriminatamente il lavoro altrui (https://futurism.com/openai-content-new-york-times-lawsuit) – ed è stata citata in giudizio per violazione del copyright varie volte (https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html) – OpenAI ora si lamenta per il fatto che DeepSeek ha fatto la stessa cosa con la sua IA costruita su tutti quei contenuti rubati.

Cosa ne pensate della vicenda?

Qualche link per approfondire

https://www.404media.co/openai-furious-deepseek-might-have-stolen-all-the-data-openai-stole-from-us/

https://futurism.com/openai-deepseek-permission-ai-stealing

by AndreaLuke

Tags:
italy

11 comments

Andrea-it says:

2025-01-30 at 20:39

*avrebbe rubato i dati che OpenAI ha rubato per Chatgpt
GopSome says:

2025-01-30 at 20:41

>utilizzando i dati di OpenAI in modo scorretto e senza compenso

Molto ironico.
Inevitable_Hat_2855 says:

2025-01-30 at 20:45

Ma in realtà come modello non è nuovo esiste da mesi soltanto che adesso hanno rilasciato questa nuova versione
Responsible_Routine6 says:

2025-01-30 at 20:49

Oh no ! Comunque
LELO_TV says:

2025-01-30 at 20:49

https://preview.redd.it/jeco2n0q17ge1.jpeg?width=272&format=pjpg&auto=webp&s=0183e9ab4841d15b3a5984c593c175a1494878cf
SCHazama says:

2025-01-30 at 20:56

“Tu vorresti rapire quello che legalmente rubai”
Mirieste says:

2025-01-30 at 21:04

Però mi sono sempre chiesto fino a che punto usare dei dati per il training sia “rubare”.

Dico così perché molti credono che un’AI ‘possegga’ i dati del training, ossia che letteralmente se li tiri dietro e li porti sempre con sé, così da usarli come riferimento o (peggio ancora) per farne collage. Un po’ come se ChatGPT o simili siano una sorta di Wikipedia di dati collezionati illegalmente. Se fosse così, è ovvio che sarebbe il caso più classico di furto di dati.

Ma le intelligenze artificiali come loro non funzionano così. Su YouTube [3blue1brown ci ha fatto una bella serie di video su](https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi), molto matematica ma accessibile comunque a tutti, e il punto è che… a livello base, questi modelli sono fondamentalmente una funzione matematica. Complicatissima in termini di numero di parametri, certo, ma la forma di questa matematica è molto semplice. È pura algebra lineare, moltiplicazione di matrici e nulla più. ‘Allenare’ una LLM non è né più, né meno che intraprendere un processo matematico per capire che il parametro numero 242.266.909 non doveva essere 0,76 ma… 0,77.

E attenzione, qui non voglio fare una supercazzola del tipo: “Ah ma questo non è il Signore degli Anelli, è solo una sequenza di 0 e di 1 che *casualmente* codifica quel romanzo”. No, non dico questo. Quel modello matematico alla fine è qualcosa a sé stante, che non codifica in alcun modo il materiale di training. Come dicevo, sarebbe assurdo dare un intero batch di nuovo materiale al modello, per ottenere che un singolo parametro cambi da 0,76 a 0,77, e assumere che in quello 0,01 di differenza in qualche modo ***‘ci sia’*** il materiale d’allenamento. Quando scaricate un modello simile sul computer per farlo girare in locale, non state mica downloadando 100TB di roba. In un certo qual senso, la… *magia* dell’AI sta qui: che un modello che, al di là dei miliardi di parametri, ha una forma matematicamente semplice riesca a replicare in maniera tanto buona il linguaggio umano senza che in nessun passaggio faccia mai copia e incolla di alcunché, perché di fatto non ha nulla a sua disposizione.

Ma se le cose stanno così, qui non stiamo *riproducendo* alcunché. Magari *utilizzando*, sì, ai fini di aggiornare i parametri del modello: ma sarebbe come dire che se in edicola prendo in mano One Piece e, dandogli un’occhiata, scorgo qualche miglioria per poter disegnare o scrivere meglio da autore io stesso, e a quel punto l’edicolante mi impone di comprare il volume perché se no sto “rubando”, e poi usassi quella micro-conoscenza per sceneggiare o disegnare qualcosa di migliore da quel punto in poi. Avrebbe senso?
missmobtown says:

2025-01-30 at 21:08

https://www.wheresyoured.at/deep-impact/
Altruistic-Chapter2 says:

2025-01-30 at 21:09

Che mi fa molto ridere. Le società che creano le AI coi loro modelli “etici” (manco per il cazzo) che adesso piangono “perché ci rubbbano i datiii”, quando le loro AI infrangono costantemente il copyright, rovinando l’esperienza su internet e pure inquinando abbestia. Ma va, va…
ts737 says:

2025-01-30 at 21:20

Palesissimo, proprio oggi ho provato a dare lo stesso prompt ad entrambi e hanno risposto usando le stesse parole con la stessa struttura, potevano tranquillamente essere due prompt ripetuti dallo stesso sito
Nicosqualo says:

2025-01-30 at 21:23

Ricordiamoci che, per quanto plausibile, openAI non ha reali prove a parte (1) aver ricevuto molte API calls dalla cina (ma che potrebbe essere anche un altro modello) e (2) che ci sono screenshot in cui deepseek ammette di essere chatgpt, informazione molto inconcludente siccome (a) è comunque disponibile su internet, non è necessariamente proveniente da chatgpt e (b) non sono stato in grado di ottenere lo stesso risultato (quando andava), e non si conosce bene la storia dei prompt che hanno portato a quella risposta (qui potrei sbagliarmi)

Comments are closed.

OpenAI attacca DeepSeek: avrebbe rubato i dati che OpenAI ha usato per Chatgpt

Tags:

11 comments