A me sembrano in primis paraculi, perché se non sono fondamentali, allora possono escluderli e siamo a posto. È come se io rubassi 10 euro e poi mi giustificassi sostenendo che non sono essenziali per le mie finanze.
Inoltre è evidenzia ancora di più come l’attuale sistema del Copyright sia inutile ed inefficace, ma loro che sono grossi, hanno soldi ed avvocati posso permettersi di fare quello che io non posso.
Che risposta del cazzo. Allora escludiamo qualsiasi cosa protetta da Copyright da Chatgpt, e vediamo quanto va avanti senza.
“Va bene, bravo. Noi condividiamo. Ma ora siamo davanti alla corte d’assise e lei è imputato di sedici omicidi, allora vorrei ricordarle che di questo si deve occupare signor Altman”
Ah si il famoso gne gne gne, masterful defense strategy sir. Il problema è che probabilmente funzionerà, perché tanto in USA c’hanno il ricettario del leccare gli stivali.
Considerando la mole di dati ingerita da ChatGPT probabilmente i contenuti del New York Times sono effettivamente trascurabili, però rimuoverli non significherebbe dovere ri-allenare tutto il modello senza questi contenuti?
Inoltre questo potrebbe impostare un precedente perché allora tutti i contenuti coperti da copyright non possono essere utilizzati e questo potrebbe essere problematico.
>”Sembra che il Times abbia intenzionalmente manipolato i suggerimenti, spesso includendo lunghi estratti di articoli, al fine di far rigurgitare il nostro modello”. E dunque il giornale non racconterebbe tutta la storia, ma solo una parte: “I nostri sistemi in genere non si comportano nel modo in cui sostiene il New York Times, e questo fa pensare che abbiano istruito il modello a rigurgitare o hanno scelto i loro esempi tra molti tentativi”, si legge nel post.
Al di là del discorso copyright/titolo dell’articolo, questa parte è abbastanza interessante se vera.
> We had explained to The New York Times that, like any single source, their content didn’t meaningfully contribute to the training of our existing models and also wouldn’t be sufficiently impactful for future training
Interessante, tutto cio’ che so sui LLM mi fa pensare che questa cosa non sia vera. Qualcuno di piu esperto puo illuminarmi ?
I modelli LLM sono un problema enorme per il diritto d’autore, non mi sorprenderebbe se venissero pesantemente ridimensionati nel futuro.
9 comments
“Trust me bro”
[Comunicato ufficiale](https://openai.com/blog/openai-and-journalism) in inglese.
A me sembrano in primis paraculi, perché se non sono fondamentali, allora possono escluderli e siamo a posto. È come se io rubassi 10 euro e poi mi giustificassi sostenendo che non sono essenziali per le mie finanze.
Inoltre è evidenzia ancora di più come l’attuale sistema del Copyright sia inutile ed inefficace, ma loro che sono grossi, hanno soldi ed avvocati posso permettersi di fare quello che io non posso.
Che risposta del cazzo. Allora escludiamo qualsiasi cosa protetta da Copyright da Chatgpt, e vediamo quanto va avanti senza.
“Va bene, bravo. Noi condividiamo. Ma ora siamo davanti alla corte d’assise e lei è imputato di sedici omicidi, allora vorrei ricordarle che di questo si deve occupare signor Altman”
Ah si il famoso gne gne gne, masterful defense strategy sir. Il problema è che probabilmente funzionerà, perché tanto in USA c’hanno il ricettario del leccare gli stivali.
Considerando la mole di dati ingerita da ChatGPT probabilmente i contenuti del New York Times sono effettivamente trascurabili, però rimuoverli non significherebbe dovere ri-allenare tutto il modello senza questi contenuti?
Inoltre questo potrebbe impostare un precedente perché allora tutti i contenuti coperti da copyright non possono essere utilizzati e questo potrebbe essere problematico.
>”Sembra che il Times abbia intenzionalmente manipolato i suggerimenti, spesso includendo lunghi estratti di articoli, al fine di far rigurgitare il nostro modello”. E dunque il giornale non racconterebbe tutta la storia, ma solo una parte: “I nostri sistemi in genere non si comportano nel modo in cui sostiene il New York Times, e questo fa pensare che abbiano istruito il modello a rigurgitare o hanno scelto i loro esempi tra molti tentativi”, si legge nel post.
Al di là del discorso copyright/titolo dell’articolo, questa parte è abbastanza interessante se vera.
> We had explained to The New York Times that, like any single source, their content didn’t meaningfully contribute to the training of our existing models and also wouldn’t be sufficiently impactful for future training
Interessante, tutto cio’ che so sui LLM mi fa pensare che questa cosa non sia vera. Qualcuno di piu esperto puo illuminarmi ?
I modelli LLM sono un problema enorme per il diritto d’autore, non mi sorprenderebbe se venissero pesantemente ridimensionati nel futuro.