{"id":25695,"date":"2025-08-03T10:15:13","date_gmt":"2025-08-03T10:15:13","guid":{"rendered":"https:\/\/www.europesays.com\/it\/25695\/"},"modified":"2025-08-03T10:15:13","modified_gmt":"2025-08-03T10:15:13","slug":"i-milioni-di-libri-piratati-per-le-intelligenze-artificiali","status":"publish","type":"post","link":"https:\/\/www.europesays.com\/it\/25695\/","title":{"rendered":"I milioni di libri piratati per le intelligenze artificiali"},"content":{"rendered":"<p>Caricamento player<\/p>\n<p>Questa settimana Meta ha iniziato a introdurre anche in Europa, Italia compresa, il proprio assistente Meta AI con sistemi di intelligenza artificiale basati su Llama 3, il suo modello linguistico pi\u00f9 recente per generare testi e altri contenuti. La societ\u00e0 <a href=\"https:\/\/about.fb.com\/news\/2025\/03\/europe-meet-your-newest-assistant-meta-ai\/\" rel=\"nofollow noopener\" target=\"_blank\">dice<\/a> che l\u2019assistente sar\u00e0 disponibile all\u2019interno delle chat di Instagram, WhatsApp e Facebook, per organizzare meglio le conversazioni, ottenere informazioni e produrre nuovi contenuti. L\u2019annuncio \u00e8 arrivato negli stessi giorni in cui sono stati diffusi documenti su una causa legale negli Stati Uniti per presunta violazione del copyright da parte di Meta, proprio per sviluppare i suoi sistemi di intelligenza artificiale come Llama 3.<\/p>\n<p>I modelli linguistici <a href=\"https:\/\/www.ilpost.it\/2023\/05\/10\/intelligenza-artificiale-chatgpt-deep-learning\/\" rel=\"nofollow noopener\" target=\"_blank\">vengono \u201callenati\u201d<\/a> su enormi quantit\u00e0 di documenti, come libri, articoli e lavori accademici, per migliorare la loro capacit\u00e0 di produrre testi e di farlo nel modo pi\u00f9 naturale possibile. Le aziende come Meta \u2013 ma anche Google e OpenAI col suo ChatGPT \u2013 attingono soprattutto dalle biblioteche online, spesso senza chiedere l\u2019esplicito permesso agli editori, sostenendo che l\u2019impiego di quei dati rientri nel fair use (utilizzo equo) e quindi nella possibilit\u00e0 di impiegare liberamente il materiale protetto dal diritto d\u2019autore. Le societ\u00e0 sostengono che i loro sistemi producono testi nuovi, senza riproporre alla lettera quelli di partenza, <a href=\"https:\/\/www.ilpost.it\/2024\/10\/07\/copyright-immagini-intelligenza-artificiale-arte\/\" rel=\"nofollow noopener\" target=\"_blank\">quindi senza violazioni del copyright<\/a>. Molti editori e autori ritengono che le cose stiano diversamente e nel tempo hanno avviato <a href=\"https:\/\/www.ilpost.it\/2023\/12\/27\/il-new-york-times-ha-accusato-openai-e-microsoft-di-aver-usato-illecitamente-materiale-protetto-da-copyright\/\" rel=\"nofollow noopener\" target=\"_blank\">diverse cause legali<\/a> contro i principali sviluppatori di sistemi di intelligenza artificiale.<\/p>\n<p>Nel caso di Meta, una <a href=\"https:\/\/storage.courtlistener.com\/recap\/gov.uscourts.cand.415175\/gov.uscourts.cand.415175.482.0.pdf\" rel=\"nofollow noopener\" target=\"_blank\">causa avviata in California<\/a> sta offrendo la possibilit\u00e0 di vedere come la societ\u00e0 abbia gestito sia le decisioni legate all\u2019impiego di testi protetti dal diritto d\u2019autore, sia il modo in cui ottenerli. La societ\u00e0 stava lavorando a Llama 3 con una certa urgenza per rendersi pi\u00f9 competitiva con OpenAI, diventata famosa grazie al suo ChatGPT, e in quel contesto impiegati e dirigenti di Meta avevano iniziato a valutare la possibilit\u00e0 di ottenere libri e articoli accademici in licenza, quindi pagando autori ed editori. Non era per\u00f2 una possibilit\u00e0 che piaceva a tutti, sia per la prospettiva di dover spendere molto, sia per il rischio di dover risolvere numerose questioni pratiche e legali con lunghi tempi per la consegna dei documenti da utilizzare per l\u2019allenamento di Llama 3.<\/p>\n<p>Uno dei responsabili dello sviluppo del sistema scrisse ai propri colleghi: \u00abIl problema \u00e8 che la gente non si rende conto che se prendiamo in licenza un singolo libro, non potremo poi orientare la questione sul fair use\u00bb, perch\u00e9 a quel punto la societ\u00e0 avrebbe ammesso nella pratica che pagare gli editori sarebbe stato pi\u00f9 equo e corretto, creando un precedente. Lo stesso manager chiar\u00ec in seguito che \u00ab\u00e8 molto importante avere i libri il prima possibile, [\u2026] i libri sono molto pi\u00f9 importanti dei generici dati sul Web\u00bb.<\/p>\n<p>Fu a quel punto, stando ai documenti della causa e a una <a href=\"https:\/\/www.theatlantic.com\/technology\/archive\/2025\/03\/libgen-meta-openai\/682093\/\" rel=\"nofollow noopener\" target=\"_blank\">ricostruzione<\/a> fatta dall\u2019Atlantic, che alcuni impiegati di Meta valutarono la possibilit\u00e0 di utilizzare LibGen (da \u201cLibrary Genesis\u201d), una delle pi\u00f9 grandi <a href=\"https:\/\/www.ilpost.it\/2022\/11\/04\/z-library-scaricare-ebook-bloccato\/\" rel=\"nofollow noopener\" target=\"_blank\">biblioteche non autorizzate<\/a> su Internet che raccoglie milioni di libri e di studi accademici, una sorta di Pirate Bay, ma solo per i contenuti testuali. Se avessero attinto da quella biblioteca, avrebbero potuto accelerare il lavoro di raccolta e analisi dei test, rendendo pi\u00f9 spedito l\u2019allenamento di Llama 3. Il gruppo di lavoro ricevette il permesso di utilizzare LibGen da un responsabile citato nelle conversazioni come \u201cMZ\u201d, le stesse iniziali del CEO di Meta, Mark Zuckerberg.<\/p>\n<p>Da altri documenti processuali, era <a href=\"https:\/\/www.theguardian.com\/books\/2023\/jul\/05\/authors-file-a-lawsuit-against-openai-for-unlawfully-ingesting-their-books\" rel=\"nofollow noopener\" target=\"_blank\">emerso<\/a> in passato che anche OpenAI aveva attinto da LibGen, sempre giustificando l\u2019utilizzo di quei dati con il fair use e respingendo quindi le accuse di avere violato il diritto d\u2019autore. La difesa secondo cui i modelli linguistici \u201ctrasformano\u201d i testi generandone di nuovi, senza plagiare i contenuti di partenza, \u00e8 molto dibattuta e continuer\u00e0 a essere al centro di molte iniziative legali, ma i documenti della causa contro Meta mostrano che c\u2019\u00e8 probabilmente dell\u2019altro.<\/p>\n<p>Scaricare libri e altri contenuti da LibGen in grandi quantit\u00e0 implica l\u2019utilizzo di BitTorrent, un protocollo per lo scambio e la condivisione dei file online di tipo peer-to-peer. Solitamente, chi scarica un contenuto in questo modo contribuisce automaticamente anche alla sua condivisione, cos\u00ec che possa essere trovato e scaricato anche da qualcun altro. Il sistema \u00e8 decentralizzato (cio\u00e8 coinvolge direttamente i computer di chi condivide i file) ed \u00e8 di per s\u00e9 lecito, ma diventa illegale nel momento in cui si distribuiscono contenuti protetti dal diritto d\u2019autore.<\/p>\n<p>Scaricando i testi trovati su LibGen, Meta potrebbe averli anche condivisi, violando il copyright. La societ\u00e0 sostiene di avere preso le precauzioni del caso per evitare questa circostanza e dice che non ci sono prove che sia successo altrimenti, ma i documenti della causa legale mostrano che almeno inizialmente c\u2019erano dubbi e incertezze tra i dipendenti.<\/p>\n<p>Come segnala sempre l\u2019Atlantic, un impiegato consigli\u00f2 di rimuovere dal materiale scaricato \u00abi dati chiaramente segnati come piratati\/rubati\u00bb e invit\u00f2 i colleghi a \u00abnon citare all\u2019esterno l\u2019uso di dati per l\u2019allenamento inclusi quelli ottenuti tramite LibGen\u00bb. Fu anche proposto di rimuovere ogni riferimento al diritto d\u2019autore dalle opere scaricate e anche il loro ISBN, il codice internazionale di catalogazione dei prodotti editoriali. Un impiegato scrisse in una comunicazione che \u00abscaricare i torrent da un computer aziendale non mi sembra una buona idea\u00bb, mentre un altro sugger\u00ec di inserire alcuni limiti dentro Llama 3 in modo che si rifiutasse di rispondere a specifiche richieste come \u201cRiproduci le prime tre pagine di Harry Potter e la pietra filosofale\u201d, cosa che avrebbe dimostrato l\u2019impiego diretto di quei testi non solo nel processo di allenamento, ma anche di produzione delle risposte.<\/p>\n<p>LibGen esiste dal 2008 e fu creata in Russia con l\u2019obiettivo di rendere pi\u00f9 accessibili soprattutto le ricerche accademiche, quasi sempre pubblicate da riviste scientifiche per le quali \u00e8 necessario pagare un abbonamento online. Secondo i suoi fondatori questo sistema ostacola la libera circolazione della conoscenza, specialmente a svantaggio di chi fa ricerca nei paesi pi\u00f9 poveri e non pu\u00f2 permettersi gli abbonamenti. Il sistema \u00e8 una sorta di grande motore di ricerca, che permette poi di arrivare ai file veri e propri tramite BitTorrent o altri sistemi di condivisione. Periodicamente viene bloccato per violazione del copyright, ma come spesso avviene con questo tipo di risorse ricompare online con un nuovo indirizzo e il suo intero catalogo.<\/p>\n<p>Nel 2017 Elsevier, una delle pi\u00f9 grandi case editrici di riviste scientifiche e accademiche, <a href=\"https:\/\/www.nature.com\/articles\/nature.2017.22196\" rel=\"nofollow noopener\" target=\"_blank\">prov\u00f2<\/a> a far bloccare LibGen e altre biblioteche non autorizzate simili. Un tribunale degli Stati Uniti impose la chiusura dei siti e il pagamento di risarcimenti da svariati milioni di dollari. Nel 2023 avvenne qualcosa di <a href=\"https:\/\/www.theguardian.com\/books\/2023\/sep\/15\/four-large-us-publishers-sue-shadow-library-for-alleged-copyright-infringement\" rel=\"nofollow noopener\" target=\"_blank\">simile<\/a> con una causa avviata da alcuni importanti editori statunitensi come Macmillan e McGraw-Hill. In entrambi i casi i risarcimenti non furono mai pagati e fu sostanzialmente impossibile bloccare LibGen e i suoi simili.<\/p>\n<p>I cataloghi di queste biblioteche non autorizzate sono sterminati e questo probabilmente spiega perch\u00e9 siano cos\u00ec ambite da alcune delle societ\u00e0 che sviluppano modelli linguistici. La loro offerta varia di continuo e soprattutto comprende buona parte dei libri appena pubblicati, dando quindi la possibilit\u00e0 di aggiornare e arricchire i sistemi di allenamento per le intelligenze artificiali. \u00c8 per\u00f2 molto difficile, se non impossibile, ricostruire quali parti di LibGen siano state utilizzate da Meta o da OpenAI per lo sviluppo dei loro sistemi, anche se altri elementi potrebbero emergere dai documenti legati alle cause per la violazione del copyright.<\/p>\n<p>Prima di diventare disponibile in Europa, l\u2019assistente di Meta AI era gi\u00e0 stato utilizzato da centinaia di milioni di persone negli Stati Uniti e in altri paesi in giro per il mondo. Nell\u2019Unione Europea la diffusione del sistema era stata ritardata non tanto per questioni legate al diritto d\u2019autore, ma per verificare che l\u2019assistente rispettasse le regole sulla tutela della privacy e dei dati degli utenti, pi\u00f9 stringenti per i cittadini europei.<\/p>\n","protected":false},"excerpt":{"rendered":"Caricamento player Questa settimana Meta ha iniziato a introdurre anche in Europa, Italia compresa, il proprio assistente Meta&hellip;\n","protected":false},"author":3,"featured_media":25696,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1445],"tags":[1608,203,204,1537,90,89,1609],"class_list":{"0":"post-25695","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-libri","8":"tag-books","9":"tag-entertainment","10":"tag-intrattenimento","11":"tag-it","12":"tag-italia","13":"tag-italy","14":"tag-libri"},"share_on_mastodon":{"url":"","error":""},"_links":{"self":[{"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/posts\/25695","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/comments?post=25695"}],"version-history":[{"count":0,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/posts\/25695\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/media\/25696"}],"wp:attachment":[{"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/media?parent=25695"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/categories?post=25695"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/tags?post=25695"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}