Marti, 07 Octombrie 2025, ora 23:31

468 citiri

Huawei a prezentat o inovație legată de inteligența artificială avansată. Noua tehnică, denumită SINQ (Sinkhorn-Normalized Quantization), promite să reducă masiv cerințele de memorie ale modelelor lingvistice mari (LLM), permițând rularea lor pe hardware mult mai ieftin, chiar și pe un singur GPU de gaming.

Concepută pentru a fi rapidă, fără calibrare și ușor de integrat, tehnologia este complet open source, disponibilă pe GitHub și Hugging Face sub licență Apache 2.0, ceea ce înseamnă că poate fi folosită, modificată și comercializată liber de orice organizație.

Cum reușește SINQ să micșoreze modelele AI fără pierderi de performanță

Potrivit cercetătorilor Huawei, SINQ reduce utilizarea memoriei cu 60–70%, în funcție de arhitectura modelului. Practic, un model care înainte necesita peste 60 GB RAM poate rula acum cu doar 20 GB, suficient pentru o placă Nvidia RTX 4090 (~1.600 USD), în locul soluțiilor enterprise precum A100 80GB (19.000 USD) sau H100 (peste 30.000 USD).

Reducerea consumului de memorie are impact direct și asupra costurilor din cloud: o instanță cu A100 costă 3–4,5 USD/oră, în timp ce una cu GPU de 24 GB se închiriază cu 1–1,5 USD/oră. În scenarii de inferență continuă, economiile pot ajunge la mii de dolari lunar.

Testată pe modele precum Qwen3, LLaMA și DeepSeek, tehnica a demonstrat o scădere constantă a perplexității, adică o îmbunătățire a acurateței predicției limbajului. Mai mult, SINQ funcționează și cu scheme de cuantizare neuniforme (NF4), iar în combinație cu metode de calibrare precum AWQ, dă naștere versiunii A-SINQ, care apropie performanța de cea a modelelor cu precizie maximă.

garsoniere de vanzare bucuresti

Ți-a plăcut articolul?

Vrem să producem mai multe, însă avem nevoie de susținerea ta. Orice donație contează pentru jurnalismul independent