Förhoppningarna om en mer exakt och användbar Siri vilar just nu till stor del på en kortsiktig lösning: Apples nya samarbete med Google, där Gemini ska användas för att stärka företagets egna AI-funktioner. På längre sikt pekar dock en ny forskningsrapport på en metod som skulle kunna göra Siri snabbare helt på Apples egna villkor.
Artikeln, “Principled Coarse-Grained Acceptance for Speculative Decoding in Speech”, har skrivits av fem forskare verksamma vid Apple och Tel Aviv University och publicerades i slutet av förra månaden (via 9to5Mac). I studien presenterar forskarna en ny metod som enligt dem kan “påskynda genereringen av tal-tokens samtidigt som talets kvalitet bibehålls”.
Nyckeln till ökad hastighet är, enligt forskarna, att undvika onödig precision. “För tal-LLM:er som genererar akustiska token”, skriver de, “är exakt tokenmatchning alltför restriktiv: många diskreta token är akustiskt eller semantiskt utbytbara, vilket sänker acceptansgraden och begränsar hastigheten.” Med andra ord spelar det vid en viss likhetsnivå ingen praktisk roll vilket av två möjliga tal-tokens som väljs, eftersom de låter eller betyder i stort sett samma sak. Att ändå försöka avgöra exakt vilket som är “rätt” blir då ett slöseri med tid och beräkningsresurser.
Den föreslagna lösningen är att gruppera akustiskt liknande token.
“Vi föreslår Principled Coarse-Graining (PCG), ett ramverk som ersätter exakt tokenmatchning med verifiering på gruppnivå”, förklarar forskarna. “Vi konstruerar Acoustic Similarity Groups (ASG) i målmodellens token-inbäddningsutrymme, som fångar den interna organisationen av semantisk och akustisk likhet. PCG utför spekulativ sampling på den grovkorniga fördelningen över ASG och använder avvisningssampling på gruppnivå.”
Enligt forskarna leder metoden till tydligt högre hastighet utan att tillförlitligheten försämras nämnvärt. I experimenten (se sidan 4 i artikeln) sjunker noggrannheten något när antalet token per sekund ökar, men betydligt mindre än vid traditionell spekulativ avkodning.
Artikeln är tekniskt avancerad, men relativt kort. Läs hela artikeln i pdf-format.
Den här artikeln är ursprungligen från vår systerpublikation Macworld och översattes från engelska.