Xiaomi, que l’on connaît bien pour ses smartphones et ses montres connectées notamment, se lance dans l’IA. Le fabricant chinois a récemment annoncé le lancement de MiDashengLM-7B, un modèle d’intelligence artificielle vocale open source innovant. Ce modèle s’inscrit dans une stratégie ambitieuse visant à démocratiser l’accès à des technologies d’IA performantes, tout en garantissant la confidentialité et la sécurité des données.
MiDashengLM-7B, avec un nom un peu complexe à retenir, se distingue par une architecture dual-core unique, associant l’encodeur audio Dasheng développé par Xiaomi au modèle Qwen2.5-Omni-7B d’Alibaba, offrant ainsi une compréhension audio avancée et polyvalente.
Publicité, votre contenu continue ci-dessous
Publicité
Une architecture dual-core innovante pour une compréhension audio avancée
L’encodeur Dasheng, fruit de plusieurs générations d’optimisation chez Xiaomi, est conçu pour capturer et interpréter une large gamme de signaux sonores, allant de la parole aux bruits ambiants et à la musique. Cette capacité de compréhension audio générale est rare dans l’industrie, où la plupart des modèles se concentrent sur un seul type de signal. Le décodeur Qwen2.5-Omni-7B, quant à lui, apporte une robustesse dans la génération et l’interprétation du langage naturel, permettant une transcription et une analyse sémantique fines.
Cette architecture dual-core permet à MiDashengLM-7B de traiter simultanément différents types de sons, de reconnaître des événements acoustiques complexes et de fournir des réponses contextuelles précises. Par exemple, le modèle peut identifier la source d’une voix, l’environnement d’enregistrement, la langue utilisée, mais aussi détecter des sons anormaux ou des signaux musicaux avec une grande précision.
Sur le plan des performances, MiDashengLM-7B a établi de nouveaux records sur 22 benchmarks publics dédiés à la compréhension audio multimodale. La latence de traitement est réduite à un quart de celle des modèles leaders du secteur, avec un retard du premier token (TTFT) significativement plus faible. Par ailleurs, l’efficacité du débit de données est multipliée par plus de 20 fois comparée aux modèles concurrents, ce qui permet une gestion optimisée des ressources GPU et une meilleure scalabilité.
Publicité, votre contenu continue ci-dessous
Publicité
Ces performances sont le fruit d’une optimisation poussée de l’architecture, incluant des mécanismes efficaces de décodage et une gestion intelligente des ressources matérielles, rendant le modèle adapté à des déploiements embarqués et à grande échelle.
Xiaomi met le focus sur la vie privée
Xiaomi a conçu MiDashengLM-7B avec une forte attention portée à la confidentialité et à la sécurité des données. Contrairement à de nombreux systèmes d’IA vocale qui reposent sur un traitement cloud centralisé, MiDashengLM-7B fonctionne en local sur les appareils des utilisateurs, limitant ainsi les risques liés à la transmission et au stockage des données vocales.
Le modèle est open-source
© LesNumeriques
Le modèle convertit les sons capturés en représentations mathématiques irréversibles, empêchant toute reconstruction ou exploitation malveillante des données audio. Cette méthode garantit que les informations vocales restent protégées, tout en permettant une analyse efficace et en temps réel.
La publication du modèle sous licence Apache 2.0 renforce cette transparence. Elle permet ainsi à la communauté de vérifier, auditer et améliorer le code source.
Quels usages pour cette nouvelle IA ?
Dans l’automobile, le modèle peut être utilisé pour des systèmes de sécurité avancés, par exemple la détection en temps réel de sons anormaux (comme le bris d’une vitre ou une alarme), la reconnaissance vocale pour les commandes de navigation ou de divertissement, et la surveillance de l’environnement sonore du véhicule. Ces fonctionnalités améliorent la sécurité passive et active, tout en offrant une expérience utilisateur plus intuitive.
Dans la maison intelligente, MiDashengLM-7B permet des fonctionnalités telles que le réveil avancé basé sur la détection de sons spécifiques, la surveillance continue des bruits anormaux (par exemple, une intrusion ou un incident domestique), et le contrôle gestuel ou vocal des appareils IoT. Le modèle peut aussi contribuer à des systèmes de sécurité intégrés, combinant détection audio et vidéo.
Enfin, dans les appareils audio personnels, comme les enceintes intelligentes ou les casques, MiDashengLM-7B améliore la reconnaissance vocale, la transcription automatique, et l’analyse musicale, offrant ainsi une expérience utilisateur plus riche et personnalisée.
MiDashengLM-7B bientôt dans nos maisons ?
Il faudra toutefois attendre encore un peu avant de profiter de la nouvelle IA de Xiaomi dans nos maisons. En effet, le lancement s’effectue d’abord en Chine, avant un potentiel lancement mondial, dont nous n’avons pas encore plus de détails à l’heure actuelle. Quoi qu’il en soit, cette nouvelle IA pourrait être lancée sur des enceintes connectées de Xiaomi.
Publicité, votre contenu continue ci-dessous
Publicité
Envie de faire encore plus d’économies ? Découvrez nos codes promo sélectionnés pour vous.