Ce petit outil open source peut rendre une IA totalement sans filtre

Pour les équipes qui déploient des modèles open source, l’oblitération doit désormais être identifée comme menace au même titre qu’une injection de prompt. La formation approfondie au refus et les tests de robustesse, documentés dans l’étude d’Aretha Abu Shairah et ses collègues apportent des réponses techniques disponibles, mais aucun fournisseur majeur ne les a encore adoptées.

Pour ceux qui utilisent des modèles déjà oblitérés, la responsabilité est explicite : les garde-fous ont été délibérément retirés, et OBLITERATUS le documente noir sur blanc dans sa licence.

Mais ce sont surtout les régulateurs qui ont maille à partir avec à un écart que cet outil met bien en évidence. Les cadres actuels traitent la publication d’un modèle comme la frontière de sécurité pertinente. Or entre un modèle publié avec ses garde-fous et ce même modèle après dix minutes sur Colab, quelle est la règlementation ?

Tags: