L'arrivée de ChatGPT le 30 novembre 2022 a marqué une rupture technologique majeure : en deux mois à peine, l'application a franchi le cap des 100 millions d'utilisateurs, une croissance historique surpassant TikTok ou Instagram. Mais derrière l'engouement pour ces assistants qui boostent la productivité se cache une réalité complexe : un nouveau "Far West" numérique où les capacités des modèles évoluent plus vite que nos défenses.
Cet article, synthèse de la première partie du codelab La Guerre des Prompts : attaques & défenses au royaume des LLM ⚔️🛡️🤖 donnée lors du Devfest 2025, explore les mécanismes de cette révolution, ses failles structurelles et les stratégies pour s'en prémunir.
1. Au cœur de la machine : la révolution Transformer▲
Pour sécuriser une technologie, il faut d'abord la comprendre. Il est crucial de ne pas confondre les termes : l'IA est le domaine global, les réseaux neuronaux en sont une méthode inspirée du cerveau, et les LLM (Large Language Models) sont des réseaux neuronaux spécifiques, entraînés pour comprendre et générer du texte.
La véritable rupture date de 2017 avec l'architecture Transformer proposée par Google Brain. Contrairement aux anciens modèles (RNN, CNN) qui peinaient à retenir le contexte sur de longues séquences, le Transformer utilise un mécanisme d'auto-attention. Cela permet au modèle de pondérer l'importance de chaque mot les uns par rapport aux autres, quelle que soit leur distance dans la phrase, offrant une compréhension fine du contexte et des nuances.
Cette architecture propulse aujourd'hui deux usages majeurs :
- Les Chatbots : conçus pour simuler une conversation naturelle (ex: Service client SNCF, Sephora).
- Les Copilotes : orientés vers l'exécution de tâches et l'aide à la production (ex: GitHub Copilot pour le code, Gemini pour la bureautique).
2. Une surface d'attaque inédite▲
La sécurité des LLM diffère radicalement de la cybersécurité classique. Ici, pas seulement de virus ou de DDoS, mais des manipulations sémantiques. Le LLM n'est jamais isolé : il agit comme un "cerveau" au centre d'une architecture connectée.
Les vecteurs de vulnérabilité▲
L'intégration d'un LLM expose plusieurs frontières critiques :
- l'entrée utilisateur : c'est la porte ouverte aux Prompt Injections, où des instructions malveillantes sont dissimulées dans le langage naturel.
- les services internes (RAG/Plugins) : si le LLM est connecté à vos API ou bases de données, une injection réussie peut lui faire générer des payloads (SQL, commandes) que vos systèmes exécuteront aveuglément.
- les données d'entraînement : le risque d'empoisonnement (data poisoning) existe si les données sources (publiques ou internes) contiennent des biais ou des informations trompeuses.
Le dilemme de l'architecture▲
Le choix du déploiement impacte directement votre posture de sécurité :
- Modèle par API (ex: OpenAI, Bedrock ): simple à mettre en œuvre, mais vos données transitent hors de votre périmètre vers un tiers ("boîte noire").
- Modèle hébergé (On-premise/Cloud privé) : vous gardez le contrôle total des données, mais vous héritez de la lourde responsabilité de maintenance, de mise à jour et de sécurisation du modèle lui-même.
3. Chronique des dérapages : la réalité du risque▲
L'histoire récente prouve que la "sécurité par l'obscurité" ou les simples instructions système ne suffisent pas. Les incidents sont variés et coûteux :
- Détournement commercial : en 2023, un utilisateur a utilisé le prompt injection sur le chatbot d'un concessionnaire Chevrolet pour lui faire valider la vente d'un véhicule neuf pour 1 dollar, créant un accord juridiquement contraignant.
- Responsabilité juridique : en 2024, Air Canada a été condamné par un tribunal après que son chatbot a "halluciné" une politique de remboursement inexistante. Le tribunal a jugé l'entreprise responsable des informations fournies par son IA.
- Discrimination algorithmique : iTutorGroup a dû verser 365 000 $ pour avoir utilisé une IA qui rejetait automatiquement les CV des candidats selon leur âge.
- Corruption du modèle : l'exemple historique de Tay (Microsoft) en 2016, devenue raciste en moins de 24h à cause de l'apprentissage en temps réel sur des interactions toxiques, reste un cas d'école.
4. Structurer la défense : normes et régulations▲
Face à ces menaces, l'improvisation n'est plus permise. Des cadres robustes existent pour structurer votre stratégie de défense.
Les référentiels techniques incontournables▲
- OWASP Top 10 for LLM : la bible de la sécurité IA. Elle catégorise les 10 risques critiques, allant de l'Injection de prompt (LLM01) à la gestion non sécurisée des sorties (LLM05) et aux risques liés à la chaîne d'approvisionnement (LLM03).
- MITRE ATLAS : calqué sur le MITRE ATT&CK, ce référentiel cartographie les tactiques et techniques réelles des attaquants (ex : vol de modèle, évasion), permettant aux équipes SOC d'anticiper les menaces.
- Google SAIF (Secure AI Framework) : un cadre holistique proposé par Google pour intégrer la sécurité dès la conception ("secure by default") à travers les données, l'infrastructure et le modèle.
Le paysage réglementaire▲
La conformité devient un enjeu stratégique avec deux approches mondiales distinctes :
- Union Européenne (AI Act) : une régulation fondée sur les risques. Les systèmes critiques sont strictement encadrés, tandis que les IA génératives (comme les chatbots) sont soumises à des obligations de transparence envers les utilisateurs.
- États-Unis : une approche plus sectorielle qui privilégie la liberté d'expression (Premier Amendement), tout en légiférant sur des abus spécifiques comme les deepfakes (Take It Down Act).
5. Conclusion▲
En conclusion, l'IA générative est un levier de productivité puissant, capable de réduire de 60% le temps de certaines tâches. Cependant, son intégration exige de passer d'une adoption naïve à une adoption maîtrisée, en appliquant rigoureusement les cadres de sécurité comme l'OWASP Top 10 et en surveillant activement les interactions de ces nouveaux "cerveaux" numériques.




