Les deepfakes audio en Afrique de l'Ouest : la nouvelle arme de manipulation politique

Il est sept heures du matin à Cotonou. Avant même d'avoir bu son thé, Kossi, chauffeur de zémidjan, transfère un message vocal de quarante-trois secondes à tous ses groupes WhatsApp. On y entend distinctement la voix d'un homme politique connu appeler ses partisans à "nettoyer les quartiers" avant les élections. Le soir, le politicien publie un démenti. Mais le message, lui, continue de circuler. Les démentis ne se transfèrent pas.

Cette scène est fictive dans ses détails. Elle est vraie dans sa mécanique. Elle se reproduit, sous mille formes, dans presque tous les pays d'Afrique de l'Ouest.

Pour comprendre pourquoi l'Afrique de l'Ouest est un terrain idéal pour la désinformation audio, il faut partir d'une réalité. Celle qu'ici, on s'informe par la voix. La radio reste le premier medium dans les zones rurales. Mais, avec WhatsApp et ses messages vocaux, tout a changé. Pratique, ne nécessitant ni savoir lire ni écrire, parfaitement adapté aux différentes langues locales que les claviers ne savent pas toujours retranscrire, le message vocal est devenu le format d'information dominant.

Le problème, c'est que WhatsApp est aussi une boîte noire. Les messages y sont chiffrés de bout en bout. La modération, déjà insuffisante en français ou en anglais, est quasi inexistante en wolof, en fon, en dioula ou en bambara. Un contenu haineux en anglais a une chance d'être détecté. Le même contenu en mooré peut circuler indéfiniment.

À cela s'ajoute un contexte politique sous tension permanente. Coups d'État au Mali, au Niger, au Burkina Faso. Élections contestées. Transitions incertaines. Dans ce climat, l'information est une arme. Et le faux audio en est la munition la plus efficace.

Dix minutes pour fabriquer un mensonge

La question que tout le monde pose, et qu'il faut poser honnêtement : est-ce vraiment si simple de fabriquer une fausse voix ? Oui. C'est vraiment si simple.

Les outils de clonage vocal fonctionnent par apprentissage automatique. On fournit à l'algorithme quelques secondes d'un enregistrement (une interview, un discours, une vidéo YouTube) et le logiciel reconstitue le timbre, le rythme, les inflexions de cette voix. Il peut ensuite lui faire dire n'importe quoi. Des plateformes comme ElevenLabs ou Murf proposent ces fonctionnalités, certaines gratuitement. Des versions téléchargeables fonctionnent hors connexion, sans laisser de trace.

La matière première ? Elle est partout. Chaque discours public d'un chef d'État, chaque prêche d'un imam diffusé sur les réseaux sociaux est un échantillon potentiel. Les personnalités publiques alimentent elles-mêmes, sans le savoir, leur propre usurpation.

K., vingt-six ans, diplômé en informatique et sans emploi stable, a accepté de témoigner sous couvert d'anonymat. "La première fois, c'était par curiosité. J'ai vu des tutoriels sur YouTube. Le résultat était bluffant. Alors quelqu'un m'a contacté, m'a envoyé des extraits audio d'une personnalité connue, m'a dit quoi faire dire. Il m'a payé l'équivalent d'un mois de loyer." Il dit avoir arrêté après deux missions. "Je ne sais pas ce que ça a provoqué. Je préfère ne pas savoir."

Son portrait n'est pas celui d'un monstre. C'est celui d'un jeune homme ordinaire, compétent, précaire, à qui on a proposé de l'argent pour une tâche technique. Derrière lui, des commanditaires notamment des officines politiques locales, acteurs étrangers dont la présence en Afrique de l'Ouest est documentée par plusieurs rapports de chercheurs indépendants, ou simples individus animés par la conviction ou la vengeance. Dans un contexte où la vérification est difficile et la punition rare, les inhibitions sont faibles.

Pourquoi on y croit. Pourquoi on partage.

La vraie question n'est pas technique. Elle est humaine. Pourquoi croit-on un faux message vocal ? Pourquoi le transfère-t-on avant de l'avoir vérifié ?

Le premier mécanisme est le biais de confirmation. On ne croit pas n'importe quel faux. On croit celui qui confirme ce qu'on pensait déjà. Un enregistrement faisant dire des choses violentes à un adversaire politique sera immédiatement plausible pour ses opposants. Il ne fait que confirmer ce qu'ils soupçonnaient depuis longtemps.

Le deuxième mécanisme est plus spécifique à l'audio. Il s'agit de la familiarité vocale. Nous avons appris à nous méfier des images retouchées. Mais la voix ? Nous lui faisons confiance instinctivement. Quand un timbre familier sort de nos écouteurs, une voix entendue des centaines de fois à la radio, le cerveau n'active pas les mêmes défenses que face à un texte suspect. Il fait confiance.

Le troisième mécanisme est la peur. Les faux audios les plus viraux ne sont jamais ceux qui annoncent de bonnes nouvelles. Ce sont ceux qui annoncent un danger imminent, un scandale, une menace. La peur court-circuite la vérification. Quand on a peur, on avertit d'abord. On vérifie après.

Et pendant ce temps, le message avance. Il quitte la capitale, atteint les villes secondaires, est repris par des radios locales comme "une information qui circule". Quarante-huit heures plus tard, quand le démenti arrive, il est lu par quelques milliers de personnes. Le faux, lui, en a atteint des centaines de milliers.

Des dégâts concrets, souvent invisibles

Les conséquences sont difficiles à chiffrer par nature, la manipulation se fait dans l'ombre. Mais les indices s'accumulent. Africa Check, le principal organisme de fact-checking du continent, a documenté une multiplication des faux contenus audio lors des récents scrutins de la région. Des candidats ont vu leur image détruite par de faux enregistrements lâchés dans les quarante-huit heures précédant le vote, moment où il est presque impossible de rétablir la vérité avant le scrutin. "C'est fait exprès," confie un journaliste d'investigation basé à Abidjan, qui préfère rester anonyme. "Le timing est l'arme principale."

Au-delà des élections, le deepfake audio peut avoir des conséquences physiques. Dans des sociétés où les équilibres intercommunautaires sont fragiles, un faux message attribuant des propos haineux à un leader religieux ou ethnique peut suffire à déclencher des tensions, des déplacements, des violences.

Mais il y a un dommage que les statistiques ne capturent pas bien : l'érosion de la confiance. Stéphane, enseignant de collège, le dit simplement : "Avant, quand j'entendais quelque chose à la radio, je le croyais. Maintenant je me demande toujours si c'est vrai. Comment voulez-vous vivre ensemble si personne ne sait plus quoi croire ?"

Les chercheurs appellent ce phénomène le "dividende du menteur". À force de voir des faux partout, les gens doutent de tout—y compris du vrai. Une personne filmée en train de tenir des propos compromettants peut désormais plaider le deepfake. Le mensonge n'a plus besoin d'être cru pour être utile. Il lui suffit de semer le doute.

Riposter : nécessaire, insuffisant

Des outils de détection existent. Ils analysent les caractéristiques acoustiques d'un enregistrement pour identifier les traces laissées par la génération artificielle. Ils fonctionnent. Mais ils ont un problème fondamental : entraînés sur des voix occidentales, dans des langues européennes, leur performance sur des voix africaines est nettement moins fiable. L'outil conçu pour démasquer un faux discours de Joe Biden peine à analyser un faux discours en fon ou en wolof. L'Afrique, sous-représentée dans les bases de données d'entraînement, paie le prix de cette invisibilité technologique.

Sur le terrain, des hommes et des femmes se battent avec les moyens du bord. Africa Check, Dubawa, et une poignée d'initiatives locales font un travail remarquable et structurellement insuffisant. "On court derrière une voiture avec un vélo," résume avec humour, et sans illusion, un fact-checker béninois. Une équipe de dix personnes ne peut pas vérifier les milliers de contenus douteux qui circulent chaque jour.

La réponse la plus durable n'est pas technologique. Elle est humaine. L'éducation aux médias, apprendre aux citoyens à questionner l'information, à résister au réflexe de partage impulsif est le seul antidote qui tienne sur le long terme. Plusieurs pays de la région ont commencé à intégrer ces modules dans leurs curricula scolaires. C'est lent. Ça se mesure en générations. Et pendant ce temps, les faussaires s'améliorent chaque semaine.

Quant aux États, la tentation est grande de répondre à la désinformation par la restriction. Plusieurs pays ont adopté des lois sur la cybercriminalité qui criminalisent la diffusion de fausses informations. Dans les textes, elles visent les faussaires. Dans la pratique, elles servent parfois à museler des journalistes ou des opposants. La frontière entre lutter contre la désinformation et réprimer la liberté d'expression est mince et elle a déjà été franchie. La bonne réponse n'est pas la censure. C'est la responsabilisation des plateformes, qui ne peuvent plus se présenter comme de simples tuyaux neutres quand leurs algorithmes amplifient des contenus qui fragilisent des démocraties entières.

Il y a quelque chose de particulièrement cruel dans ce que le deepfake audio fait dans cette région du monde. Dans des sociétés où la tradition orale est une fondation culturelle, où la parole d'un sage porte une autorité que l'écrit n'a jamais tout à fait égalée, corrompre la voix, c'est corrompre quelque chose de profond.

Kossi, le chauffeur de zémidjan du début de cet article, a fini par apprendre que le message qu'il avait transféré était un faux. Un ami lui avait envoyé le lien d'un article de fact-checking. Il a haussé les épaules. "Comment j'aurais pu savoir ? Ça ressemblait tellement à lui."

C'est exactement le problème. Et c'est exactement pourquoi il est urgent d'agir avant que la voix devienne définitivement l'instrument le plus fiable du mensonge.

Roméo AGONMADAMI