
Détectez les articles dont le contenu est trop similaire pour éviter les doublons sur votre site.
Chaque article est converti en un vecteur numérique de 1 536 dimensions par le modèle text-embedding-3-small d'OpenAI. Ce vecteur capture le sens sémantique du contenu, indépendamment des mots exacts utilisés. Deux articles traitant du même sujet avec des formulations différentes seront détectés comme proches, ce qu'une comparaison mot à mot ne permettrait pas.
La similarité entre deux articles est calculée par la similarité cosinus entre leurs vecteurs : un score de 1,0 signifie un contenu identique, un score de 0,0 signifie des contenus sans rapport. Les vecteurs sont stockés en base de données et ne sont recalculés que lors de la création ou de la modification d'un article.
| Plage de score | Interprétation | Action recommandée |
|---|---|---|
| Moins de 65 % | Articles distincts | Aucune action |
| 65 % – 80 % | Thèmes proches, angles différents | Relecture conseillée |
| 80 % – 90 % | Contenu largement redondant | Fusion ou suppression |
| Plus de 90 % | Quasi-doublon | Suppression immédiate |
Toute paire d'articles dont la similarité sémantique dépasse ce seuil est signalée. À 75 %, le système détecte les redondances réelles tout en ignorant les articles qui abordent simplement le même domaine thérapeutique.
Analyser également les articles non publiés
Configurez les paramètres ci-dessus et cliquez sur "Lancer l'analyse" pour détecter les articles similaires dans votre base de données.