Intelligence artificielle

Embedding

[01]

En clair

Définition vulgarisée

Représentation numérique (vecteur de nombres) d'un mot, d'une phrase ou d'un document. Permet à un ordinateur de mesurer la similarité sémantique : deux textes proches en sens auront des vecteurs proches.

[02]

Pour aller plus loin

Détail technique

Un embedding transforme un texte en un vecteur de 256 à 3072 dimensions (selon le modèle). Les modèles d'embedding (OpenAI text-embedding-3-large, Voyage AI, Cohere embed-multilingual, Mistral embed) sont des réseaux de neurones entraînés à projeter le langage dans un espace vectoriel où la distance reflète la similarité de sens. Usage principal : la recherche sémantique (RAG) et le clustering thématique. Calcul de similarité : produit scalaire ou cosine similarity (entre -1 et 1, plus proche de 1 = plus similaire).

[03]

Exemple concret

Cas business

Pour rechercher dans une base de 10'000 articles de FAQ, on calcule les embeddings de chaque article (offline), puis à chaque question utilisateur on calcule l'embedding de la question et on retourne les 5 articles les plus proches. Recherche sémantique vs recherche par mots-clés : trouve les bons résultats même avec une formulation différente.

[04]

Piège à éviter

Erreur fréquente

Les modèles d'embedding ont des contextes limités (souvent 8K tokens). Un long document doit être chunké avant embedding. Le choix entre modèle dense (sémantique) et modèle sparse (mots-clés type BM25) impacte la qualité.

Besoin d'un avis concret sur Embedding pour votre PME ?

On a déployé Embedding en interne avant de le proposer à nos clients. Discutons de votre cas en 30 minutes.