Pipeline de synthèse longue conversation
Cadrage du sujet du jour
La journée a été consacrée à l’arbitrage d’une stratégie de synthèse de textes et conversations très longues pour un usage exploitable dans une chaîne d’IA documentaire et d’assistance d’entreprise. Le travail ne s’est pas limité à comparer des modèles : il a consisté à structurer une approche réaliste, soutenable en coût, et compatible avec une logique de mémoire durable.
Choix de modèles selon l’usage
Un premier tri a permis de distinguer clairement les modèles selon leur rôle :
- Pour la qualité de synthèse sur très gros volumes :
- Gemini 2.5 Pro pour sa grande fenêtre de contexte
- GPT-5.2 Thinking / GPT-5.4 pour la fidélité, la structuration et la qualité de restitution
- Claude Opus 4.6 pour la lisibilité et la nuance rédactionnelle
- Pour une extraction économique :
- Gemini 2.5 Flash-Lite comme option la plus frugale
- Gemini 2.5 Flash comme compromis coût / performance
- DeepSeek V3.x et Qwen 2.5 72B retenus comme alternatives crédibles pour l’extraction structurée par blocs
Décision d’architecture
L’arbitrage principal du jour est le suivant : éviter le résumé global monolithique au profit d’un pipeline en plusieurs étapes :
- découpage en blocs,
- extraction structurée par bloc,
- fusion et déduplication,
- passe finale de consolidation.
La consigne a été reformulée en conséquence : demander au modèle une extraction d’idées fortes plutôt qu’un résumé narratif. Les catégories retenues sont notamment : idées principales, décisions, contraintes, faits clés, actions et questions ouvertes, avec une sortie JSON stricte.
Maîtrise des coûts et mémoire utile
Un second axe important a porté sur la réduction des coûts de mémorisation continue :
- ne pas résumer systématiquement tous les échanges ;
- filtrer d’abord les messages pour ne conserver que les éléments durables ;
- privilégier l’extraction des messages utilisateur ;
- déclencher la mémoire sur événements significatifs ;
- séparer contexte récent brut, mémoire durable compacte et archives complètes accessibles via RAG.
Le pipeline cible repose donc sur une chaîne sobre : règles locales → fragments candidats → déduplication → appel LLM minimal → stockage atomique.
Prolongement du chantier
Ce travail prolonge directement la consolidation d’OpenWebUI et de la chaîne documentaire du mois : l’enjeu n’est plus seulement de disposer d’une interface ou d’un RAG, mais de fiabiliser la manière dont l’information conversationnelle utile est extraite, capitalisée et réutilisée. À l’échelle annuelle, cela renforce la construction d’un socle d’IA d’entreprise souverain, capable de transformer des échanges bruts en connaissance exploitable, sans dérive de coût ni perte de contrôle.