Amélioration majeure du système RAG avec diversification par auteur
## Nouvelles fonctionnalités ### 1. Recherche RAG avec diversification par auteur (flask_app.py) - Fonction `diverse_author_search()` : agrégation intelligente par auteur - Résout le problème de biais corpus (auteurs prolifiques vs peu représentés) - Allocation adaptative : * 1 auteur → jusqu'à 25 chunks pour contexte riche * 2-3 auteurs → distribution équitable (12 chunks/auteur) * 4+ auteurs → limitation à 3 chunks/auteur pour diversité - Pool initial de 200 chunks pour identifier tous les auteurs pertinents ### 2. Re-ranking LLM amélioré (flask_app.py) - Prompt ultra-strict : force réponse sans markdown ni explications - Parsing robuste : nettoie markdown (**texte**, __texte__) - Fallback intelligent : garde tous les chunks si re-ranking trop strict (<50%) - Logs détaillés des chunks exclus pour debugging ### 3. Interface utilisateur améliorée (chat.html) - **Accordéon pour chunks RAG** : expansion/collapse avec chevron - **Reformulation avec choix utilisateur** : * Endpoint `/chat/reformulate` séparé * Affichage côte-à-côte (originale vs reformulée) * Boutons de sélection avant lancement RAG * Badge "✓ Utilisée" sur version choisie - **Layout full-width** : 60% conversation / 40% contexte RAG - **Sidebar navigation** : menu hamburger avec overlay ### 4. Logs et debugging - Logs détaillés à chaque étape du pipeline - Affichage des auteurs trouvés et scores moyens - Liste des chunks exclus par re-ranking avec extraits ## Améliorations techniques - Reformulation expansive 4-6 lignes (concepts, filiations, contextes) - Re-ranking avec minimum 8 chunks garantis - Gestion des modèles GPT-5.x et o1 (max_completion_tokens) - Prompts optimisés pour réponses longues (500-800 mots) 🤖 Generated with Claude Code (https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
This commit is contained in:
2039
generations/library_rag/flask_app.py
Normal file
2039
generations/library_rag/flask_app.py
Normal file
File diff suppressed because it is too large
Load Diff
1171
generations/library_rag/templates/chat.html
Normal file
1171
generations/library_rag/templates/chat.html
Normal file
File diff suppressed because it is too large
Load Diff
Reference in New Issue
Block a user