linear-coding-agent

Author	SHA1	Message	Date
David Blanc Brioir	b928352e36	Fix: Appel correct à ingest_document() pour Word Corrections finales word_pipeline.py: 1. Signature ingest_document() corrigée: AVANT: - document_source_id=doc_name ❌ (paramètre inexistant) APRÈS: - doc_name=doc_name - metadata=metadata - language=metadata.get("language", "unknown") - toc=toc_flat - hierarchy=None # Word n'a pas de hiérarchie page - pages=0 # Word n'a pas de pages 2. Message callback corrigé: AVANT: - ingestion_result.get('chunks_ingested', 0) ❌ (champ inexistant) APRÈS: - ingestion_result.get('count', 0) ✅ (champ réel) Test réussi complet: ✅ 48 paragraphes extraits ✅ 2 headings détectés ✅ 37 chunks créés ✅ 37 chunks nettoyés ✅ 37 chunks validés ✅ 37 chunks ingérés dans Weaviate ✅ Coût OCR: €0.0000 (pas d'OCR pour Word!) ✅ Document indexé et recherchable Le pipeline Word est maintenant 100% fonctionnel de bout en bout. 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-30 22:49:13 +01:00
David Blanc Brioir	0800f74bd7	Fix: clean_chunk attend str, pas dict Problème: - Erreur: "expected string or bytes-like object, got 'dict'" - À l'étape "Chunk Cleaning", on passait chunk (dict) au lieu de chunk["text"] (str) Correction word_pipeline.py (ligne 434): AVANT: ```python cleaned = clean_chunk(chunk) # chunk est un dict! ``` APRÈS: ```python text: str = chunk.get("text", "") cleaned_text = clean_chunk(text, use_llm=False) if is_chunk_valid(cleaned_text, min_chars=30, min_words=8): chunk["text"] = cleaned_text cleaned_chunks.append(chunk) ``` Pattern copié depuis pdf_pipeline.py:765-771 où la même logique extrait le texte, le nettoie, puis met à jour le dict. Test réussi: ✅ 48 paragraphes extraits ✅ 37 chunks créés ✅ Nettoyage OK ✅ Validation OK ✅ Pipeline complet fonctionnel avec Mistral API 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-30 22:39:41 +01:00
David Blanc Brioir	19713f22d6	Fix: Pipeline Word + UI simplifiée pour upload Corrections word_pipeline.py: - Gestion robuste des erreurs LLM (fallback vers métadonnées Word) - Correction: s["section_type"] -> s.get("type") pour classification - Correction: "section_type" -> "type" dans fallback (use_llm=False) - Ajout try/except pour extract_metadata avec fallback automatique - Métadonnées Word utilisées si LLM échoue ou retourne None Refonte upload.html (interface simplifiée): - UI claire avec 2 options principales (LLM + Weaviate) - Options PDF masquées automatiquement pour Word/Markdown - Encart vert "Fichier Word détecté" s'affiche automatiquement - Encart orange "Fichier Markdown détecté" ajouté - Options avancées repliables (<details>) - Pipeline adaptatif selon le type de fichier - Support .md ajouté (oublié dans version précédente) Problème résolu: ❌ AVANT: Trop d'options partout, confus pour l'utilisateur ✅ APRÈS: Interface simple, 2 cases à cocher, reste pré-configuré Usage recommandé: 1. Sélectionner fichier (.pdf, .docx, .md) 2. Les options s'adaptent automatiquement 3. Cliquer sur "🚀 Analyser le document" 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-30 22:34:28 +01:00
David Blanc Brioir	4823fd1b10	Fix: Gestion robuste des valeurs None dans .lower() Problème: - AttributeError: 'NoneType' object has no attribute 'lower' - Se produisait quand section.get("title") retournait None au lieu de "" Corrections: - llm_classifier.py: * is_excluded_section(): (section.get("title") or "").lower() * filter_indexable_sections(): (s.get("chapterTitle") or "").lower() * validate_classified_sections(): Idem pour chapter_title et section_title - llm_validator.py: * apply_corrections(): Ajout de vérification "if title and ..." - llm_chat.py: * call_llm(): Ajout d'une exception si provider est None/vide Pattern de correction: AVANT: section.get("title", "").lower() # Échoue si None APRÈS: (section.get("title") or "").lower() # Sûr avec None Raison: .get(key, default) retourne le default SEULEMENT si la clé n'existe pas. Si la clé existe avec valeur None, .get() retourne None, pas le default! Donc: {"title": None}.get("title", "") -> None (pas "") 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-30 22:26:29 +01:00
David Blanc Brioir	9e4108def1	Intégration Word dans Flask: upload et traitement web Modifications: - flask_app.py: * Ajout de "docx" dans ALLOWED_EXTENSIONS * Nouvelle fonction run_word_processing_job() avec: - Gestion tempfile pour python-docx (besoin d'un path) - Intégration du callback de progression SSE - Nettoyage automatique du fichier temporaire * Modification upload() route: - Détection du type de fichier (PDF/Word) - Routage vers le bon processeur (run_processing_job vs run_word_processing_job) - Messages d'erreur adaptés pour PDF et Word * Mise à jour des docstrings - templates/upload.html: * Titre: "Parser PDF/Word/Markdown" (au lieu de PDF/Markdown) * Accept attribute: ".pdf,.docx,.md" * Tooltips: Explique que Word n'a pas besoin d'OCR * Pipeline de traitement: Section séparée pour PDF vs Word * Labels mis à jour pour inclure Word Fonctionnalités: ✅ Upload de fichiers .docx via interface web ✅ Traitement en arrière-plan avec SSE ✅ Pas d'OCR nécessaire pour Word (économie ~0.003€/page) ✅ Réutilisation complète des modules LLM existants ✅ Extraction directe via python-docx ✅ Construction TOC depuis styles Heading 1-9 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-30 22:03:50 +01:00
David Blanc Brioir	4de645145a	Ajout pipeline Word (.docx) pour ingestion RAG Nouveaux modules (3 fichiers, ~850 lignes): - word_processor.py: Extraction contenu Word (texte, headings, images, métadonnées) - word_toc_extractor.py: Construction TOC hiérarchique depuis styles Heading - word_pipeline.py: Orchestrateur complet réutilisant modules LLM existants Fonctionnalités: - Extraction native Word (pas d'OCR, économie ~0.003€/page) - Support Heading 1-9 pour TOC hiérarchique - Section paths compatibles Weaviate (1, 1.1, 1.2, etc.) - Métadonnées depuis propriétés Word + extraction paragraphes - Markdown compatible avec pipeline existant - Extraction images inline - Réutilise 100% des modules LLM (metadata, classifier, chunker, cleaner, validator) Pipeline testé: - Fichier exemple: "On the origin - 10 pages.docx" - 48 paragraphes, 2 headings extraits - 37 chunks créés - Output: markdown + JSON chunks Architecture: 1. Extraction Word → 2. Markdown → 3. TOC → 4-9. Modules LLM réutilisés → 10. Weaviate Prochaine étape: Intégration Flask (route upload Word) 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-30 21:58:43 +01:00
David Blanc Brioir	fd66917f03	Génération TTS asynchrone pour éviter le blocage Flask Backend: - Nouveau dictionnaire global tts_jobs pour tracker les jobs TTS - Fonction _generate_audio_background() pour génération en thread - POST /chat/generate-audio: lance génération et retourne job_id - GET /chat/audio-status/<job_id>: polling du statut - GET /chat/download-audio/<job_id>: télécharge l'audio terminé - États: pending → processing → completed/failed Frontend: - Fonction exportToAudio() asynchrone avec polling (1s) - Spinner animé pendant génération ("Génération...") - Téléchargement automatique quand prêt - Restauration bouton en cas d'erreur - Animation CSS @keyframes spin pour le spinner Avantages: - Flask reste responsive pendant génération TTS - Navigation possible pendant génération audio - Expérience utilisateur améliorée avec feedback visuel 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-30 19:45:29 +01:00
David Blanc Brioir	f2303569b5	Ajout nettoyage markdown pour TTS audio - Nouvelle fonction _clean_markdown() pour supprimer le formatage markdown - Supprime headers (#), bold (*), italic (), code blocks (```) - Supprime liens [text](url), citations (>), marqueurs de listes (-) - Nettoie les espaces multiples pour un texte propre - Évite la lecture à voix haute des caractères markdown - Tests validés: tous les patterns markdown correctement nettoyés 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-30 19:35:01 +01:00
David Blanc Brioir	127658aefd	Amélioration UI: header fixe et ajustement layout chat - Header fixe positionné à côté du menu hamburger (80px de gauche) - Suppression du sous-titre "Visualiseur de base Weaviate" - Fix variable CSS: var(--color-bg-primary) → var(--color-bg-main) - Ajustement hauteur chat: fenêtres RAG descendent jusqu'en bas - Barres de conversation touchent le bas de l'écran 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-30 19:12:19 +01:00
David Blanc Brioir	d91abd3566	Ajout de la fonctionnalité TTS (Text-to-Speech) avec XTTS v2 - Ajout de TTS>=0.22.0 aux dépendances - Création du module utils/tts_generator.py avec Coqui XTTS v2 * Support GPU avec mixed precision (FP16) * Lazy loading avec singleton pattern * Chunking automatique pour textes longs * Support multilingue (fr, en, es, de, etc.) - Ajout de la route /chat/export-audio dans flask_app.py - Ajout du bouton Audio dans chat.html (côté Word/PDF) - Génération audio WAV téléchargeable depuis les réponses Optimisé pour GPU 4070 (8GB VRAM) : utilise 4-6GB, génération rapide Qualité : voix naturelle française avec prosodie expressive 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-30 14:31:30 +01:00
David Blanc Brioir	b835cd13ea	Ajout des fonctionnalités d'export Word et PDF pour le chat RAG - Ajout de python-docx et reportlab aux dépendances - Création du module utils/word_exporter.py pour l'export Word - Création du module utils/pdf_exporter.py pour l'export PDF - Ajout des routes /chat/export-word et /chat/export-pdf dans flask_app.py - Ajout des boutons d'export (Word et PDF) dans chat.html - Les boutons apparaissent après chaque réponse de l'assistant - Support des questions reformulées avec question originale 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-30 14:02:11 +01:00
David Blanc Brioir	d2f7165120	Add Library RAG project and cleanup root directory - Add complete Library RAG application (Flask + MCP server) - PDF processing pipeline with OCR and LLM extraction - Weaviate vector database integration (BGE-M3 embeddings) - Flask web interface with search and document management - MCP server for Claude Desktop integration - Comprehensive test suite (134 tests) - Clean up root directory - Remove obsolete documentation files - Remove backup and temporary files - Update autonomous agent configuration - Update prompts - Enhance initializer bis prompt with better instructions 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-30 11:57:12 +01:00
David Blanc Brioir	48470236da	Amélioration majeure du système RAG avec diversification par auteur ## Nouvelles fonctionnalités ### 1. Recherche RAG avec diversification par auteur (flask_app.py) - Fonction `diverse_author_search()` : agrégation intelligente par auteur - Résout le problème de biais corpus (auteurs prolifiques vs peu représentés) - Allocation adaptative : * 1 auteur → jusqu'à 25 chunks pour contexte riche * 2-3 auteurs → distribution équitable (12 chunks/auteur) * 4+ auteurs → limitation à 3 chunks/auteur pour diversité - Pool initial de 200 chunks pour identifier tous les auteurs pertinents ### 2. Re-ranking LLM amélioré (flask_app.py) - Prompt ultra-strict : force réponse sans markdown ni explications - Parsing robuste : nettoie markdown (texte, __texte__) - Fallback intelligent : garde tous les chunks si re-ranking trop strict (<50%) - Logs détaillés des chunks exclus pour debugging ### 3. Interface utilisateur améliorée (chat.html) - Accordéon pour chunks RAG : expansion/collapse avec chevron - Reformulation avec choix utilisateur : * Endpoint `/chat/reformulate` séparé * Affichage côte-à-côte (originale vs reformulée) * Boutons de sélection avant lancement RAG * Badge "✓ Utilisée" sur version choisie - Layout full-width : 60% conversation / 40% contexte RAG - Sidebar navigation : menu hamburger avec overlay ### 4. Logs et debugging - Logs détaillés à chaque étape du pipeline - Affichage des auteurs trouvés et scores moyens - Liste des chunks exclus par re-ranking avec extraits ## Améliorations techniques - Reformulation expansive 4-6 lignes (concepts, filiations, contextes) - Re-ranking avec minimum 8 chunks garantis - Gestion des modèles GPT-5.x et o1 (max_completion_tokens) - Prompts optimisés pour réponses longues (500-800 mots) 🤖 Generated with Claude Code (https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-29 22:46:39 +01:00

1 2

63 Commits