Problèmes corrigés: 1. TITRE INCORRECT → Maintenant utilise TITRE: de la première page 2. CONCEPTS EN FRANÇAIS → Désactivé l'enrichissement LLM Avant: - Titre: "An Historical Sketch..." (mauvais, titre du chapitre) - Concepts: ['immuabilité des espèces', 'création séparée'] (français) - Résultat: 3/37 chunks ingérés dans Weaviate Après: - Titre: "On the Origin of Species BY MEANS OF..." (correct!) - Concepts: [] (vides, pas de problème d'encoding) - Résultat: 14/37 chunks ingérés (mieux mais pas parfait) Changements word_pipeline.py: 1. STEP 5 - Métadonnées simplifiées (ligne 241-262): - Supprimé l'appel à extract_metadata() du LLM - Utilise directement raw_meta de extract_word_metadata() - Le LLM prenait le titre du chapitre au lieu du livre 2. STEP 9 - Désactivé enrichissement concepts (ligne 410-423): - Skip enrich_chunks_with_concepts() - Raison: LLM génère concepts en FRANÇAIS pour texte ANGLAIS - Accents français causent échecs Weaviate Note TOC: Le document n'a que 2 Heading 2, donc la TOC est limitée. C'est normal pour un extrait de 10 pages. Reste à investiguer: Pourquoi 14/37 au lieu de 37/37 chunks? 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
18 KiB
18 KiB