Files
linear-coding-agent/generations/library_rag/rapport_qualite_donnees.txt
David Blanc Brioir 04ee3f9e39 feat: Add data quality verification & cleanup scripts
## Data Quality & Cleanup (Priorities 1-6)

Added comprehensive data quality verification and cleanup system:

**Scripts créés**:
- verify_data_quality.py: Analyse qualité complète œuvre par œuvre
- clean_duplicate_documents.py: Nettoyage doublons Documents
- populate_work_collection.py/clean.py: Peuplement Work collection
- fix_chunks_count.py: Correction chunksCount incohérents
- manage_orphan_chunks.py: Gestion chunks orphelins (3 options)
- clean_orphan_works.py: Suppression Works sans chunks
- add_missing_work.py: Création Work manquant
- generate_schema_stats.py: Génération stats auto
- migrate_add_work_collection.py: Migration sûre Work collection

**Documentation**:
- WEAVIATE_GUIDE_COMPLET.md: Guide consolidé complet (600+ lignes)
- WEAVIATE_SCHEMA.md: Référence schéma rapide
- NETTOYAGE_COMPLETE_RAPPORT.md: Rapport nettoyage session
- ANALYSE_QUALITE_DONNEES.md: Analyse qualité initiale
- rapport_qualite_donnees.txt: Output brut vérification

**Résultats nettoyage**:
- Documents: 16 → 9 (7 doublons supprimés)
- Works: 0 → 9 (peuplé + nettoyé)
- Chunks: 5,404 → 5,230 (174 orphelins supprimés)
- chunksCount: Corrigés (231 → 5,230 déclaré = réel)
- Cohérence parfaite: 9 Works = 9 Documents = 9 œuvres

**Modifications code**:
- schema.py: Ajout Work collection avec vectorisation
- utils/weaviate_ingest.py: Support Work ingestion
- utils/word_pipeline.py: Désactivation concepts (problème .lower())
- utils/word_toc_extractor.py: Métadonnées Word correctes
- .gitignore: Exclusion fichiers temporaires (*.wav, output/*, NUL)

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
2026-01-01 11:57:26 +01:00

355 lines
16 KiB
Plaintext

================================================================================
VÉRIFICATION DE LA QUALITÉ DES DONNÉES WEAVIATE
================================================================================
✓ Weaviate is ready
✓ Starting data quality analysis...
Loading all chunks and summaries into memory...
✓ Loaded 5404 chunks
✓ Loaded 8425 summaries
Analyzing 16 documents...
• Analyzing Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023... ✓ (50 chunks, 66 summaries)
• Analyzing tiercelin_la-pensee-signe... ✓ (36 chunks, 15 summaries)
• Analyzing peirce_collected_papers_fixed... ✓ (5068 chunks, 8313 summaries)
• Analyzing tiercelin_la-pensee-signe... ✓ (36 chunks, 15 summaries)
• Analyzing The_fixation_of_beliefs... ✓ (1 chunks, 0 summaries)
• Analyzing Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023... ✓ (50 chunks, 66 summaries)
• Analyzing Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023... ✓ (50 chunks, 66 summaries)
• Analyzing peirce_collected_papers_fixed... ✓ (5068 chunks, 8313 summaries)
• Analyzing tiercelin_la-pensee-signe... ✓ (36 chunks, 15 summaries)
• Analyzing AI-TheVery-Idea-Haugeland-1986... ✓ (1 chunks, 0 summaries)
• Analyzing peirce_collected_papers_fixed... ✓ (5068 chunks, 8313 summaries)
• Analyzing peirce_collected_papers_fixed... ✓ (5068 chunks, 8313 summaries)
• Analyzing Arendt_Hannah_-_Between_Past_and_Future_Viking_1968... ✓ (9 chunks, 0 summaries)
• Analyzing On_a_New_List_of_Categories... ✓ (3 chunks, 0 summaries)
• Analyzing Platon_-_Menon_trad._Cousin... ✓ (50 chunks, 11 summaries)
• Analyzing Peirce%20-%20La%20logique%20de%20la%20science... ✓ (12 chunks, 20 summaries)
================================================================================
RAPPORT DE QUALITÉ DES DONNÉES WEAVIATE
================================================================================
📊 STATISTIQUES GLOBALES
────────────────────────────────────────────────────────────────────────────────
• Works (collection) : 0 objets
• Documents : 16 objets
• Chunks : 5,404 objets
• Summaries : 8,425 objets
• Œuvres uniques (nested): 9 détectées
📚 ŒUVRES DÉTECTÉES (via nested objects dans Chunks)
────────────────────────────────────────────────────────────────────────────────
1. Artificial Intelligence: The Very Idea (1985)
Auteur(s): John Haugeland
2. Between Past and Future
Auteur(s): Hannah Arendt
3. Collected papers
Auteur(s): Charles Sanders PEIRCE
4. La logique de la science
Auteur(s): Charles Sanders Peirce
5. La pensée-signe. Études sur C. S. Peirce
Auteur(s): Claudine Tiercelin
6. Mind Design III: Philosophy, Psychology, and Artificial Intelligence (si confirmation)
Auteur(s): John Haugeland, Carl F. Craver, and Colin Klein
7. On a New List of Categories
Auteur(s): Charles Sanders Peirce
8. Platon - Ménon
Auteur(s): Platon
9. Titre corrigé si nécessaire (ex: 'The Fixation of Belief')
Auteur(s): C. S. Peirce
================================================================================
ANALYSE DÉTAILLÉE PAR DOCUMENT
================================================================================
✅ [1/16] Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023
────────────────────────────────────────────────────────────────────────────────
Œuvre : Mind Design III: Philosophy, Psychology, and Artificial Intelligence (si confirmation)
Auteur : John Haugeland, Carl F. Craver, and Colin Klein
Édition : None
Langue : en
Pages : 831
📦 Collections :
• Chunks : 50 objets
• Summaries : 66 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 1.32
✅ [2/16] tiercelin_la-pensee-signe
────────────────────────────────────────────────────────────────────────────────
Œuvre : La pensée-signe. Études sur C. S. Peirce
Auteur : Claudine Tiercelin
Édition : None
Langue : fr
Pages : 82
📦 Collections :
• Chunks : 36 objets
• Summaries : 15 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 0.42
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
✅ [3/16] peirce_collected_papers_fixed
────────────────────────────────────────────────────────────────────────────────
Œuvre : Collected papers
Auteur : Charles Sanders PEIRCE
Édition : None
Langue : fr
Pages : 5,206
📦 Collections :
• Chunks : 5,068 objets
• Summaries : 8,313 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 1.64
✅ [4/16] tiercelin_la-pensee-signe
────────────────────────────────────────────────────────────────────────────────
Œuvre : La pensée-signe. Études sur C. S. Peirce
Auteur : Claudine Tiercelin
Édition : None
Langue : fr
Pages : 82
📦 Collections :
• Chunks : 36 objets
• Summaries : 15 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 0.42
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
⚠️ [5/16] The_fixation_of_beliefs
────────────────────────────────────────────────────────────────────────────────
Œuvre : Titre corrigé si nécessaire (ex: 'The Fixation of Belief')
Auteur : C. S. Peirce
Édition : None
Langue : en
Pages : 0
📦 Collections :
• Chunks : 1 objets
• Summaries : 0 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 0.00
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
⚠️ Problèmes détectés :
• Aucun summary trouvé pour ce document
✅ [6/16] Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023
────────────────────────────────────────────────────────────────────────────────
Œuvre : Mind Design III: Philosophy, Psychology, and Artificial Intelligence (si confirmation)
Auteur : John Haugeland, Carl F. Craver, and Colin Klein
Édition : None
Langue : en
Pages : 831
📦 Collections :
• Chunks : 50 objets
• Summaries : 66 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 1.32
✅ [7/16] Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023
────────────────────────────────────────────────────────────────────────────────
Œuvre : Mind Design III: Philosophy, Psychology, and Artificial Intelligence (si confirmation)
Auteur : John Haugeland, Carl F. Craver, and Colin Klein
Édition : None
Langue : fr
Pages : 831
📦 Collections :
• Chunks : 50 objets
• Summaries : 66 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 1.32
✅ [8/16] peirce_collected_papers_fixed
────────────────────────────────────────────────────────────────────────────────
Œuvre : Collected papers
Auteur : Charles Sanders PEIRCE
Édition : None
Langue : fr
Pages : 5,206
📦 Collections :
• Chunks : 5,068 objets
• Summaries : 8,313 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 1.64
✅ [9/16] tiercelin_la-pensee-signe
────────────────────────────────────────────────────────────────────────────────
Œuvre : La pensée-signe. Études sur C. S. Peirce
Auteur : Claudine Tiercelin
Édition : None
Langue : fr
Pages : 82
📦 Collections :
• Chunks : 36 objets
• Summaries : 15 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 0.42
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
⚠️ [10/16] AI-TheVery-Idea-Haugeland-1986
────────────────────────────────────────────────────────────────────────────────
Œuvre : Artificial Intelligence: The Very Idea (1985)
Auteur : John Haugeland
Édition : None
Langue : fr
Pages : 5
📦 Collections :
• Chunks : 1 objets
• Summaries : 0 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 0.00
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
⚠️ Problèmes détectés :
• Aucun summary trouvé pour ce document
✅ [11/16] peirce_collected_papers_fixed
────────────────────────────────────────────────────────────────────────────────
Œuvre : Collected papers
Auteur : Charles Sanders PEIRCE
Édition : None
Langue : fr
Pages : 5,206
📦 Collections :
• Chunks : 5,068 objets
• Summaries : 8,313 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 1.64
✅ [12/16] peirce_collected_papers_fixed
────────────────────────────────────────────────────────────────────────────────
Œuvre : Collected papers
Auteur : Charles Sanders PEIRCE
Édition : None
Langue : fr
Pages : 5,206
📦 Collections :
• Chunks : 5,068 objets
• Summaries : 8,313 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 1.64
⚠️ [13/16] Arendt_Hannah_-_Between_Past_and_Future_Viking_1968
────────────────────────────────────────────────────────────────────────────────
Œuvre : Between Past and Future
Auteur : Hannah Arendt
Édition : None
Langue : en
Pages : 0
📦 Collections :
• Chunks : 9 objets
• Summaries : 0 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 0.00
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
⚠️ Problèmes détectés :
• Aucun summary trouvé pour ce document
⚠️ [14/16] On_a_New_List_of_Categories
────────────────────────────────────────────────────────────────────────────────
Œuvre : On a New List of Categories
Auteur : Charles Sanders Peirce
Édition : None
Langue : en
Pages : 0
📦 Collections :
• Chunks : 3 objets
• Summaries : 0 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 0.00
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
⚠️ Problèmes détectés :
• Aucun summary trouvé pour ce document
✅ [15/16] Platon_-_Menon_trad._Cousin
────────────────────────────────────────────────────────────────────────────────
Œuvre : Platon - Ménon
Auteur : Platon
Édition : None
Langue : fr
Pages : 107
📦 Collections :
• Chunks : 50 objets
• Summaries : 11 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 0.22
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
✅ [16/16] Peirce%20-%20La%20logique%20de%20la%20science
────────────────────────────────────────────────────────────────────────────────
Œuvre : La logique de la science
Auteur : Charles Sanders Peirce
Édition : None
Langue : fr
Pages : 27
📦 Collections :
• Chunks : 12 objets
• Summaries : 20 objets
• Work : ❌ MANQUANT dans collection Work
• Cohérence nested objects : ✅ OK
📊 Ratio Summary/Chunk : 1.67
================================================================================
PROBLÈMES DÉTECTÉS
================================================================================
⚠️ AVERTISSEMENTS :
⚠️ Work collection is empty but 5,404 chunks exist
================================================================================
RECOMMANDATIONS
================================================================================
📌 Collection Work vide
• 9 œuvres uniques détectées dans nested objects
• Recommandation : Peupler la collection Work
• Commande : python migrate_add_work_collection.py
• Ensuite : Créer des objets Work depuis les nested objects uniques
⚠️ Incohérence counts
• Document.chunksCount total : 731
• Chunks réels : 5,404
• Différence : 4,673
================================================================================
FIN DU RAPPORT
================================================================================