feat: Add data quality verification & cleanup scripts
## Data Quality & Cleanup (Priorities 1-6) Added comprehensive data quality verification and cleanup system: **Scripts créés**: - verify_data_quality.py: Analyse qualité complète œuvre par œuvre - clean_duplicate_documents.py: Nettoyage doublons Documents - populate_work_collection.py/clean.py: Peuplement Work collection - fix_chunks_count.py: Correction chunksCount incohérents - manage_orphan_chunks.py: Gestion chunks orphelins (3 options) - clean_orphan_works.py: Suppression Works sans chunks - add_missing_work.py: Création Work manquant - generate_schema_stats.py: Génération stats auto - migrate_add_work_collection.py: Migration sûre Work collection **Documentation**: - WEAVIATE_GUIDE_COMPLET.md: Guide consolidé complet (600+ lignes) - WEAVIATE_SCHEMA.md: Référence schéma rapide - NETTOYAGE_COMPLETE_RAPPORT.md: Rapport nettoyage session - ANALYSE_QUALITE_DONNEES.md: Analyse qualité initiale - rapport_qualite_donnees.txt: Output brut vérification **Résultats nettoyage**: - Documents: 16 → 9 (7 doublons supprimés) - Works: 0 → 9 (peuplé + nettoyé) - Chunks: 5,404 → 5,230 (174 orphelins supprimés) - chunksCount: Corrigés (231 → 5,230 déclaré = réel) - Cohérence parfaite: 9 Works = 9 Documents = 9 œuvres **Modifications code**: - schema.py: Ajout Work collection avec vectorisation - utils/weaviate_ingest.py: Support Work ingestion - utils/word_pipeline.py: Désactivation concepts (problème .lower()) - utils/word_toc_extractor.py: Métadonnées Word correctes - .gitignore: Exclusion fichiers temporaires (*.wav, output/*, NUL) 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
This commit is contained in:
354
generations/library_rag/rapport_qualite_donnees.txt
Normal file
354
generations/library_rag/rapport_qualite_donnees.txt
Normal file
@@ -0,0 +1,354 @@
|
||||
================================================================================
|
||||
VÉRIFICATION DE LA QUALITÉ DES DONNÉES WEAVIATE
|
||||
================================================================================
|
||||
|
||||
✓ Weaviate is ready
|
||||
✓ Starting data quality analysis...
|
||||
|
||||
Loading all chunks and summaries into memory...
|
||||
✓ Loaded 5404 chunks
|
||||
✓ Loaded 8425 summaries
|
||||
|
||||
Analyzing 16 documents...
|
||||
|
||||
• Analyzing Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023... ✓ (50 chunks, 66 summaries)
|
||||
• Analyzing tiercelin_la-pensee-signe... ✓ (36 chunks, 15 summaries)
|
||||
• Analyzing peirce_collected_papers_fixed... ✓ (5068 chunks, 8313 summaries)
|
||||
• Analyzing tiercelin_la-pensee-signe... ✓ (36 chunks, 15 summaries)
|
||||
• Analyzing The_fixation_of_beliefs... ✓ (1 chunks, 0 summaries)
|
||||
• Analyzing Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023... ✓ (50 chunks, 66 summaries)
|
||||
• Analyzing Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023... ✓ (50 chunks, 66 summaries)
|
||||
• Analyzing peirce_collected_papers_fixed... ✓ (5068 chunks, 8313 summaries)
|
||||
• Analyzing tiercelin_la-pensee-signe... ✓ (36 chunks, 15 summaries)
|
||||
• Analyzing AI-TheVery-Idea-Haugeland-1986... ✓ (1 chunks, 0 summaries)
|
||||
• Analyzing peirce_collected_papers_fixed... ✓ (5068 chunks, 8313 summaries)
|
||||
• Analyzing peirce_collected_papers_fixed... ✓ (5068 chunks, 8313 summaries)
|
||||
• Analyzing Arendt_Hannah_-_Between_Past_and_Future_Viking_1968... ✓ (9 chunks, 0 summaries)
|
||||
• Analyzing On_a_New_List_of_Categories... ✓ (3 chunks, 0 summaries)
|
||||
• Analyzing Platon_-_Menon_trad._Cousin... ✓ (50 chunks, 11 summaries)
|
||||
• Analyzing Peirce%20-%20La%20logique%20de%20la%20science... ✓ (12 chunks, 20 summaries)
|
||||
|
||||
================================================================================
|
||||
RAPPORT DE QUALITÉ DES DONNÉES WEAVIATE
|
||||
================================================================================
|
||||
|
||||
📊 STATISTIQUES GLOBALES
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
• Works (collection) : 0 objets
|
||||
• Documents : 16 objets
|
||||
• Chunks : 5,404 objets
|
||||
• Summaries : 8,425 objets
|
||||
|
||||
• Œuvres uniques (nested): 9 détectées
|
||||
|
||||
📚 ŒUVRES DÉTECTÉES (via nested objects dans Chunks)
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
1. Artificial Intelligence: The Very Idea (1985)
|
||||
Auteur(s): John Haugeland
|
||||
2. Between Past and Future
|
||||
Auteur(s): Hannah Arendt
|
||||
3. Collected papers
|
||||
Auteur(s): Charles Sanders PEIRCE
|
||||
4. La logique de la science
|
||||
Auteur(s): Charles Sanders Peirce
|
||||
5. La pensée-signe. Études sur C. S. Peirce
|
||||
Auteur(s): Claudine Tiercelin
|
||||
6. Mind Design III: Philosophy, Psychology, and Artificial Intelligence (si confirmation)
|
||||
Auteur(s): John Haugeland, Carl F. Craver, and Colin Klein
|
||||
7. On a New List of Categories
|
||||
Auteur(s): Charles Sanders Peirce
|
||||
8. Platon - Ménon
|
||||
Auteur(s): Platon
|
||||
9. Titre corrigé si nécessaire (ex: 'The Fixation of Belief')
|
||||
Auteur(s): C. S. Peirce
|
||||
|
||||
================================================================================
|
||||
ANALYSE DÉTAILLÉE PAR DOCUMENT
|
||||
================================================================================
|
||||
|
||||
✅ [1/16] Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : Mind Design III: Philosophy, Psychology, and Artificial Intelligence (si confirmation)
|
||||
Auteur : John Haugeland, Carl F. Craver, and Colin Klein
|
||||
Édition : None
|
||||
Langue : en
|
||||
Pages : 831
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 50 objets
|
||||
• Summaries : 66 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 1.32
|
||||
|
||||
✅ [2/16] tiercelin_la-pensee-signe
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : La pensée-signe. Études sur C. S. Peirce
|
||||
Auteur : Claudine Tiercelin
|
||||
Édition : None
|
||||
Langue : fr
|
||||
Pages : 82
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 36 objets
|
||||
• Summaries : 15 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 0.42
|
||||
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
||||
|
||||
✅ [3/16] peirce_collected_papers_fixed
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : Collected papers
|
||||
Auteur : Charles Sanders PEIRCE
|
||||
Édition : None
|
||||
Langue : fr
|
||||
Pages : 5,206
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 5,068 objets
|
||||
• Summaries : 8,313 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 1.64
|
||||
|
||||
✅ [4/16] tiercelin_la-pensee-signe
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : La pensée-signe. Études sur C. S. Peirce
|
||||
Auteur : Claudine Tiercelin
|
||||
Édition : None
|
||||
Langue : fr
|
||||
Pages : 82
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 36 objets
|
||||
• Summaries : 15 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 0.42
|
||||
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
||||
|
||||
⚠️ [5/16] The_fixation_of_beliefs
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : Titre corrigé si nécessaire (ex: 'The Fixation of Belief')
|
||||
Auteur : C. S. Peirce
|
||||
Édition : None
|
||||
Langue : en
|
||||
Pages : 0
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 1 objets
|
||||
• Summaries : 0 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 0.00
|
||||
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
||||
|
||||
⚠️ Problèmes détectés :
|
||||
• Aucun summary trouvé pour ce document
|
||||
|
||||
✅ [6/16] Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : Mind Design III: Philosophy, Psychology, and Artificial Intelligence (si confirmation)
|
||||
Auteur : John Haugeland, Carl F. Craver, and Colin Klein
|
||||
Édition : None
|
||||
Langue : en
|
||||
Pages : 831
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 50 objets
|
||||
• Summaries : 66 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 1.32
|
||||
|
||||
✅ [7/16] Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : Mind Design III: Philosophy, Psychology, and Artificial Intelligence (si confirmation)
|
||||
Auteur : John Haugeland, Carl F. Craver, and Colin Klein
|
||||
Édition : None
|
||||
Langue : fr
|
||||
Pages : 831
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 50 objets
|
||||
• Summaries : 66 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 1.32
|
||||
|
||||
✅ [8/16] peirce_collected_papers_fixed
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : Collected papers
|
||||
Auteur : Charles Sanders PEIRCE
|
||||
Édition : None
|
||||
Langue : fr
|
||||
Pages : 5,206
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 5,068 objets
|
||||
• Summaries : 8,313 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 1.64
|
||||
|
||||
✅ [9/16] tiercelin_la-pensee-signe
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : La pensée-signe. Études sur C. S. Peirce
|
||||
Auteur : Claudine Tiercelin
|
||||
Édition : None
|
||||
Langue : fr
|
||||
Pages : 82
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 36 objets
|
||||
• Summaries : 15 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 0.42
|
||||
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
||||
|
||||
⚠️ [10/16] AI-TheVery-Idea-Haugeland-1986
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : Artificial Intelligence: The Very Idea (1985)
|
||||
Auteur : John Haugeland
|
||||
Édition : None
|
||||
Langue : fr
|
||||
Pages : 5
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 1 objets
|
||||
• Summaries : 0 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 0.00
|
||||
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
||||
|
||||
⚠️ Problèmes détectés :
|
||||
• Aucun summary trouvé pour ce document
|
||||
|
||||
✅ [11/16] peirce_collected_papers_fixed
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : Collected papers
|
||||
Auteur : Charles Sanders PEIRCE
|
||||
Édition : None
|
||||
Langue : fr
|
||||
Pages : 5,206
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 5,068 objets
|
||||
• Summaries : 8,313 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 1.64
|
||||
|
||||
✅ [12/16] peirce_collected_papers_fixed
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : Collected papers
|
||||
Auteur : Charles Sanders PEIRCE
|
||||
Édition : None
|
||||
Langue : fr
|
||||
Pages : 5,206
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 5,068 objets
|
||||
• Summaries : 8,313 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 1.64
|
||||
|
||||
⚠️ [13/16] Arendt_Hannah_-_Between_Past_and_Future_Viking_1968
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : Between Past and Future
|
||||
Auteur : Hannah Arendt
|
||||
Édition : None
|
||||
Langue : en
|
||||
Pages : 0
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 9 objets
|
||||
• Summaries : 0 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 0.00
|
||||
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
||||
|
||||
⚠️ Problèmes détectés :
|
||||
• Aucun summary trouvé pour ce document
|
||||
|
||||
⚠️ [14/16] On_a_New_List_of_Categories
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : On a New List of Categories
|
||||
Auteur : Charles Sanders Peirce
|
||||
Édition : None
|
||||
Langue : en
|
||||
Pages : 0
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 3 objets
|
||||
• Summaries : 0 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 0.00
|
||||
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
||||
|
||||
⚠️ Problèmes détectés :
|
||||
• Aucun summary trouvé pour ce document
|
||||
|
||||
✅ [15/16] Platon_-_Menon_trad._Cousin
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : Platon - Ménon
|
||||
Auteur : Platon
|
||||
Édition : None
|
||||
Langue : fr
|
||||
Pages : 107
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 50 objets
|
||||
• Summaries : 11 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 0.22
|
||||
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
||||
|
||||
✅ [16/16] Peirce%20-%20La%20logique%20de%20la%20science
|
||||
────────────────────────────────────────────────────────────────────────────────
|
||||
Œuvre : La logique de la science
|
||||
Auteur : Charles Sanders Peirce
|
||||
Édition : None
|
||||
Langue : fr
|
||||
Pages : 27
|
||||
|
||||
📦 Collections :
|
||||
• Chunks : 12 objets
|
||||
• Summaries : 20 objets
|
||||
• Work : ❌ MANQUANT dans collection Work
|
||||
• Cohérence nested objects : ✅ OK
|
||||
📊 Ratio Summary/Chunk : 1.67
|
||||
|
||||
================================================================================
|
||||
PROBLÈMES DÉTECTÉS
|
||||
================================================================================
|
||||
|
||||
⚠️ AVERTISSEMENTS :
|
||||
⚠️ Work collection is empty but 5,404 chunks exist
|
||||
|
||||
================================================================================
|
||||
RECOMMANDATIONS
|
||||
================================================================================
|
||||
|
||||
📌 Collection Work vide
|
||||
• 9 œuvres uniques détectées dans nested objects
|
||||
• Recommandation : Peupler la collection Work
|
||||
• Commande : python migrate_add_work_collection.py
|
||||
• Ensuite : Créer des objets Work depuis les nested objects uniques
|
||||
|
||||
⚠️ Incohérence counts
|
||||
• Document.chunksCount total : 731
|
||||
• Chunks réels : 5,404
|
||||
• Différence : 4,673
|
||||
|
||||
================================================================================
|
||||
FIN DU RAPPORT
|
||||
================================================================================
|
||||
|
||||
Reference in New Issue
Block a user