## Data Quality & Cleanup (Priorities 1-6) Added comprehensive data quality verification and cleanup system: **Scripts créés**: - verify_data_quality.py: Analyse qualité complète œuvre par œuvre - clean_duplicate_documents.py: Nettoyage doublons Documents - populate_work_collection.py/clean.py: Peuplement Work collection - fix_chunks_count.py: Correction chunksCount incohérents - manage_orphan_chunks.py: Gestion chunks orphelins (3 options) - clean_orphan_works.py: Suppression Works sans chunks - add_missing_work.py: Création Work manquant - generate_schema_stats.py: Génération stats auto - migrate_add_work_collection.py: Migration sûre Work collection **Documentation**: - WEAVIATE_GUIDE_COMPLET.md: Guide consolidé complet (600+ lignes) - WEAVIATE_SCHEMA.md: Référence schéma rapide - NETTOYAGE_COMPLETE_RAPPORT.md: Rapport nettoyage session - ANALYSE_QUALITE_DONNEES.md: Analyse qualité initiale - rapport_qualite_donnees.txt: Output brut vérification **Résultats nettoyage**: - Documents: 16 → 9 (7 doublons supprimés) - Works: 0 → 9 (peuplé + nettoyé) - Chunks: 5,404 → 5,230 (174 orphelins supprimés) - chunksCount: Corrigés (231 → 5,230 déclaré = réel) - Cohérence parfaite: 9 Works = 9 Documents = 9 œuvres **Modifications code**: - schema.py: Ajout Work collection avec vectorisation - utils/weaviate_ingest.py: Support Work ingestion - utils/word_pipeline.py: Désactivation concepts (problème .lower()) - utils/word_toc_extractor.py: Métadonnées Word correctes - .gitignore: Exclusion fichiers temporaires (*.wav, output/*, NUL) 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
355 lines
16 KiB
Plaintext
355 lines
16 KiB
Plaintext
================================================================================
|
|
VÉRIFICATION DE LA QUALITÉ DES DONNÉES WEAVIATE
|
|
================================================================================
|
|
|
|
✓ Weaviate is ready
|
|
✓ Starting data quality analysis...
|
|
|
|
Loading all chunks and summaries into memory...
|
|
✓ Loaded 5404 chunks
|
|
✓ Loaded 8425 summaries
|
|
|
|
Analyzing 16 documents...
|
|
|
|
• Analyzing Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023... ✓ (50 chunks, 66 summaries)
|
|
• Analyzing tiercelin_la-pensee-signe... ✓ (36 chunks, 15 summaries)
|
|
• Analyzing peirce_collected_papers_fixed... ✓ (5068 chunks, 8313 summaries)
|
|
• Analyzing tiercelin_la-pensee-signe... ✓ (36 chunks, 15 summaries)
|
|
• Analyzing The_fixation_of_beliefs... ✓ (1 chunks, 0 summaries)
|
|
• Analyzing Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023... ✓ (50 chunks, 66 summaries)
|
|
• Analyzing Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023... ✓ (50 chunks, 66 summaries)
|
|
• Analyzing peirce_collected_papers_fixed... ✓ (5068 chunks, 8313 summaries)
|
|
• Analyzing tiercelin_la-pensee-signe... ✓ (36 chunks, 15 summaries)
|
|
• Analyzing AI-TheVery-Idea-Haugeland-1986... ✓ (1 chunks, 0 summaries)
|
|
• Analyzing peirce_collected_papers_fixed... ✓ (5068 chunks, 8313 summaries)
|
|
• Analyzing peirce_collected_papers_fixed... ✓ (5068 chunks, 8313 summaries)
|
|
• Analyzing Arendt_Hannah_-_Between_Past_and_Future_Viking_1968... ✓ (9 chunks, 0 summaries)
|
|
• Analyzing On_a_New_List_of_Categories... ✓ (3 chunks, 0 summaries)
|
|
• Analyzing Platon_-_Menon_trad._Cousin... ✓ (50 chunks, 11 summaries)
|
|
• Analyzing Peirce%20-%20La%20logique%20de%20la%20science... ✓ (12 chunks, 20 summaries)
|
|
|
|
================================================================================
|
|
RAPPORT DE QUALITÉ DES DONNÉES WEAVIATE
|
|
================================================================================
|
|
|
|
📊 STATISTIQUES GLOBALES
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
• Works (collection) : 0 objets
|
|
• Documents : 16 objets
|
|
• Chunks : 5,404 objets
|
|
• Summaries : 8,425 objets
|
|
|
|
• Œuvres uniques (nested): 9 détectées
|
|
|
|
📚 ŒUVRES DÉTECTÉES (via nested objects dans Chunks)
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
1. Artificial Intelligence: The Very Idea (1985)
|
|
Auteur(s): John Haugeland
|
|
2. Between Past and Future
|
|
Auteur(s): Hannah Arendt
|
|
3. Collected papers
|
|
Auteur(s): Charles Sanders PEIRCE
|
|
4. La logique de la science
|
|
Auteur(s): Charles Sanders Peirce
|
|
5. La pensée-signe. Études sur C. S. Peirce
|
|
Auteur(s): Claudine Tiercelin
|
|
6. Mind Design III: Philosophy, Psychology, and Artificial Intelligence (si confirmation)
|
|
Auteur(s): John Haugeland, Carl F. Craver, and Colin Klein
|
|
7. On a New List of Categories
|
|
Auteur(s): Charles Sanders Peirce
|
|
8. Platon - Ménon
|
|
Auteur(s): Platon
|
|
9. Titre corrigé si nécessaire (ex: 'The Fixation of Belief')
|
|
Auteur(s): C. S. Peirce
|
|
|
|
================================================================================
|
|
ANALYSE DÉTAILLÉE PAR DOCUMENT
|
|
================================================================================
|
|
|
|
✅ [1/16] Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : Mind Design III: Philosophy, Psychology, and Artificial Intelligence (si confirmation)
|
|
Auteur : John Haugeland, Carl F. Craver, and Colin Klein
|
|
Édition : None
|
|
Langue : en
|
|
Pages : 831
|
|
|
|
📦 Collections :
|
|
• Chunks : 50 objets
|
|
• Summaries : 66 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 1.32
|
|
|
|
✅ [2/16] tiercelin_la-pensee-signe
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : La pensée-signe. Études sur C. S. Peirce
|
|
Auteur : Claudine Tiercelin
|
|
Édition : None
|
|
Langue : fr
|
|
Pages : 82
|
|
|
|
📦 Collections :
|
|
• Chunks : 36 objets
|
|
• Summaries : 15 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 0.42
|
|
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
|
|
|
✅ [3/16] peirce_collected_papers_fixed
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : Collected papers
|
|
Auteur : Charles Sanders PEIRCE
|
|
Édition : None
|
|
Langue : fr
|
|
Pages : 5,206
|
|
|
|
📦 Collections :
|
|
• Chunks : 5,068 objets
|
|
• Summaries : 8,313 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 1.64
|
|
|
|
✅ [4/16] tiercelin_la-pensee-signe
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : La pensée-signe. Études sur C. S. Peirce
|
|
Auteur : Claudine Tiercelin
|
|
Édition : None
|
|
Langue : fr
|
|
Pages : 82
|
|
|
|
📦 Collections :
|
|
• Chunks : 36 objets
|
|
• Summaries : 15 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 0.42
|
|
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
|
|
|
⚠️ [5/16] The_fixation_of_beliefs
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : Titre corrigé si nécessaire (ex: 'The Fixation of Belief')
|
|
Auteur : C. S. Peirce
|
|
Édition : None
|
|
Langue : en
|
|
Pages : 0
|
|
|
|
📦 Collections :
|
|
• Chunks : 1 objets
|
|
• Summaries : 0 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 0.00
|
|
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
|
|
|
⚠️ Problèmes détectés :
|
|
• Aucun summary trouvé pour ce document
|
|
|
|
✅ [6/16] Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : Mind Design III: Philosophy, Psychology, and Artificial Intelligence (si confirmation)
|
|
Auteur : John Haugeland, Carl F. Craver, and Colin Klein
|
|
Édition : None
|
|
Langue : en
|
|
Pages : 831
|
|
|
|
📦 Collections :
|
|
• Chunks : 50 objets
|
|
• Summaries : 66 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 1.32
|
|
|
|
✅ [7/16] Haugeland_J._Mind_Design_III._Philosophy_Psychology_and_AI_2023
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : Mind Design III: Philosophy, Psychology, and Artificial Intelligence (si confirmation)
|
|
Auteur : John Haugeland, Carl F. Craver, and Colin Klein
|
|
Édition : None
|
|
Langue : fr
|
|
Pages : 831
|
|
|
|
📦 Collections :
|
|
• Chunks : 50 objets
|
|
• Summaries : 66 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 1.32
|
|
|
|
✅ [8/16] peirce_collected_papers_fixed
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : Collected papers
|
|
Auteur : Charles Sanders PEIRCE
|
|
Édition : None
|
|
Langue : fr
|
|
Pages : 5,206
|
|
|
|
📦 Collections :
|
|
• Chunks : 5,068 objets
|
|
• Summaries : 8,313 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 1.64
|
|
|
|
✅ [9/16] tiercelin_la-pensee-signe
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : La pensée-signe. Études sur C. S. Peirce
|
|
Auteur : Claudine Tiercelin
|
|
Édition : None
|
|
Langue : fr
|
|
Pages : 82
|
|
|
|
📦 Collections :
|
|
• Chunks : 36 objets
|
|
• Summaries : 15 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 0.42
|
|
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
|
|
|
⚠️ [10/16] AI-TheVery-Idea-Haugeland-1986
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : Artificial Intelligence: The Very Idea (1985)
|
|
Auteur : John Haugeland
|
|
Édition : None
|
|
Langue : fr
|
|
Pages : 5
|
|
|
|
📦 Collections :
|
|
• Chunks : 1 objets
|
|
• Summaries : 0 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 0.00
|
|
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
|
|
|
⚠️ Problèmes détectés :
|
|
• Aucun summary trouvé pour ce document
|
|
|
|
✅ [11/16] peirce_collected_papers_fixed
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : Collected papers
|
|
Auteur : Charles Sanders PEIRCE
|
|
Édition : None
|
|
Langue : fr
|
|
Pages : 5,206
|
|
|
|
📦 Collections :
|
|
• Chunks : 5,068 objets
|
|
• Summaries : 8,313 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 1.64
|
|
|
|
✅ [12/16] peirce_collected_papers_fixed
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : Collected papers
|
|
Auteur : Charles Sanders PEIRCE
|
|
Édition : None
|
|
Langue : fr
|
|
Pages : 5,206
|
|
|
|
📦 Collections :
|
|
• Chunks : 5,068 objets
|
|
• Summaries : 8,313 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 1.64
|
|
|
|
⚠️ [13/16] Arendt_Hannah_-_Between_Past_and_Future_Viking_1968
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : Between Past and Future
|
|
Auteur : Hannah Arendt
|
|
Édition : None
|
|
Langue : en
|
|
Pages : 0
|
|
|
|
📦 Collections :
|
|
• Chunks : 9 objets
|
|
• Summaries : 0 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 0.00
|
|
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
|
|
|
⚠️ Problèmes détectés :
|
|
• Aucun summary trouvé pour ce document
|
|
|
|
⚠️ [14/16] On_a_New_List_of_Categories
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : On a New List of Categories
|
|
Auteur : Charles Sanders Peirce
|
|
Édition : None
|
|
Langue : en
|
|
Pages : 0
|
|
|
|
📦 Collections :
|
|
• Chunks : 3 objets
|
|
• Summaries : 0 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 0.00
|
|
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
|
|
|
⚠️ Problèmes détectés :
|
|
• Aucun summary trouvé pour ce document
|
|
|
|
✅ [15/16] Platon_-_Menon_trad._Cousin
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : Platon - Ménon
|
|
Auteur : Platon
|
|
Édition : None
|
|
Langue : fr
|
|
Pages : 107
|
|
|
|
📦 Collections :
|
|
• Chunks : 50 objets
|
|
• Summaries : 11 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 0.22
|
|
⚠️ Ratio faible (< 0.5) - Peut-être des summaries manquants
|
|
|
|
✅ [16/16] Peirce%20-%20La%20logique%20de%20la%20science
|
|
────────────────────────────────────────────────────────────────────────────────
|
|
Œuvre : La logique de la science
|
|
Auteur : Charles Sanders Peirce
|
|
Édition : None
|
|
Langue : fr
|
|
Pages : 27
|
|
|
|
📦 Collections :
|
|
• Chunks : 12 objets
|
|
• Summaries : 20 objets
|
|
• Work : ❌ MANQUANT dans collection Work
|
|
• Cohérence nested objects : ✅ OK
|
|
📊 Ratio Summary/Chunk : 1.67
|
|
|
|
================================================================================
|
|
PROBLÈMES DÉTECTÉS
|
|
================================================================================
|
|
|
|
⚠️ AVERTISSEMENTS :
|
|
⚠️ Work collection is empty but 5,404 chunks exist
|
|
|
|
================================================================================
|
|
RECOMMANDATIONS
|
|
================================================================================
|
|
|
|
📌 Collection Work vide
|
|
• 9 œuvres uniques détectées dans nested objects
|
|
• Recommandation : Peupler la collection Work
|
|
• Commande : python migrate_add_work_collection.py
|
|
• Ensuite : Créer des objets Work depuis les nested objects uniques
|
|
|
|
⚠️ Incohérence counts
|
|
• Document.chunksCount total : 731
|
|
• Chunks réels : 5,404
|
|
• Différence : 4,673
|
|
|
|
================================================================================
|
|
FIN DU RAPPORT
|
|
================================================================================
|
|
|