linear-coding-agent/generations/library_rag/utils/word_pipeline.py at 4de645145ac5cad92fa12c5fae4d2c35a5ad89c5

Files

David Blanc Brioir 4de645145a Ajout pipeline Word (.docx) pour ingestion RAG

Nouveaux modules (3 fichiers, ~850 lignes):
- word_processor.py: Extraction contenu Word (texte, headings, images, métadonnées)
- word_toc_extractor.py: Construction TOC hiérarchique depuis styles Heading
- word_pipeline.py: Orchestrateur complet réutilisant modules LLM existants

Fonctionnalités:
- Extraction native Word (pas d'OCR, économie ~0.003€/page)
- Support Heading 1-9 pour TOC hiérarchique
- Section paths compatibles Weaviate (1, 1.1, 1.2, etc.)
- Métadonnées depuis propriétés Word + extraction paragraphes
- Markdown compatible avec pipeline existant
- Extraction images inline
- Réutilise 100% des modules LLM (metadata, classifier, chunker, cleaner, validator)

Pipeline testé:
- Fichier exemple: "On the origin - 10 pages.docx"
- 48 paragraphes, 2 headings extraits
- 37 chunks créés
- Output: markdown + JSON chunks

Architecture:
1. Extraction Word → 2. Markdown → 3. TOC → 4-9. Modules LLM réutilisés → 10. Weaviate

Prochaine étape: Intégration Flask (route upload Word)

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>

2025-12-30 21:58:43 +01:00

18 KiB

Raw Blame History

View Raw

18 KiB Raw Blame History

18 KiB

Raw Blame History