PDF:
1. OCR Mistral — Extraction du texte et des images
2. Markdown — Construction du document structuré
3. LLM — Extraction métadonnées, TOC, classification
4. Chunking — Découpage sémantique intelligent
5. Weaviate — Vectorisation et indexation
Word (.docx):
1. Extraction — Lecture directe du contenu Word
2. Markdown — Conversion avec styles préservés
3. TOC — Extraction depuis Heading 1-9
4. LLM — Métadonnées et structuration
5. Weaviate — Vectorisation et indexation
Markdown (.md):
1. Lecture — Fichier déjà au format Markdown
2. TOC — Analyse des titres # ##
3. LLM — Métadonnées et structuration
4. Chunking — Découpage sémantique
5. Weaviate — Vectorisation et indexation