{% extends "base.html" %} {% block title %}Upload Document{% endblock %} {% block content %}

📄 Parser PDF/Word/Markdown

Uploadez un fichier PDF, Word (.docx) ou Markdown pour l'analyser et structurer son contenu

{% if error %}
Erreur : {{ error }}
{% endif %}

📋 Pipeline de traitement

PDF:

1. OCR Mistral — Extraction du texte et des images via l'API Mistral

2. Markdown — Construction du document Markdown avec images

3. Hiérarchie — Analyse des titres pour créer une structure arborescente

4. LLM (optionnel) — Amélioration de la structure via Ollama/Mistral

Word (.docx):

1. Extraction Word — Lecture directe du contenu (pas d'OCR)

2. Markdown — Construction du document Markdown à partir des paragraphes

3. TOC — Extraction de la hiérarchie depuis les styles Heading 1-9

4. LLM — Structuration sémantique et enrichissement

📁 Fichiers générés

  • document.md Texte Markdown OCR
  • document_chunks.json Chunks hiérarchiques
  • document_structured.json Structure LLM
  • document_ocr.json Réponse OCR brute
  • images/ Images extraites
Voir les documents traités
{% endblock %}