Files
linear-coding-agent/generations/library_rag/templates/upload.html
David Blanc Brioir 9e4108def1 Intégration Word dans Flask: upload et traitement web
Modifications:
- flask_app.py:
  * Ajout de "docx" dans ALLOWED_EXTENSIONS
  * Nouvelle fonction run_word_processing_job() avec:
    - Gestion tempfile pour python-docx (besoin d'un path)
    - Intégration du callback de progression SSE
    - Nettoyage automatique du fichier temporaire
  * Modification upload() route:
    - Détection du type de fichier (PDF/Word)
    - Routage vers le bon processeur (run_processing_job vs run_word_processing_job)
    - Messages d'erreur adaptés pour PDF et Word
  * Mise à jour des docstrings

- templates/upload.html:
  * Titre: "Parser PDF/Word/Markdown" (au lieu de PDF/Markdown)
  * Accept attribute: ".pdf,.docx,.md"
  * Tooltips: Explique que Word n'a pas besoin d'OCR
  * Pipeline de traitement: Section séparée pour PDF vs Word
  * Labels mis à jour pour inclure Word

Fonctionnalités:
 Upload de fichiers .docx via interface web
 Traitement en arrière-plan avec SSE
 Pas d'OCR nécessaire pour Word (économie ~0.003€/page)
 Réutilisation complète des modules LLM existants
 Extraction directe via python-docx
 Construction TOC depuis styles Heading 1-9

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
2025-12-30 22:03:50 +01:00

187 lines
9.4 KiB
HTML

{% extends "base.html" %}
{% block title %}Upload Document{% endblock %}
{% block content %}
<section class="section">
<h1>📄 Parser PDF/Word/Markdown</h1>
<p class="lead">Uploadez un fichier PDF, Word (.docx) ou Markdown pour l'analyser et structurer son contenu</p>
{% if error %}
<div class="alert alert-warning">
<strong>Erreur :</strong> {{ error }}
</div>
{% endif %}
<div class="search-box">
<form method="post" enctype="multipart/form-data">
<div class="form-group">
<label class="form-label" for="file">Fichier PDF, Word ou Markdown</label>
<input
type="file"
name="file"
id="file"
class="form-control"
accept=".pdf,.docx,.md"
required
>
<div class="caption mt-1">Taille maximale : 50 MB</div>
<div class="caption" style="color: var(--color-accent); margin-top: 0.25rem;">
💡 PDF: Pour retester sans refaire l'OCR payant, cochez "Skip OCR"
<br>💡 Word: Pas d'OCR nécessaire (extraction directe du contenu)
</div>
</div>
<div class="form-row mt-3">
<div class="form-group">
<label class="form-label">Options</label>
<div style="display: flex; flex-direction: column; gap: 0.5rem;">
<div style="display: flex; align-items: center; gap: 0.5rem;">
<input
type="checkbox"
name="skip_ocr"
id="skip_ocr"
style="width: auto;"
>
<label for="skip_ocr" style="margin: 0; font-size: 0.95rem; text-transform: none; letter-spacing: 0;">
⚡ Skip OCR (réutiliser markdown existant)
</label>
</div>
<div style="display: flex; align-items: center; gap: 0.5rem;">
<input
type="checkbox"
name="use_llm"
id="use_llm"
checked
style="width: auto;"
>
<label for="use_llm" style="margin: 0; font-size: 0.95rem; text-transform: none; letter-spacing: 0;">
Activer la structuration LLM (Ollama)
</label>
</div>
<div style="display: flex; align-items: center; gap: 0.5rem;">
<input
type="checkbox"
name="ingest_weaviate"
id="ingest_weaviate"
checked
style="width: auto;"
>
<label for="ingest_weaviate" style="margin: 0; font-size: 0.95rem; text-transform: none; letter-spacing: 0;">
Insérer dans Weaviate (vectorisation)
</label>
</div>
</div>
</div>
<div class="form-group">
<label class="form-label" for="llm_provider">Provider LLM</label>
<select name="llm_provider" id="llm_provider" class="form-control" onchange="updateModelOptions()">
<option value="mistral" selected>⚡ Mistral API (rapide)</option>
<option value="ollama">🖥️ Ollama (local, lent)</option>
</select>
</div>
<div class="form-group">
<label class="form-label" for="llm_model">Modèle LLM</label>
<select name="llm_model" id="llm_model" class="form-control">
<!-- Options Mistral API -->
<option value="mistral-small-latest" selected>mistral-small (rapide, économique)</option>
<option value="mistral-medium-latest">mistral-medium (équilibré)</option>
<option value="mistral-large-latest">mistral-large (puissant)</option>
</select>
</div>
<script>
function updateModelOptions() {
const provider = document.getElementById('llm_provider').value;
const modelSelect = document.getElementById('llm_model');
if (provider === 'mistral') {
modelSelect.innerHTML = `
<option value="mistral-small-latest" selected>mistral-small (rapide, économique)</option>
<option value="mistral-medium-latest">mistral-medium (équilibré)</option>
<option value="mistral-large-latest">mistral-large (puissant)</option>
`;
} else {
modelSelect.innerHTML = `
<option value="qwen2.5:7b" selected>qwen2.5:7b (recommandé)</option>
<option value="qwen2.5:14b">qwen2.5:14b</option>
<option value="llama3.2:3b">llama3.2:3b (rapide)</option>
<option value="mistral:7b">mistral:7b</option>
`;
}
}
</script>
</div>
<!-- Options Extraction TOC améliorée -->
<div class="card mt-4" style="border-left: 3px solid #4CAF50;">
<h4 style="color: #4CAF50;">📑 Extraction TOC améliorée (Recommandé)</h4>
<p style="font-size: 0.9rem; color: #666;">
Analyse l'indentation du texte pour détecter automatiquement la hiérarchie de la table des matières.
<br><strong style="color: #4CAF50;">✅ Fiable, rapide et sans coût supplémentaire</strong>
</p>
<div style="display: flex; align-items: center; gap: 0.5rem; margin-top: 1rem;">
<input
type="checkbox"
name="use_ocr_annotations"
id="use_ocr_annotations"
style="width: auto;"
checked
>
<label for="use_ocr_annotations" style="margin: 0; font-size: 0.95rem; font-weight: 600;">
Activer l'analyse d'indentation pour la TOC
</label>
</div>
<div style="margin-top: 0.75rem; padding: 0.75rem; background: #f0f9f0; border-radius: 4px; font-size: 0.85rem;">
<strong>Fonctionnement :</strong> Détecte les niveaux hiérarchiques en comptant les espaces d'indentation dans la table des matières.
<br>
<em>Idéal pour les documents académiques avec TOC structurée.</em>
</div>
</div>
<div class="mt-3">
<button type="submit" class="btn btn-primary">
Analyser le document
</button>
</div>
</form>
</div>
<hr class="divider">
<div class="card">
<h3>📋 Pipeline de traitement</h3>
<div class="mt-2">
<p><strong>PDF:</strong></p>
<p style="margin-left: 1rem;">1. OCR Mistral — Extraction du texte et des images via l'API Mistral</p>
<p style="margin-left: 1rem;">2. Markdown — Construction du document Markdown avec images</p>
<p style="margin-left: 1rem;">3. Hiérarchie — Analyse des titres pour créer une structure arborescente</p>
<p style="margin-left: 1rem;">4. LLM (optionnel) — Amélioration de la structure via Ollama/Mistral</p>
<p class="mt-3"><strong>Word (.docx):</strong></p>
<p style="margin-left: 1rem;">1. Extraction Word — Lecture directe du contenu (pas d'OCR)</p>
<p style="margin-left: 1rem;">2. Markdown — Construction du document Markdown à partir des paragraphes</p>
<p style="margin-left: 1rem;">3. TOC — Extraction de la hiérarchie depuis les styles Heading 1-9</p>
<p style="margin-left: 1rem;">4. LLM — Structuration sémantique et enrichissement</p>
</div>
</div>
<div class="card mt-3">
<h3>📁 Fichiers générés</h3>
<div class="mt-2">
<ul style="list-style: none;">
<li class="mb-1"><span class="badge">document.md</span> Texte Markdown OCR</li>
<li class="mb-1"><span class="badge">document_chunks.json</span> Chunks hiérarchiques</li>
<li class="mb-1"><span class="badge">document_structured.json</span> Structure LLM</li>
<li class="mb-1"><span class="badge">document_ocr.json</span> Réponse OCR brute</li>
<li><span class="badge">images/</span> Images extraites</li>
</ul>
</div>
</div>
<div class="text-center mt-4">
<a href="/documents" class="btn">Voir les documents traités</a>
</div>
</section>
{% endblock %}