linear-coding-agent

davebb/linear-coding-agent

Fork 0

Commit Graph

Author	SHA1	Message	Date
David Blanc Brioir	d2f7165120	Add Library RAG project and cleanup root directory - Add complete Library RAG application (Flask + MCP server) - PDF processing pipeline with OCR and LLM extraction - Weaviate vector database integration (BGE-M3 embeddings) - Flask web interface with search and document management - MCP server for Claude Desktop integration - Comprehensive test suite (134 tests) - Clean up root directory - Remove obsolete documentation files - Remove backup and temporary files - Update autonomous agent configuration - Update prompts - Enhance initializer bis prompt with better instructions 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-30 11:57:12 +01:00
David Blanc Brioir	48470236da	Amélioration majeure du système RAG avec diversification par auteur ## Nouvelles fonctionnalités ### 1. Recherche RAG avec diversification par auteur (flask_app.py) - Fonction `diverse_author_search()` : agrégation intelligente par auteur - Résout le problème de biais corpus (auteurs prolifiques vs peu représentés) - Allocation adaptative : * 1 auteur → jusqu'à 25 chunks pour contexte riche * 2-3 auteurs → distribution équitable (12 chunks/auteur) * 4+ auteurs → limitation à 3 chunks/auteur pour diversité - Pool initial de 200 chunks pour identifier tous les auteurs pertinents ### 2. Re-ranking LLM amélioré (flask_app.py) - Prompt ultra-strict : force réponse sans markdown ni explications - Parsing robuste : nettoie markdown (texte, __texte__) - Fallback intelligent : garde tous les chunks si re-ranking trop strict (<50%) - Logs détaillés des chunks exclus pour debugging ### 3. Interface utilisateur améliorée (chat.html) - Accordéon pour chunks RAG : expansion/collapse avec chevron - Reformulation avec choix utilisateur : * Endpoint `/chat/reformulate` séparé * Affichage côte-à-côte (originale vs reformulée) * Boutons de sélection avant lancement RAG * Badge "✓ Utilisée" sur version choisie - Layout full-width : 60% conversation / 40% contexte RAG - Sidebar navigation : menu hamburger avec overlay ### 4. Logs et debugging - Logs détaillés à chaque étape du pipeline - Affichage des auteurs trouvés et scores moyens - Liste des chunks exclus par re-ranking avec extraits ## Améliorations techniques - Reformulation expansive 4-6 lignes (concepts, filiations, contextes) - Re-ranking avec minimum 8 chunks garantis - Gestion des modèles GPT-5.x et o1 (max_completion_tokens) - Prompts optimisés pour réponses longues (500-800 mots) 🤖 Generated with Claude Code (https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>	2025-12-29 22:46:39 +01:00

Author

SHA1

Message

Date

David Blanc Brioir

d2f7165120

Add Library RAG project and cleanup root directory

- Add complete Library RAG application (Flask + MCP server)
  - PDF processing pipeline with OCR and LLM extraction
  - Weaviate vector database integration (BGE-M3 embeddings)
  - Flask web interface with search and document management
  - MCP server for Claude Desktop integration
  - Comprehensive test suite (134 tests)

- Clean up root directory
  - Remove obsolete documentation files
  - Remove backup and temporary files
  - Update autonomous agent configuration

- Update prompts
  - Enhance initializer bis prompt with better instructions

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>

2025-12-30 11:57:12 +01:00

David Blanc Brioir

48470236da

Amélioration majeure du système RAG avec diversification par auteur

## Nouvelles fonctionnalités

### 1. Recherche RAG avec diversification par auteur (flask_app.py)
- Fonction `diverse_author_search()` : agrégation intelligente par auteur
- Résout le problème de biais corpus (auteurs prolifiques vs peu représentés)
- Allocation adaptative :
  * 1 auteur → jusqu'à 25 chunks pour contexte riche
  * 2-3 auteurs → distribution équitable (12 chunks/auteur)
  * 4+ auteurs → limitation à 3 chunks/auteur pour diversité
- Pool initial de 200 chunks pour identifier tous les auteurs pertinents

### 2. Re-ranking LLM amélioré (flask_app.py)
- Prompt ultra-strict : force réponse sans markdown ni explications
- Parsing robuste : nettoie markdown (**texte**, __texte__)
- Fallback intelligent : garde tous les chunks si re-ranking trop strict (<50%)
- Logs détaillés des chunks exclus pour debugging

### 3. Interface utilisateur améliorée (chat.html)
- **Accordéon pour chunks RAG** : expansion/collapse avec chevron
- **Reformulation avec choix utilisateur** :
  * Endpoint `/chat/reformulate` séparé
  * Affichage côte-à-côte (originale vs reformulée)
  * Boutons de sélection avant lancement RAG
  * Badge "✓ Utilisée" sur version choisie
- **Layout full-width** : 60% conversation / 40% contexte RAG
- **Sidebar navigation** : menu hamburger avec overlay

### 4. Logs et debugging
- Logs détaillés à chaque étape du pipeline
- Affichage des auteurs trouvés et scores moyens
- Liste des chunks exclus par re-ranking avec extraits

## Améliorations techniques
- Reformulation expansive 4-6 lignes (concepts, filiations, contextes)
- Re-ranking avec minimum 8 chunks garantis
- Gestion des modèles GPT-5.x et o1 (max_completion_tokens)
- Prompts optimisés pour réponses longues (500-800 mots)

🤖 Generated with Claude Code (https://claude.com/claude-code)

Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>

2025-12-29 22:46:39 +01:00

2 Commits