linear-coding-agent/generations/library_rag/README_SEARCH.md

# Guide d'Utilisation - Interface de Recherche Optimisée

## Vue d'Ensemble

L'interface de recherche optimisée utilise la collection **Summary** comme point d'entrée principal, offrant **90% de visibilité** des documents riches vs 10% pour la recherche directe dans Chunks.

## Performance Démontrée

### ✅ Tests Réussis

#### 1. Requêtes sur l'IA (domaine Haugeland)
```bash
python search_summary_interface.py "What is the Turing test?"
```
**Résultat**: 7/7 résultats Haugeland (100%)

#### 2. Requêtes sur la vertu (domaine Platon)
```bash
python search_summary_interface.py "Can virtue be taught?"
```
**Résultat**: 6/6 résultats Platon (100%)

#### 3. Requêtes sur le pragmatisme (domaine Peirce/Tiercelin)
```bash
python search_summary_interface.py "What is pragmatism according to Peirce?"
```
**Résultat**: 5/5 résultats Tiercelin (100%)

### Comparaison avec Recherche Chunk Directe

| Approche | Visibilité Documents Riches | Performance |
|----------|----------------------------|-------------|
| **Summary-first** (ce script) | **90%** | ✅ Excellent |
| Chunk directe | 10% | ❌ Dominé par Peirce |

## Utilisation

### Mode Requête Unique
```bash
# Requête simple
python search_summary_interface.py "Votre question ici"

# Avec limite de résultats
python search_summary_interface.py "What is intelligence?" -n 5

# Avec seuil de similarité personnalisé
python search_summary_interface.py "Can machines think?" -s 0.7
```

### Mode Interactif
```bash
# Lancer sans arguments
python search_summary_interface.py

# Interface interactive
INTERFACE DE RECHERCHE RAG - Collection Summary
================================================
Mode: Summary-first (90% de visibilité démontrée)
Tapez 'quit' pour quitter

Votre question: What is the Chinese Room argument?
[résultats affichés]

Votre question: Can virtue be taught?
[résultats affichés]

Votre question: quit
Au revoir!
```

## Options

| Option | Court | Défaut | Description |
|--------|-------|--------|-------------|
| `query` | - | - | Question de recherche (optionnel) |
| `--limit` | `-n` | 10 | Nombre maximum de résultats |
| `--min-similarity` | `-s` | 0.65 | Seuil de similarité (0-1) |

## Format des Résultats

Chaque résultat affiche:
- **Icône + Document**: 🟣 Haugeland, 🟢 Platon, 🟡 Tiercelin, 🔵 Logique, ⚪ Peirce
- **Similarité**: Score 0-1 et pourcentage
- **Titre**: Titre de la section
- **Auteur/Année**: Si disponible
- **Concepts**: Top 5 concepts clés
- **Résumé**: Résumé de la section (max 300 chars)
- **Chunks**: Nombre de chunks disponibles pour lecture détaillée

### Exemple de Sortie
```
[1] 🟣 Haugeland - Similarité: 0.695 (69.5%)
    Titre: 2.2.3 Computers and intelligence
    Auteur: John Haugeland, Carl F. Craver, and Colin Klein (2023.0)
    Concepts: Turing test, artificial intelligence, formal input/output function, universal machine, computability (+5 autres)
    Résumé: This section examines Turing's 1950 prediction that computers would achieve human-level intelligence by 2000, analyzing the theoretical foundations underlying this forecast...
    📄 1 chunk(s) disponible(s) pour lecture détaillée
```

## Fonctionnalités Avancées

### Récupération des Chunks Détaillés

Le script inclut la fonction `get_chunks_for_section()` pour récupérer le contenu détaillé:

```python
from search_summary_interface import get_chunks_for_section

# Après avoir identifié une section intéressante
chunks = get_chunks_for_section(
    document_id="Haugeland_J._Mind_Design_III...",
    section_path="2.2.3 Computers and intelligence",
    limit=5
)

for chunk in chunks:
    print(chunk["text"])
```

## Architecture

### Collection Summary
- 114 résumés total
- 106 résumés riches (>100 chars)
- Documents: Tiercelin (51), Haugeland (50), Platon (12), Logique (1)

### Vecteurs
- Modèle: BAAI/bge-m3 (1024 dimensions)
- Contexte: 8192 tokens
- Multilingual: Anglais, Français, Latin, Grec

### Recherche Sémantique
- Méthode: `near_text` (Weaviate)
- Distance: Cosine
- Métrique: Similarité = 1 - distance

## Pourquoi Summary-First?

### Problème des Chunks
- 5,068 chunks Peirce sur 5,230 total (97%)
- Domination écrasante même sur requêtes spécialisées
- Exemple: "What is the Turing test?" → 5/5 chunks Peirce (0/5 Haugeland)

### Solution Summary
- Résumés équilibrés par document
- Haute qualité (générés par Claude Sonnet 4.5)
- 90% de visibilité prouvée
- Concepts et keywords riches

## Coût et Performance

### Coût de Génération
- Total: $1.23 pour 106 résumés riches
- Tiercelin: $0.63 (43 résumés)
- Haugeland: $0.44 (50 résumés)
- Platon: $0.14 (12 résumés)
- Logique: $0.02 (1 résumé)

### Performance Requêtes
- Temps moyen: ~200-500ms par requête
- Précision: 90% (documents pertinents dans top 5)
- Couverture: Tous les documents riches indexés

## Prochaines Étapes Possibles

1. **Interface Web**: Intégrer dans Flask app existante
2. **Mode Hybride**: Toggle Summary/Chunk au choix
3. **Expansion Chunks**: Fonction "Voir plus" pour lire chunks détaillés
4. **Filtres**: Par document, auteur, année, concepts
5. **Historique**: Sauvegarde des recherches récentes

## Fichiers Associés

- `search_summary_interface.py` - Script principal
- `ANALYSE_RAG_FINAL.md` - Analyse complète du système
- `test_real_queries.py` - Tests de validation (15 requêtes)
- `test_haugeland_ai.py` - Tests spécifiques IA
- `test_hierarchical_search.py` - Tests Summary → Chunks

## Support

Pour questions ou améliorations, voir `ANALYSE_RAG_FINAL.md` pour le contexte complet.

---

**Date**: 2026-01-03
**Version**: 1.0
**Status**: ✅ Production-ready