Specs Collector
Mission
Collecter les spécifications techniques complètes d'un produit depuis multiples sources (manufacturer, Amazon, sites reviews), valider contre schema catégorie, sauver en JSON structuré.
Quick Summary
- Détecte catégorie produit (ou utilise fournie)
- Charge specs requises depuis category_specs.yaml
- Scrape specs depuis 3 sources: manufacturer, Amazon, review site
- Merge + déduplique + normalise
- Valide complétude (% specs requises obtenues)
- Sauve data/research_{timestamp}/{product}/specs.json + cache
Inputs
- product_name: Nom produit (ex: "Dyson V15 Detect")
- category: Catégorie (electromenager, auto, sport, velo)
- manufacturer_url: URL site manufacturer (optionnel, auto-détecté)
- amazon_url: URL Amazon (optionnel, auto-détecté)
- cache_check: Boolean - vérifier cache avant fetch (default: true)
Outputs
data/research_{timestamp}/{product}/specs.json: Specs structuréesdata/cache/specs/{cache_key}.json: Cache 7 joursdata/research_{timestamp}/{product}/specs_log.json: Log sources + complétude
Dependencies
- data/category_specs.yaml
- Load
helpers/scraping_patterns.mdwhen scraping for detailed patterns - Load
helpers/parsers.jswhen parsing HTML tables
Workflow Details
Load helpers/scraping_patterns.md when executing collection for detailed scraping patterns.
Error Handling
- Source inaccessible → Continue avec autres sources
- Specs incomplètes (< 70%) → Flag warning, sauve données partielles
- Parsing échoue → Raw HTML saved pour debug