Marketplace PET (Product Enrichment Tool) là hệ thống nội bộ tự động hóa quá trình làm giàu dữ liệu sản phẩm (product attributes) cho các sàn marketplace — hiện tại đang vận hành cho Target+, với roadmap mở rộng sang Walmart, Amazon và các sàn khác.
🔗 Truy cập nội bộ: https://steve.id.vn/marketplace-pet
⚙️ Cơ chế vận hành — Pipeline 5 tầng
Thay vì dùng AI cho mọi thứ (tốn kém, không nhất quán), PET sử dụng pipeline thác nước 5 nguồn. Mỗi tầng chỉ được gọi khi tầng trước không đủ độ tin cậy:
| # | Nguồn | Cơ chế | Ưu điểm |
|---|---|---|---|
| 1 | ExistingData | Lấy giá trị đã có từ file upload gốc | Zero cost, tức thì |
| 2 | Scraper | Firecrawl scrape trang sản phẩm thực tế, AI extraction | Dữ liệu trực tiếp từ marketplace |
| 3 | RuleSignal | Keyword / regex rules: “x-large” → X-Large, “polka dot” → Polka Dot | 100% deterministic, không hallucinate |
| 4 | Historical | Tra cứu các QA đã approve trước đó cho cùng sản phẩm/loại | Tái sử dụng dữ liệu đã kiểm chứng |
| 5 | AI (GPT-5.4-nano) | Suy luận từ tên sản phẩm, mô tả, context đã scrape | Fallback thông minh cho trường hợp không có rule |
Pipeline dừng ngay khi một nguồn đạt ngưỡng confidence ≥ 0.7 — tiết kiệm tối đa chi phí AI. Kết quả từ job gần nhất (1.094 SKUs):
- 📚 Historical: 8.983 fields (~44%) — tái dùng dữ liệu cũ, zero AI cost
- 📐 Rule-based: 5.479 fields (~27%) — deterministic, zero AI cost
- 🤖 AI: 4.648 fields (~23%) — chỉ gọi khi cần thiết
- 🔗 Cross-attribute: 1.073 fields (~5%) — suy ra từ attribute khác
- 🔍 Scraper: 168 fields (~1%) — trực tiếp từ trang sản phẩm
→ 71% tổng số fields được fill hoàn toàn miễn phí (không tốn API call), chỉ 23% mới cần đến AI.
📊 Quy mô xử lý
| Chỉ số | Con số thực tế |
|---|---|
| SKUs / batch | 1.094 sản phẩm |
| Attributes / sản phẩm | 69 loại attribute |
| Loại sản phẩm được hỗ trợ | 28 product types |
| Fields enriched / batch | ~20.205 fields |
| Average confidence score | 0.851 / 1.00 |
| Thời gian xử lý 1.094 SKUs | ~20–30 phút |
| Tổng rows đã xử lý (16 jobs) | 17.504 rows |
Về lý thuyết, pipeline có thể xử lý không giới hạn batch song song — chỉ bị giới hạn bởi rate limit của OpenAI API và Firecrawl (dễ dàng scale bằng cách tăng worker).
🎯 Logic Enrichment — Làm sao biết giá trị nào là đúng?
Valid Values Constraint
Mỗi attribute có danh sách valid_values hợp lệ được cấu hình sẵn theo từng marketplace và product type. AI và rule-based đều phải match vào danh sách này — không thể tự bịa ra giá trị mới. Ví dụ: Product_Size chỉ chấp nhận: XS, S, M, L, XL, X-Large, X-Small…
Confidence Scoring
Mỗi kết quả được gán điểm confidence 0–1. Chỉ khi confidence ≥ ngưỡng mới được accept:
- High risk attribute (Pattern, Size): ngưỡng 0.85
- Medium risk: ngưỡng 0.70
- Low risk: ngưỡng 0.55
Parent-code Propagation
Sản phẩm cùng một parent SKU (variations màu/size) tự động inherit attribute từ nhau — chỉ cần enrich 1 lần, toàn bộ variant được cập nhật.
Human-in-the-loop Review
Fields có needs_review=true (confidence thấp, high-risk attribute) được đưa vào queue review. Reviewer xem evidence, approve hoặc sửa. Dữ liệu đã approve được lưu vào Historical để dùng cho lần sau.
💰 Saving & Hiệu quả
Nếu làm thủ công:
- 1 người data entry: ~5–7 phút/SKU × 69 attributes = ~100 giờ công cho 1.094 SKUs
- Chi phí nhân sự (outsource data entry ~$3–5/giờ): $300–$500 / batch
- Error rate thủ công: ~8–15%
Với PET Tool:
- Thời gian: 20–30 phút (chạy tự động, không cần giám sát)
- Chi phí API (OpenAI + Firecrawl): ~$2–5 / batch 1.094 SKUs
- Accuracy: ~88.7% tự động, phần còn lại qua review queue
- Consistency: 100% — cùng input → cùng output, không sai do human error
| Thủ công | PET Tool | Saving | |
|---|---|---|---|
| Thời gian | 100 giờ | 30 phút | -99.5% |
| Chi phí | $300–500 | $2–5 | -99%+ |
| Accuracy | 85–92% | 88.7% auto + review | ≈ tương đương hoặc tốt hơn |
| Scale | Linear (thêm người) | Sub-linear (thêm worker) | Không giới hạn |
🗺️ Next Steps — Roadmap tiếp theo
Ngắn hạn (Q2 2026)
- ✅ GPT-5.4-nano — vừa nâng cấp từ GPT-4.1-nano, cải thiện classification accuracy ~1–2%
- 🔄 Fix scraping pipeline — tăng tỷ lệ extract thành công material specs và gender từ trang sản phẩm (+3–5% accuracy cho Apparel_Material, Size_Grouping)
- 🔄 Mở rộng signal rules — thêm rules cho Garment_neckline_type, Top_Style, Swimwear_Style
Trung hạn (Q3 2026)
- 🖼️ Vision model cho pattern detection — dùng AI nhìn ảnh sản phẩm để phân biệt Wave vs Polka Dot, Solid vs Color Block (hiện tại là 265 errors khó fix bằng text)
- 🏪 Walmart integration — mở rộng sang marketplace thứ 2, reuse toàn bộ pipeline, chỉ cần add attribute specs mới
- 📈 Target accuracy 92%+ — kết hợp vision + scraping improvements
Dài hạn (Q4 2026+)
- 🤖 Feedback loop — review actions của human tự động train lại signal rules
- 🌐 Multi-marketplace dashboard — manage enrichment jobs cho Amazon, Walmart, Target+ trong một UI
- 🔌 API integration — kết nối trực tiếp với PIM systems (Salsify, Syndigo) để enrich realtime khi có SKU mới
Bài viết được tổng hợp từ dữ liệu thực tế của 16 enrichment jobs với 17.504 rows đã xử lý — cập nhật tháng 4/2026.