Marketplace PET Tool — Hướng dẫn sử dụng & Cơ chế Enrichment AI

Marketplace PET (Product Enrichment Tool) là hệ thống nội bộ tự động hóa quá trình làm giàu dữ liệu sản phẩm (product attributes) cho các sàn marketplace — hiện tại đang vận hành cho Target+, với roadmap mở rộng sang Walmart, Amazon và các sàn khác.

🔗 Truy cập nội bộ: https://steve.id.vn/marketplace-pet

⚙️ Cơ chế vận hành — Pipeline 5 tầng

Thay vì dùng AI cho mọi thứ (tốn kém, không nhất quán), PET sử dụng pipeline thác nước 5 nguồn. Mỗi tầng chỉ được gọi khi tầng trước không đủ độ tin cậy:

#	Nguồn	Cơ chế	Ưu điểm
1	ExistingData	Lấy giá trị đã có từ file upload gốc	Zero cost, tức thì
2	Scraper	Firecrawl scrape trang sản phẩm thực tế, AI extraction	Dữ liệu trực tiếp từ marketplace
3	RuleSignal	Keyword / regex rules: “x-large” → X-Large, “polka dot” → Polka Dot	100% deterministic, không hallucinate
4	Historical	Tra cứu các QA đã approve trước đó cho cùng sản phẩm/loại	Tái sử dụng dữ liệu đã kiểm chứng
5	AI (GPT-5.4-nano)	Suy luận từ tên sản phẩm, mô tả, context đã scrape	Fallback thông minh cho trường hợp không có rule

Pipeline dừng ngay khi một nguồn đạt ngưỡng confidence ≥ 0.7 — tiết kiệm tối đa chi phí AI. Kết quả từ job gần nhất (1.094 SKUs):

📚 Historical: 8.983 fields (~44%) — tái dùng dữ liệu cũ, zero AI cost
📐 Rule-based: 5.479 fields (~27%) — deterministic, zero AI cost
🤖 AI: 4.648 fields (~23%) — chỉ gọi khi cần thiết
🔗 Cross-attribute: 1.073 fields (~5%) — suy ra từ attribute khác
🔍 Scraper: 168 fields (~1%) — trực tiếp từ trang sản phẩm

→ 71% tổng số fields được fill hoàn toàn miễn phí (không tốn API call), chỉ 23% mới cần đến AI.

📊 Quy mô xử lý

Chỉ số	Con số thực tế
SKUs / batch	1.094 sản phẩm
Attributes / sản phẩm	69 loại attribute
Loại sản phẩm được hỗ trợ	28 product types
Fields enriched / batch	~20.205 fields
Average confidence score	0.851 / 1.00
Thời gian xử lý 1.094 SKUs	~20–30 phút
Tổng rows đã xử lý (16 jobs)	17.504 rows

Về lý thuyết, pipeline có thể xử lý không giới hạn batch song song — chỉ bị giới hạn bởi rate limit của OpenAI API và Firecrawl (dễ dàng scale bằng cách tăng worker).

🎯 Logic Enrichment — Làm sao biết giá trị nào là đúng?

Valid Values Constraint

Mỗi attribute có danh sách valid_values hợp lệ được cấu hình sẵn theo từng marketplace và product type. AI và rule-based đều phải match vào danh sách này — không thể tự bịa ra giá trị mới. Ví dụ: Product_Size chỉ chấp nhận: XS, S, M, L, XL, X-Large, X-Small…

Confidence Scoring

Mỗi kết quả được gán điểm confidence 0–1. Chỉ khi confidence ≥ ngưỡng mới được accept:

High risk attribute (Pattern, Size): ngưỡng 0.85
Medium risk: ngưỡng 0.70
Low risk: ngưỡng 0.55

Parent-code Propagation

Sản phẩm cùng một parent SKU (variations màu/size) tự động inherit attribute từ nhau — chỉ cần enrich 1 lần, toàn bộ variant được cập nhật.

Human-in-the-loop Review

Fields có needs_review=true (confidence thấp, high-risk attribute) được đưa vào queue review. Reviewer xem evidence, approve hoặc sửa. Dữ liệu đã approve được lưu vào Historical để dùng cho lần sau.

💰 Saving & Hiệu quả

Nếu làm thủ công:

1 người data entry: ~5–7 phút/SKU × 69 attributes = ~100 giờ công cho 1.094 SKUs
Chi phí nhân sự (outsource data entry ~$3–5/giờ): $300–$500 / batch
Error rate thủ công: ~8–15%

Với PET Tool:

Thời gian: 20–30 phút (chạy tự động, không cần giám sát)
Chi phí API (OpenAI + Firecrawl): ~$2–5 / batch 1.094 SKUs
Accuracy: ~88.7% tự động, phần còn lại qua review queue
Consistency: 100% — cùng input → cùng output, không sai do human error

	Thủ công	PET Tool	Saving
Thời gian	100 giờ	30 phút	-99.5%
Chi phí	$300–500	$2–5	-99%+
Accuracy	85–92%	88.7% auto + review	≈ tương đương hoặc tốt hơn
Scale	Linear (thêm người)	Sub-linear (thêm worker)	Không giới hạn

🗺️ Next Steps — Roadmap tiếp theo

Ngắn hạn (Q2 2026)

✅ GPT-5.4-nano — vừa nâng cấp từ GPT-4.1-nano, cải thiện classification accuracy ~1–2%
🔄 Fix scraping pipeline — tăng tỷ lệ extract thành công material specs và gender từ trang sản phẩm (+3–5% accuracy cho Apparel_Material, Size_Grouping)
🔄 Mở rộng signal rules — thêm rules cho Garment_neckline_type, Top_Style, Swimwear_Style

Trung hạn (Q3 2026)

🖼️ Vision model cho pattern detection — dùng AI nhìn ảnh sản phẩm để phân biệt Wave vs Polka Dot, Solid vs Color Block (hiện tại là 265 errors khó fix bằng text)
🏪 Walmart integration — mở rộng sang marketplace thứ 2, reuse toàn bộ pipeline, chỉ cần add attribute specs mới
📈 Target accuracy 92%+ — kết hợp vision + scraping improvements

Dài hạn (Q4 2026+)

🤖 Feedback loop — review actions của human tự động train lại signal rules
🌐 Multi-marketplace dashboard — manage enrichment jobs cho Amazon, Walmart, Target+ trong một UI
🔌 API integration — kết nối trực tiếp với PIM systems (Salsify, Syndigo) để enrich realtime khi có SKU mới

Bài viết được tổng hợp từ dữ liệu thực tế của 16 enrichment jobs với 17.504 rows đã xử lý — cập nhật tháng 4/2026.