Gõ thế nào cũng hiểu.
Prompt engineering tối ưu cho Vietnamese informal — model đã tune qua 100+ kịch bản eval. Hiểu được từ lóng ("đứng máy", "làm ca", "ở KTX"), tên KCN viết tắt, và context location Bắc Ninh.
AI Service của VIVA — chat streaming DeepSeek V3, grounded trên Wiki KB pgvector 768-dim, function tools tra thẳng vào Laravel M2M. Built cho KCN Bắc Ninh · Bắc Giang.
Prompt engineering tối ưu cho Vietnamese informal — model đã tune qua 100+ kịch bản eval. Hiểu được từ lóng ("đứng máy", "làm ca", "ở KTX"), tên KCN viết tắt, và context location Bắc Ninh.
Mỗi bài wiki được embed bằng text-embedding-3-small (OpenAI) hoặc Gemini, lưu Postgres 17 với pgvector extension. Mỗi query worker lấy top-3 articles liên quan nhất, inject vào prompt làm grounding context — giảm hallucination xuống dưới 2%.
User query: "Lương CNC Bắc Ninh?"
│
▼
[Gemini embed 768-dim]
│
▼
[pgvector top-3 match]
│ ├─ cnc-operator.md (0.89)
│ ├─ kcn-que-vo.md (0.81)
│ └─ salary-bac-ninh-2026.md (0.77)
▼
[Inject → LLM prompt]
│
▼
Grounded answer ✓
LLM gọi 3 function tools qua M2M service key đến api.xanhvina.com.vn: JobSearch (tìm việc theo location/salary/skill), ProfileGet (worker data), ScheduleCreate (đặt lịch phỏng vấn). Không cache — mỗi câu trả lời based on real-time DB.
Worker: "việc Samsung Yên Phong còn tuyển?"
│
▼
LLM → decides tool_call:
JobSearch(company="Samsung", zone="Yen Phong")
│
▼ (M2M key + staff token)
Laravel /api/v1/jobs/search
│ → 3 jobs returned (live from MySQL)
▼
LLM compose answer with data:
"Còn 47 slot CNC, lương 11.5-14.2tr..."
│
▼
Streamed to worker via SSE ✓
Nếu primary fail (timeout, 5xx, quota), circuit breaker opens trong 30s, traffic tự shift sang provider kế tiếp. Mỗi provider được health-probe mỗi 60s. Cost tracking per-request giúp tối ưu tỉ lệ routing.
Input pipeline: Unicode NFKC normalize → prompt-injection detector (regex + model) → PII mask (số điện thoại, CCCD, bank account) → rate limit per-worker per-IP. Tất cả đều có test coverage.
Deepgram STT · ElevenLabs TTS. Session ID 5-phút TTL, graceful drain reconnect.
Wiki editor với 2-person approval, live preview embedding, analytics dashboard.
100 YAML scenarios · regression CI · golden-set accuracy tracking.
Per-worker chat history · auto-summarize mỗi 20 turns · Postgres persistence.
Voice WS drain broadcast · 5s timeout · zero dropped conversations on deploy.
Chat-driven CV · AI trích skill từ conversation · Laravel sync on complete.
Test ngay trong widget phía trên — hoặc đọc docs để biết cách nạp thêm knowledge.