เอกสารอ้างอิง
คู่มือนี้เรียบเรียงจากการสำรวจสนาม AI agent กลางปี 2026 ผสานกับระบบจริงที่เราสร้างเองเป็นกรณีศึกษาเชิงแนวคิด ทุกตัวอย่าง “ในระบบของเรา” ถูกเล่าเป็น พฤติกรรมและการไหลของระบบ โดยตั้งใจ — ไม่มีโค้ด ไม่มี path ไม่มีคำสั่ง เพื่อให้โฟกัสอยู่ที่ แนวคิด ที่นำไปออกแบบ harness ของคุณเองได้
แนวคิดหลักและงานวิจัยที่อ้างอิง
กรอบ agent & harness
- Anthropic — “Building Effective Agents” (ธ.ค. 2024): หลัก “หาทางที่ง่ายที่สุดก่อน เพิ่มความซับซ้อนเมื่อจำเป็น” · บันไดความซับซ้อน (บทที่ 03, 15)
- Anthropic Engineering — “Code execution with MCP”: การกรองผลใน sandbox ลดจาก ~150K เหลือ ~2K token (บทที่ 12)
- OpenAI & Anthropic — คู่มือ agent/harness ปี 2025–2026 ว่าด้วยความน่าเชื่อถือที่ “ออกแบบรอบโมเดล” (บทที่ 01, 10)
Model Context Protocol (MCP)
- Model Context Protocol — สเปกเปิด (host/client/server · tools/resources/prompts · confused-deputy) — modelcontextprotocol.io (บทที่ 11) · ปัจจุบันอยู่ภายใต้ Linux Foundation
Context engineering
- Liu et al. — “Lost in the Middle: How Language Models Use Long Contexts”, TACL 2024 (กราฟ recall รูปตัว U) — arxiv.org/abs/2307.03172 (บทที่ 13)
- Chroma Research — “Context Rot” (2025): โมเดล 18 ตัวเสื่อมเมื่อ input ยาวขึ้น แม้ window ยังว่าง (บทที่ 13)
Security
- Simon Willison — “The lethal trifecta” (2025): private data + untrusted content + exfiltration — simonwillison.net (บทที่ 14)
- OWASP Top 10 for LLM Applications — LLM01: Prompt Injection — owasp.org (บทที่ 14)
- Invariant Labs — การเปิดเผย GitHub MCP prompt-injection (2025): issue สาธารณะ → ดูด private repo → เปิด PR (บทที่ 14)
Observability & evaluation
- OpenTelemetry — GenAI semantic conventions: trace/span/attribute มาตรฐานสำหรับ agent — opentelemetry.io (บทที่ 09)
- แนวคิด eval 3 ระดับ (final / trajectory / step) + private suite + LLM-as-judge ที่สอบเทียบ (บทที่ 16)
Physical AI & Human Integration (พรมแดนถัดไป)
- Vision-Language-Action (VLA) Models: Concepts, Progress, Applications and Challenges — สำรวจปี 2025 — arxiv.org/abs/2505.04769 (บทที่ 18)
- A Survey on Vision-Language-Action Models for Embodied AI — arxiv.org/abs/2405.14093 (บทที่ 18)
- งานทบทวน Human-in-the-Loop AI (concepts/methods/applications, 2025–2026) และการศึกษา machine self-assessment ที่เพิ่ม trust ของมนุษย์ (บทที่ 19)
ที่มาของการออกแบบคู่มือนี้
เนื้อหาถูกสร้างจากเวิร์กโฟลว์วิจัย/ออกแบบเบื้องหลัง 3 ชุด (วัตถุดิบดิบเก็บไว้ข้าง ๆ ไฟล์นี้):
| ไฟล์ | คืออะไร |
|---|---|
_design/landscape-research.json | สำรวจสนาม harness กลางปี 2026 แบบยึดเว็บ 7 สาย (Skills, MCP, context, tools, orchestration, evals/safety, frameworks) |
_design/example-packs.json | example pack ของ 16 หัวข้อ (good/bad + กิจกรรม) ผ่านการขัดเชิงปฏิปักษ์ |
_design/part-v-fleet.json | ดีไซน์ Part V: 5 ระบบ + cockpit ยึดกับซอร์สจริง |
ความซื่อสัตย์ของตัวอย่าง — ตัวอย่าง “ในระบบของเรา” ยึดกับไฟล์/พฤติกรรมจริงของแพลตฟอร์มที่เราสร้าง
แต่ถูก เล่าใหม่เป็นพฤติกรรม และตัดโค้ด/path/คำสั่งออกทั้งหมด · ตัวเลขในกิจกรรมหลายอันเป็นค่าเชิงสาธิต (ระบุไว้ที่ท้ายแต่ละบท)
ส่วนตัวเลขหลักบางตัว (เช่น 56/96 tool) เป็นค่าจริงที่ตรวจเมื่อ 2026-05-29
บทเรียนเดียวที่อยากให้ติดตัวกลับไป
~70% ของสิ่งที่คนเรียกว่า “งานของ AI agent” จริง ๆ คือ SQL view หรือ dashboard — AI คุ้มเฉพาะตอนต้องใช้
การสังเคราะห์ ภาษา และการตัดสินเชิงคุณภาพ และมืออาชีพจะ พิสูจน์ขั้นที่ง่ายกว่าก่อนเสมอ