ปิดท้าย · References & Credits

เอกสารอ้างอิง

คู่มือนี้เรียบเรียงจากการสำรวจสนาม AI agent กลางปี 2026 ผสานกับระบบจริงที่เราสร้างเองเป็นกรณีศึกษาเชิงแนวคิด ทุกตัวอย่าง “ในระบบของเรา” ถูกเล่าเป็น พฤติกรรมและการไหลของระบบ โดยตั้งใจ — ไม่มีโค้ด ไม่มี path ไม่มีคำสั่ง เพื่อให้โฟกัสอยู่ที่ แนวคิด ที่นำไปออกแบบ harness ของคุณเองได้

แนวคิดหลักและงานวิจัยที่อ้างอิง

กรอบ agent & harness

Anthropic — “Building Effective Agents” (ธ.ค. 2024): หลัก “หาทางที่ง่ายที่สุดก่อน เพิ่มความซับซ้อนเมื่อจำเป็น” · บันไดความซับซ้อน (บทที่ 03, 15)
Anthropic Engineering — “Code execution with MCP”: การกรองผลใน sandbox ลดจาก ~150K เหลือ ~2K token (บทที่ 12)
OpenAI & Anthropic — คู่มือ agent/harness ปี 2025–2026 ว่าด้วยความน่าเชื่อถือที่ “ออกแบบรอบโมเดล” (บทที่ 01, 10)

Model Context Protocol (MCP)

Model Context Protocol — สเปกเปิด (host/client/server · tools/resources/prompts · confused-deputy) — modelcontextprotocol.io (บทที่ 11) · ปัจจุบันอยู่ภายใต้ Linux Foundation

Context engineering

Liu et al. — “Lost in the Middle: How Language Models Use Long Contexts”, TACL 2024 (กราฟ recall รูปตัว U) — arxiv.org/abs/2307.03172 (บทที่ 13)
Chroma Research — “Context Rot” (2025): โมเดล 18 ตัวเสื่อมเมื่อ input ยาวขึ้น แม้ window ยังว่าง (บทที่ 13)

Security

Simon Willison — “The lethal trifecta” (2025): private data + untrusted content + exfiltration — simonwillison.net (บทที่ 14)
OWASP Top 10 for LLM Applications — LLM01: Prompt Injection — owasp.org (บทที่ 14)
Invariant Labs — การเปิดเผย GitHub MCP prompt-injection (2025): issue สาธารณะ → ดูด private repo → เปิด PR (บทที่ 14)

Observability & evaluation

OpenTelemetry — GenAI semantic conventions: trace/span/attribute มาตรฐานสำหรับ agent — opentelemetry.io (บทที่ 09)
แนวคิด eval 3 ระดับ (final / trajectory / step) + private suite + LLM-as-judge ที่สอบเทียบ (บทที่ 16)

Physical AI & Human Integration (พรมแดนถัดไป)

Vision-Language-Action (VLA) Models: Concepts, Progress, Applications and Challenges — สำรวจปี 2025 — arxiv.org/abs/2505.04769 (บทที่ 18)
A Survey on Vision-Language-Action Models for Embodied AI — arxiv.org/abs/2405.14093 (บทที่ 18)
งานทบทวน Human-in-the-Loop AI (concepts/methods/applications, 2025–2026) และการศึกษา machine self-assessment ที่เพิ่ม trust ของมนุษย์ (บทที่ 19)

ที่มาของการออกแบบคู่มือนี้

เนื้อหาถูกสร้างจากเวิร์กโฟลว์วิจัย/ออกแบบเบื้องหลัง 3 ชุด (วัตถุดิบดิบเก็บไว้ข้าง ๆ ไฟล์นี้):

ไฟล์	คืออะไร
`_design/landscape-research.json`	สำรวจสนาม harness กลางปี 2026 แบบยึดเว็บ 7 สาย (Skills, MCP, context, tools, orchestration, evals/safety, frameworks)
`_design/example-packs.json`	example pack ของ 16 หัวข้อ (good/bad + กิจกรรม) ผ่านการขัดเชิงปฏิปักษ์
`_design/part-v-fleet.json`	ดีไซน์ Part V: 5 ระบบ + cockpit ยึดกับซอร์สจริง

ความซื่อสัตย์ของตัวอย่าง — ตัวอย่าง “ในระบบของเรา” ยึดกับไฟล์/พฤติกรรมจริงของแพลตฟอร์มที่เราสร้าง แต่ถูก เล่าใหม่เป็นพฤติกรรม และตัดโค้ด/path/คำสั่งออกทั้งหมด · ตัวเลขในกิจกรรมหลายอันเป็นค่าเชิงสาธิต (ระบุไว้ที่ท้ายแต่ละบท) ส่วนตัวเลขหลักบางตัว (เช่น 56/96 tool) เป็นค่าจริงที่ตรวจเมื่อ 2026-05-29

บทเรียนเดียวที่อยากให้ติดตัวกลับไป ~70% ของสิ่งที่คนเรียกว่า “งานของ AI agent” จริง ๆ คือ SQL view หรือ dashboard — AI คุ้มเฉพาะตอนต้องใช้ การสังเคราะห์ ภาษา และการตัดสินเชิงคุณภาพ และมืออาชีพจะ พิสูจน์ขั้นที่ง่ายกว่าก่อนเสมอ