นี่แหละ Harness
เราเติมทีละชิ้นมาตั้งแต่บทที่ 04 — tools, context, memory, grounding, permissions, การคุมลูป, การมองเห็น ทั้งกองนี้รวมกันมีชื่อว่า harness และนี่คือบทเรียนใหญ่ที่สุดของครึ่งแรก: ความน่าเชื่อถือเป็นสิ่งที่ “ออกแบบ” ไม่ใช่ “ซื้อ” โมเดลตัวเดิม แต่ harness ดี = ของที่ไว้ใจได้
พูดแบบเข้าใจง่าย
Large Language Model คือ เครื่องยนต์ ล้วน ๆ — ข้อความเข้า ข้อความออก ตัวมันเองไม่มีความจำข้ามการเรียก ไม่มี “มือ” ไปทำอะไรในโลกจริง และตรวจงานตัวเองไม่ได้
Harness คือทุกอย่างที่เรา สร้างล้อมรอบ เครื่องยนต์นั้น เพื่อเปลี่ยนมันให้เป็น agent ที่พึ่งพาได้ — ลูปที่ให้ทำงานหลายรอบ, เครื่องมือที่เป็นมือ, บริบทที่ป้อนเข้าไป, ความจำข้ามรอบ, การปักหมุดกับข้อมูลจริง, สิทธิ์ที่กั้นว่าแตะอะไรได้, และการมองเห็นว่ามันทำอะไรลงไปจริง สลับเครื่องยนต์ให้ฉลาดขึ้นแต่ harness ห่วย — ก็ยังไม่น่าเชื่อถือ และตอนนี้คุณก็อยู่ใน harness ตัวหนึ่งอยู่แล้ว — เครื่องมืออย่าง Claude Code คือ harness ที่ครบเครื่อง
ในระบบของเรา — 7 ชิ้นที่มองเห็นได้จาก “พฤติกรรม” ของผู้ช่วยจัดการแล็บ
กลับมาที่งานแกนของเรา — “ขยับการจอง Lab 3 ไม่ให้ชนคาบเรียน” — ทุกชิ้นที่เราสร้างมาทำงานพร้อมกัน:
| ชิ้นส่วนของ harness | พฤติกรรมที่เห็นได้ในผู้ช่วยจัดการแล็บ |
|---|---|
| Loop | ถามตัวเองซ้ำได้หลายรอบ — ลองจอง เห็นผล แล้วตัดสินใจขั้นต่อไป (ไม่ใช่ตอบทีเดียวจบ) |
| Tools | มี “มือ” ดึงการจอง/ตาราง/สถานะเครื่องมือ ของจริง |
| Context | ป้อนกติกาและตัวตน เช่น คาบเรียน/วันหยุด/ซ่อมบำรุง และ “อย่าเดาชื่อห้องเอง” |
| Memory | แหล่งความจริงอยู่ในฐานข้อมูล ดึงใหม่ได้; ข้อเท็จจริงที่ต้องคงอยู่เขียนลงที่ถาวร |
| Grounding | ตอบจากสถานะจริง + schema-first กันการแต่งห้องที่ไม่มี |
| Permissions | อ่านได้อิสระ แต่ “จอง/เขียน” ต้องผ่าน gate; เปิด tool เท่าที่จำเป็น |
| Operating | ลูปมีเพดานเวลา/รอบ และทุกการเรียกถูกบันทึกเป็น trace (แม้ยังแบน) |
ทำพลาด vs ทำถูก
ลองเอง — ถอด harness ทีละชิ้น
Harness Scorecard ใบแรก — ให้คะแนนผู้ช่วยจัดการแล็บ
ตลอด 9 บทที่ผ่านมา เราจดมิติไว้ทีละข้อ ถึงเวลารวมเป็นตารางเดียว นี่คือสิ่งที่ทำให้คอร์สนี้ “ซื่อสัตย์”: เราจะ ค้นพบจุดอ่อนเอง ไม่ใช่กล่าวอ้างว่าเก่งทุกด้าน
| มิติ (จากบท) | ผู้ช่วยจัดการแล็บ |
|---|---|
| นิยามงานก่อนสร้าง (1) | ✅ ชัดเจน |
| ค้นของจริง ไม่เดา (2,4) | ✅ ผ่าน tools |
| verify จากสภาพแวดล้อม (3,7) | ✅ แข็ง |
| บริบท/กติกาที่ถูกต้อง (5) | ✅ ดี |
| memory / แหล่งความจริง (6) | ◑ พอใช้ (state แชตไม่มีบ้านถาวร — ตั้งใจ) |
| permissions & gate (8) | ✅ แข็งมาก (จุดแข็งของระบบ) |
| คุมลูป (9) | ✅ มีเพดาน |
| observability (9) | ⚠️ อ่อน — มี log แต่ยังแบน |
สรุปบทที่ 10
- harness = โครงสร้างรอบเครื่องยนต์ (loop · tools · context · memory · grounding · permissions · operating)
- ความน่าเชื่อถือเป็น คุณสมบัติของ harness ไม่ใช่ของที่ซื้อจากโมเดลที่ฉลาดขึ้น
- ถอดชิ้นไหนออก ก็เกิด failure เฉพาะตัวของชิ้นนั้น — โมเดลไม่ได้โง่ลง
- scorecard ใบแรกชี้ว่าระบบเรา แข็งเรื่องคัดสรร/grounding/security · อ่อนเรื่อง observability