Fleet Gallery — 5 ระบบบน harness เดียวกัน เทียบกันทีละมิติ
ตลอดคอร์สเราสะสม Harness Scorecard ทีละมิติ และพบ fleet ของ 5 ระบบจริงทีละบท แต่ยังไม่เคยเห็นมัน วางเรียงกันทั้งหมดในที่เดียว หน้านี้คือภาพรวมนั้น — สเก็ตช์ harness ของแต่ละระบบ และ scorecard 5 ระบบ × 6 มิติ เพื่อให้เห็นบทเรียนมืออาชีพชัด ๆ ด้วยตา: “ดี” = เลือก tradeoff ถูก ไม่ใช่ max ทุกมิติ
fabric ที่ทั้ง fleet ใช้ร่วมกัน
ห้าระบบไม่ได้ต่างคนต่างสร้าง harness — มันแชร์ โครงร่วมชุดเดียว ความเหมือนหลายช่องในตารางข้างล่างจึงเป็น เพราะมิตินั้นเป็น คุณสมบัติของ fabric ร่วม ไม่ใช่ของแต่ละระบบ:
สเก็ตช์ harness ของแต่ละระบบ
หนึ่งการ์ดต่อหนึ่งระบบ — อ่านได้ใน 10 วินาที: อยู่ขั้นไหนของบันได · LLM คุ้มตรงไหน · อะไรอยู่ deterministic · คนกั้นตรงไหน
LLM คุ้ม: ร่างเรื่องเล่าหลักฐาน ABET ภาษาไทย + จัดอันดับช่องว่างก่อนตรวจเยี่ยม
deterministic: หาห้องว่าง (ความจุ/ชนคาบ/วันหยุด) + การจองค้ำด้วยกติกา “ห้ามทับ” ของฐานข้อมูล
คนกั้น: agent ร่าง + ยื่นลิงก์ให้คลิก · คนเป็นคนจอง/ยืนยัน
LLM คุ้ม: สังเคราะห์ข้ามจอ + เทรซ “ทำไม PLO5 ต่ำ” + ร้อยเป็นคำแนะนำภาษาไทย
deterministic: GPAX/หน่วยกิต + การแยก GPA-vs-เครดิตที่ตัววางแผนคำนวณอยู่แล้ว (agent อ่าน ไม่คำนวณใหม่) · นับ cohort = SQL
คนกั้น: อ่านอย่างเดียว ไม่มี write · กำแพง “รายคน ↔ ภาพรวม cohort” แข็ง (ไม่ไล่ชื่อรายคน)
LLM คุ้ม: อ่านระดับ Bloom ของ CLO/LLO ที่เป็น free-text + ร่างการจัดแนว + เสนอแก้ TQF3 ขั้นต่ำ
deterministic: ตัวเลข attainment/alignment = SQL views
คนกั้น: เป็น integration เดียวใน fleet ที่ “เขียนออก” จริง (ส่ง TQF3) → ทุก write คนต้องกด, one-shot one-OK
⚠️ ระวัง: ชั้นคะแนนจริงยัง “ว่าง” — ห้ามให้เล่า attainment จากข้อมูลที่ไม่มี (จะแต่งตัวเลข)
LLM คุ้ม: แยก “ติดจริง (งานสับสน) vs แค่ช้า (งานถูก)” จากเนื้องาน + ร่างคอมเมนต์เชิงกระบวนการ
deterministic: สถานะการ์ดสี/สาย/คะแนน/CSV/รายการคำถามนิรนาม
คนกั้น: อ่านอย่างเดียว · คอมเมนต์เขียนผ่านระบบเดิมหลังอาจารย์อนุมัติ · ไม่มีให้คะแนน/ติดธง · คำถามถอดชื่อ
LLM คุ้ม: ไม่มีเลย (และต้องไม่ใส่)
deterministic: ทั้งหมด — คัด manifest · อนุมัติการเขียนที่ย้อนไม่ได้ · มองเห็น trace · กำกับ
คนกั้น: cockpit คือ ด่านคนของทั้ง fleet — “เติมศูนย์ LLM แต่ load-bearing ที่สุด”
Harness Scorecard — 5 ระบบ × 6 มิติ
นี่คือ scorecard ที่คอร์สสะสมมา กางเต็มทั้ง fleet · อ่านสัญลักษณ์: ✅ แข็ง · ◐ พอใช้/มีเงื่อนไข · ⚠️ อ่อน-ต้องระวัง · — ไม่เกี่ยว (n/a)
| ระบบ | คัดสรร tool / permissions | grounding / verify | security (ลด trifecta) | เลือกขั้นบันได | observability | agent eval |
|---|---|---|---|---|---|---|
| 1 · แล็บ & อาคาร | ✅ | ✅ โค้ดคำนวณ + อ้างหลักฐาน | ◐ notes จริง แต่ตัด exfil แล้ว | ✅ | ⚠️ | ⚠️ |
| 2 · ที่ปรึกษานักศึกษา | ✅ | ✅ ดึงสดทุกเทิร์น ไม่เดาเกรด | ✅ ตัด 2 ขา | ✅ | ⚠️ | ⚠️ ออกแบบไว้มากสุด ยังไม่ครบ |
| 3 · หลักสูตร / OBE | ✅ | ◐ วินัยดี แต่ชั้นคะแนนว่าง | ⚠️ มี write จริง + เอกสารแนบภายนอก ไม่น่าเชื่อถือ | ◐ ~70% ควรเป็น views ที่ยังไม่สร้าง | ⚠️ | ⚠️ |
| 4 · ฟีดแบ็กงาน | ✅ | ✅ อ้างเนื้องาน · ตอบ “ไม่มีรูปแบบ” ได้ | ◐ free-text จากนักศึกษา ไม่น่าเชื่อถือ · ตัด exfil · ถอดชื่อ | ✅ | ⚠️ | ◐ fixture (เมล็ดพันธุ์) + แผนใช้อัตรา approve/edit — ยังไม่ใช่ eval เต็ม |
| 5 · cockpit | ✅✅ เป็นชั้นคัดเอง | — | ✅ เป็นด่านอนุมัติ | ✅✅ ศูนย์ LLM = restraint สูงสุด | ◐ มี trace แต่ log ยังแบน | — |
อ่าน scorecard นี้ยังไง — บทเรียนมืออาชีพ
ลองกวาดตาตามแนวตั้งและแนวนอน คุณจะเห็น 3 อย่างที่ตัวเลขเดี่ยว ๆ บอกไม่ได้:
สรุป Fleet Gallery
- 5 ระบบอยู่บน harness fabric ร่วม (ประตู MCP · orchestrator · Postgres แหล่งความจริง · cockpit) — agent ไม่เคยเขียนระบบที่เป็นแหล่งความจริง
- fleet แข็งเรื่องคัดสรร/grounding/restraint และ อ่อนเรื่อง observability/agent-eval เหมือนกันเกือบทั้งแถว — จุดอ่อนที่ค้นพบอย่างซื่อสัตย์
- ระบบ 3 (OBE) หนักสุด: เขียนออกจริง + grounding ติดล็อกเพราะข้อมูลว่าง + บันไดหนัก — ลงแรงที่นี่ก่อน
- “ดี” = เลือก tradeoff ถูก ไม่ใช่ max ทุกมิติ — cockpit ศูนย์ LLM คือหลักฐานที่ดีที่สุด