Cockpit & Fleet — มืออาชีพสร้าง agent ที่ดีอย่างไร
ผู้ช่วยจัดการแล็บเป็นแค่ หนึ่งใน fleet — มีที่ปรึกษานักศึกษา, OBE/หลักสูตร, ฟีดแบ็กงาน — ทั้งหมดอยู่บน harness ร่วมกัน และมี cockpit (แผงควบคุมที่กำกับทุก agent โดย ไม่ใช้ AI เลย) บทเรียนมืออาชีพ: “ดี” = เลือก tradeoff ให้เหมาะบริบท ไม่ใช่ทำครบทุกมิติ
พูดแบบเข้าใจง่าย
harness คือ ชั้นการให้เหตุผลที่ยึดทับ fleet ของแอป deterministic ที่มีอยู่แล้ว — ไม่ใช่ตัวแทนที่ แต่ละแอปทำงานได้โดยไม่มี LLM (เป็นแหล่งความจริง เป็นผู้เขียนเพียงผู้เดียว) harness เติมเข้าไปแค่ 4 อย่าง: ลูป · context ที่จำกัดขอบเขต · memory เบา ๆ · การ verify → ได้ agent ที่ ให้คำแนะนำ อ่านเป็นหลัก มีคนอยู่ในลูป ที่ “ร่างให้” ในขณะที่มนุษย์เป็นคน “ลงมือ” ในแอป
และ cockpit ที่เติม “ศูนย์ LLM” แต่กลับสำคัญที่สุด — มัน คัด manifest (ลูกบิดพฤติกรรมของ fleet), อนุมัติ การเขียนที่ย้อนไม่ได้, มองเห็น trace, และ กำกับ+ประเมิน ทั้งหมดนี้คือ control plane ที่ไม่มี AI สักตัว
ในระบบของเรา — 5 ระบบ: LLM คุ้มตรงไหน อะไรอยู่ deterministic
| ระบบ | LLM คุ้มจริง | อยู่ deterministic |
|---|---|---|
| 1 · แล็บ & อาคาร | ร่าง SAR ภาษาไทยสำหรับ ABET + จัดอันดับช่องว่าง | หาช่วงห้องว่าง = เลขคณิตเซ็ต → code tool |
| 2 · ที่ปรึกษานักศึกษา | สังเคราะห์ข้ามจอ + “ทำไม PLO5 ต่ำ” | GPA/หน่วยกิตที่ตัววางแผนคำนวณอยู่แล้ว (agent อ่าน ไม่คำนวณใหม่) |
| 3 · หลักสูตร/OBE | อ่าน Bloom ของ free-text CLO/LLO + ร่าง TQF3 (มี gate) | ตัวเลข attainment/alignment = SQL views |
| 4 · ฟีดแบ็กงาน | สังเคราะห์ “ติดขัดหรือช้า” + ร่างคอมเมนต์ | สถานะ monitor, CSV, รายการคำถาม = SQL ล้วน |
| 5 · cockpit | ไม่มี — ศูนย์ LLM | ทั้ง control plane |
วินัยสำคัญ: ทันทีที่มีคนเสนอ “LLM auto-approver” หรือ “สรุป trace ด้วย AI” ใน cockpit — cockpit ก็กลายเป็น agent ตัวที่สองที่ไม่มีใครกำกับบนเส้นทางการเขียน ซึ่งต้องห้าม สิ่งที่ควรสร้างจริงคือ คิวอนุมัติแบบอ่านอย่างเดียว ที่รวม gate การปล่อยเกรด/ส่ง TQF3/sync ไว้ที่เดียว — เพิ่มศูนย์ LLM เพิ่มศูนย์อำนาจ
ทำพลาด vs ทำถูก
ลองเอง — LLM คุ้มตรงไหนใน fleet
Fleet Scorecard ที่ซื่อสัตย์
รวมคะแนนจากทุกบท นี่คือ “ลายเซ็น” ของระบบเรา — และมันไม่ได้เก่งทุกด้าน (และนั่นโอเค):
| มิติ | fleet ของเรา |
|---|---|
| การคัดสรร tool / permissions | ✅ แข็งมาก |
| grounding / verify จากของจริง | ✅ แข็ง |
| security (ลด trifecta) | ✅ ดี (แต่ยังตัดไม่ครบ) |
| เลือกขั้นบันได (ไม่ over-engineer) | ✅ แข็ง |
| observability | ⚠️ อ่อน (log แบน) |
| agent evaluation | ⚠️ อ่อน (ยังไม่มี) |
🗂️ อยากเห็นคอลัมน์นี้ แยกราย 5 ระบบ (พร้อมสเก็ตช์ harness ของแต่ละตัว) — ดูที่ Fleet Gallery หน้าสรุปรวมท้ายคอร์ส
สรุปบทที่ 17
- harness = ชั้นเหตุผลที่ ยึดทับ fleet ของแอป deterministic ไม่ใช่ตัวแทนที่ — เติมแค่ 4 อย่าง (ลูป·context·memory·verify)
- ~70% ของ “งาน agent” จริง ๆ ไม่ใช่ agent — LLM คุ้มเฉพาะสังเคราะห์/ภาษา/ตัดสินเชิงคุณภาพ
- cockpit = control plane ศูนย์ LLM ที่ load-bearing ที่สุด — อย่าใส่ AI ลงไป
- “ดี” = เลือก tradeoff ให้เหมาะบริบท — ระบบเราแข็งเรื่องคัดสรร/grounding/security อ่อนเรื่อง observability/evals