บทที่ 01 · ปัญหา & คำศัพท์ · The Situation
สถานการณ์: รู้จักงานก่อนสร้างเครื่องมือ
ตลอดคอร์สนี้เราจะสร้าง “ผู้ช่วยจัดการแล็บ” (Lab Operations Assistant) หนึ่งตัว
จาก script ธรรมดา ๆ ให้กลายเป็น agent ที่ เชื่อถือได้พอจะนำไปใช้จริง แต่ก่อนจะเขียนโค้ดสักบรรทัด
หรือเรียกโมเดลสักครั้ง บทนี้ทำสิ่งที่วิศวกรที่ดีทำเป็นอย่างแรกเสมอ — นิยาม “งาน” ให้ชัด:
คำถามอะไรที่เกิดซ้ำทุกวัน ข้อมูลอะไรที่เรามีอยู่แล้ว และคำตอบผิดหนึ่งครั้งราคาแพงแค่ไหน
พูดแบบเข้าใจง่าย
ลองนึกถึงห้องปฏิบัติการสอนของภาควิชา มีห้องหลายห้อง มีเครื่องมือที่ต้องยืม–คืน–สอบเทียบ
และมีตารางเรียนที่ใช้ห้องเหล่านั้นอยู่ทุกวัน เจ้าหน้าที่ต้องตอบคำถามชุดเดิม ๆ ซ้ำไม่จบ:
พฤหัสบ่ายมีห้องไหนว่าง? เครื่องมือตัวนี้เลยกำหนดคืนหรือยัง? การจองนี้ชนคาบเรียนไหม?
ทุกวันนี้คำถามเหล่านี้ตอบได้อยู่แล้ว — ด้วยคนที่เปิดระบบจองกับตารางสอนแล้วไล่ดูทีละบรรทัด
สังเกตให้ดี: คำตอบเหล่านี้เป็น ข้อเท็จจริงที่อยู่ในข้อมูลที่เรามีอยู่แล้ว ไม่ใช่ความเห็น
เป้าหมายของเราจึงไม่ใช่ “ใส่ AI ให้เท่” แต่คือ เครื่องมือที่เรากล้าเอาไปใช้จริง —
และก่อนจะไปถึงตรงนั้น ต้องรู้ก่อนว่างานคืออะไรกันแน่
เปรียบเทียบ: เขียนใบประกาศรับสมัครงานก่อนจ้างคน
ไม่มีใครจ้างพนักงานโดยยังไม่รู้ว่าจะให้ทำอะไร เกณฑ์วัดผลคืออะไร และงานพังแล้วเสียหายแค่ไหน
การสร้าง agent ก็เหมือนกัน — ใบประกาศงาน (คำถามที่เกิดซ้ำ + ข้อมูลที่มี + ต้นทุนของความผิดพลาด)
ต้องมาก่อน “ผู้สมัคร” (ตัวโมเดล) เสมอ ถ้าข้ามขั้นนี้ คุณจะได้ของที่ดูฉลาดแต่ไม่มีใครกล้าเชื่อ
ในระบบของเรา — วันนี้คำตอบมาจากไหน (ยังไม่มี AI)
ลองดูว่าคำถามหนึ่งข้อถูกตอบยังไง ตอนนี้ ก่อนที่เราจะแตะ AItools ใด ๆ — ทุกขั้นเป็นการ
“เปิดดูข้อมูลจริง” ล้วน ๆ ไม่มีการเดา:
คำถาม“พฤหัสบ่ายมีห้องไหนว่าง?”
→
เปิดข้อมูลระบบจอง + ตารางสอน + ปฏิทินวันหยุด
→
คำนวณไล่ทีละห้อง: มีจองไหม / ชนคาบไหม / เป็นวันหยุดไหม
→
ตอบรายชื่อห้องที่ว่างจริง
ของมีค่าที่สุดที่เรามีอยู่แล้วคือ ข้อมูลที่เป็นแหล่งความจริง (source of truth) —
ไม่ใช่ตัวโมเดล นี่คือสิ่งที่ผู้ช่วยจะต้องพึ่งพา ไม่ใช่ความจำของมันเอง:
| ข้อมูลที่เรามีอยู่แล้ว | ใช้ตอบคำถามอะไร |
| ทะเบียนการจอง ห้อง/เครื่องมือ | ห้องไหนว่าง · การจองชนกันไหม |
| ทะเบียนเครื่องมือ + วันสอบเทียบ/กำหนดคืน | เครื่องมือตัวไหนเลยกำหนด |
| ตารางสอน + ช่วงคาบเรียน | การจองทับคาบเรียนหรือไม่ |
| ปฏิทินวันหยุด + ช่วงซ่อมบำรุง | วันไหนจองไม่ได้ตั้งแต่ต้น |
เกณฑ์ความน่าเชื่อถือ (trust bar) ต้องนิยามตั้งแต่ตอนนี้
“ถูก” สำหรับผู้ช่วยตัวนี้แปลว่าอะไร? — ตอบจากข้อมูลจริงเสมอ, ไม่แต่งห้องที่ไม่มีอยู่ขึ้นมา,
บอกได้เมื่อ “ไม่รู้”, และ ไม่ไปลงมือทำสิ่งที่ย้อนกลับไม่ได้เอง (เช่นแอบจองห้องให้)
ถ้าไม่นิยามคำว่า “ถูก” ก่อน เราจะวัดไม่ได้เลยว่า agent ที่สร้างมานั้นใช้ได้จริงหรือเปล่า
ทำพลาด vs ทำถูก
ดู “ไม่ดี” ก่อน เพื่อให้บทเรียนไปลงที่ “วิธีคิดที่ถูก”:
⚠️ แย่ · กระโจนใส่แชตบอตทันที
เอา AI มาแปะก่อนเข้าใจงาน
“ต่อ LLM เข้าระบบจองแล้วให้ตอบทุกอย่างเลย” — เดโมสวยใน 5 นาที
แต่เชื่อไม่ได้ เพราะเรายังไม่เคยนิยามว่า “ถูก” คืออะไร และมันต้องอ้างอิงข้อมูลชุดไหน
พอข้อมูลจริงเปลี่ยน คำตอบก็เลื่อนลอยทันที
⚠️ แย่ · สร้างของที่อลังการสุด
multi-agent ให้กับงานที่เป็นแค่การค้น
“ห้องไหนว่าง” จริง ๆ คือการ ค้นและคำนวณช่วงเวลา — ตอบได้ด้วย query บรรทัดเดียว
การเอา agent หลายตัวมารุมงานแบบนี้คือจ่ายแพงขึ้น ช้าลง ดีบักยากขึ้น แลกกับความยืดหยุ่นที่ไม่ได้ใช้
✅ ดี · เขียน “ใบประกาศงาน” ก่อน
นิยามงานให้ชัด แล้วค่อยเลือกเครื่องมือ
ลิสต์คำถามที่เกิดซ้ำ → ระบุข้อมูลที่มีอยู่ → ตีต้นทุนของคำตอบผิด → ตั้งเกณฑ์ความน่าเชื่อถือ
แล้วค่อยตัดสินทีละคำถามว่าต้องใช้ AI แค่ไหน (บ่อยครั้งคำตอบคือ “ไม่ต้องเลย”)
ลองเอง — แยกแยะว่างานไหน “ต้องใช้ AI” จริง
กิจกรรม · คลิกจัดลงถัง
Map the Job
นี่คือคำถามที่ผู้ช่วยจัดการแล็บเจอจริง ลองแยกว่าอันไหน ตอบได้ด้วยการค้น/คำนวณ (ไม่ต้องใช้ AI)
และอันไหน ต้องตีความหรือใช้ภาษา (AI อาจคุ้ม) — แล้วกด “ตรวจคำตอบ”
คุณจะเห็นแก่นของคอร์สนี้ตั้งแต่หน้าแรก
คลิกการ์ดเพื่อเลือก แล้วคลิกถังที่ใช่
มองไปข้างหน้า — ศัพท์จะโผล่มาตอนที่เรื่องราว “ต้องใช้” มันพอดี
เราจะไม่ท่องนิยามลอย ๆ บทถัดไปเราจะลงมือเขียนสิ่งที่ ง่ายที่สุดก่อน — script ที่ส่งรายงานแล็บตอนกลางคืน —
แล้วค้นพบเองว่ามันไม่พอตรงไหน ทุกครั้งที่มันพัง เราจะได้คำศัพท์ใหม่หนึ่งคำ และ harness จะค่อย ๆ ก่อตัวขึ้นทีละชิ้น
สรุปบทที่ 01
- ก่อนสร้าง agent ใด ๆ ให้ นิยามงานก่อน: คำถามที่เกิดซ้ำ · ข้อมูลที่มี · ต้นทุนของคำตอบผิด · เกณฑ์ความน่าเชื่อถือ
- ของมีค่าคือ ข้อมูลที่เป็นแหล่งความจริง ที่เรามีอยู่แล้ว — ผู้ช่วยต้องอ้างอิงสิ่งนี้ ไม่ใช่ความจำของตัวเอง
- คำถามจัดการแล็บส่วนใหญ่เป็น การค้น/คำนวณ — AI คุ้มเฉพาะตอนต้องใช้ภาษาหรือการสังเคราะห์
- “ถูก” ต้องนิยามให้วัดได้ ไม่งั้นจะไม่มีทางรู้ว่า agent ที่สร้างมาใช้ได้จริงไหม
Harness Scorecard · มิติของบทนี้: “นิยามงานก่อนสร้างหรือเปล่า?”
ผู้ช่วยจัดการแล็บ ✅ ผ่าน — เราระบุคำถาม ข้อมูล ต้นทุนผิดพลาด และเกณฑ์ความน่าเชื่อถือครบ
จดมิตินี้ไว้ แล้วเราจะสะสมคะแนนทีละบทไปจนเห็นภาพรวมว่าผู้ช่วยตัวนี้ “แข็งตรงไหน อ่อนตรงไหน”
📋 build-your-harness checklist · บรรทัดที่ 1
“ใบประกาศงานที่ชัดเจน: คำถามที่เกิดซ้ำ + ข้อมูลที่เรามีอยู่แล้ว + ต้นทุนของคำตอบผิด”