บทที่ 18 · พรมแดนถัดไป · Physical AI

Physical AI — เมื่อ “มือ” คือหุ่นยนต์จริง

harness ชุดเดิมยังใช้ได้เมื่อ “มือ” ของ agent เป็นหุ่นยนต์จริง — แต่ลูป perceive → policy → act ตอนนี้ลงมือในโลกกายภาพที่ ย้อนกลับไม่ได้ บทนี้: vision-language-action (VLA) models, safety envelope, และ teleoperation fallback — และทำไม Permissions กับ Verify ยิ่งคอขาดบาดตาย

พูดแบบเข้าใจง่าย

ลูปยังเหมือนเดิม (gather → act → verify → repeat) เปลี่ยนแค่ act = การเคลื่อนไหวจริง ปี 2025–2026 หัวใจของหุ่นยนต์อัจฉริยะคือ VLA models ที่รวม การมองเห็น + ภาษา + การกระทำ ไว้ในโมเดลเดียว (perceive → reason → act) เรียนรู้ policy ที่ปรับตัวกับสถานการณ์ใหม่ได้

ของใหม่ที่ harness ต้องเพิ่มเมื่อมือเป็นของจริง:

Safety envelope — ขีดจำกัด แข็ง ที่ตรวจ ก่อน act และตรวจจาก เซนเซอร์จริง ไม่ใช่ความมั่นใจของ policy (เช่น “ห้ามขยับถ้ามีคนในระยะ X”)
Teleoperation fallback — เมื่อไม่มั่นใจหรือ envelope สะดุด → หยุดแล้วยกให้มนุษย์คุม
Verify = เซนเซอร์จริง — ไม่ใช่คำว่า “เสร็จแล้ว” ของ policy · Permissions = ขีดจำกัดทางกายภาพ

เหตุผลที่ทุกอย่างเข้มขึ้น: ในโลกกายภาพ ไม่มีปุ่ม undo — ความผิดพลาดของ policy กลายเป็นการชนจริง

เปรียบเทียบ: นักบินกับ envelope ของเครื่องบิน เครื่องบินสมัยใหม่มี “flight envelope protection” — ต่อให้นักบิน (หรือ autopilot) สั่งท่าที่เกินขีดจำกัดโครงสร้าง ระบบก็ปฏิเสธ VLA = นักบินอัตโนมัติที่เก่งขึ้น · safety envelope = การป้องกัน envelope ที่ตรวจจากเซนเซอร์จริง · teleop = นักบินมนุษย์ที่พร้อมเทกโอเวอร์ สิ่งที่เปลี่ยนคือ ถ้าพลาด มันไม่ใช่ข้อความผิดบนจอ แต่คือเครื่องตกจริง

ในระบบของเรา — ผู้ช่วยจัดการแล็บกลายเป็นหุ่นตรวจม้านั่งแล็บ

perceiveกล้องเห็นเครื่องมือ/คนในเขต

→

policy (VLA)วางแผนการเคลื่อนไหว

→

envelopeเช็คขีดจำกัดจากเซนเซอร์ก่อนลงมือ

→

act / teleopลงมือ หรือยกให้คนถ้าสะดุด

ลูปนี้คือลูปเดียวกับที่เราสร้างมาตั้งแต่บทที่ 03 ทุกบทเรียนยังใช้: grounding (เซนเซอร์จริง), permissions (envelope), verify (ตรวจผลจริง ไม่ใช่คำพูดของ policy), การคุมลูป, observability — เพียงแต่ เดิมพันสูงขึ้นมาก เพราะความผิดพลาดเกิดในวัตถุจริง

ทำพลาด vs ทำถูก

⚠️ แย่ · เชื่อความมั่นใจของ policy

ไม่มี safety envelope

ให้ VLA สั่งแขนกลตามแผนของมันเองโดยไม่มีขีดจำกัดแข็ง — policy ที่ “มั่นใจแต่ผิด” กลายเป็นการชนคนจริง (เหมือนบทที่ 03/07: self-report ไม่ใช่ verify — แต่คราวนี้ราคาคือร่างกาย)

⚠️ แย่ · “ทดสอบใน sim ผ่านแล้วก็พอ”

sim ≠ โลกจริง

sim เป็นเครื่องมือที่ดี แต่ไม่ใช่ขอบเขตความปลอดภัย — เซนเซอร์จริง แสง ฝุ่น คนที่เดินเข้ามากะทันหัน ไม่เคยอยู่ใน sim ครบ envelope ต้องตรวจจาก เซนเซอร์ตอนรันจริง

✅ ดี · envelope + teleop + verify จากเซนเซอร์

กันชนหลายชั้นในโลกจริง

ขีดจำกัดแข็งตรวจก่อน act, ยกให้คนเมื่อไม่มั่นใจ, และยืนยันผลจากเซนเซอร์จริง — Permissions/Verify ที่เราสร้างมาทั้งคอร์ส กลายเป็นเรื่องคอขาดบาดตายเมื่อ undo หายไป

ลองเอง — safety envelope

กิจกรรม · กดสลับแล้วดูผล

Safety Envelope

หุ่นกำลังจะหยิบเครื่องมือ แล้วมีคนเดินเข้าเขตกะทันหัน ลองเปิด/ปิด safety envelope และ teleop fallback แล้วดูว่าผลในโลกจริงต่างกันแค่ไหน

สลับสวิตช์แล้วดู pipeline perceive→policy→act

มองไปข้างหน้า — เมื่อ agent ลงมือในโลก คนต้องอยู่ตรงไหน? ยิ่ง agent ทำเองได้มาก ความสัมพันธ์กับมนุษย์ยิ่งสำคัญ บทที่ 19 ว่าด้วย Human Integration: in-the-loop vs on-the-loop · shared autonomy · การปรับความเชื่อใจให้พอดี

สรุปบทที่ 18

ลูปเดิม (perceive→policy→act) แต่ act = การเคลื่อนไหวจริงที่ย้อนไม่ได้
VLA models รวมการมองเห็น+ภาษา+การกระทำไว้ในโมเดลเดียว
เพิ่ม safety envelope (ขีดจำกัดแข็งจากเซนเซอร์จริง) + teleop fallback
Permissions & Verify ยิ่งคอขาดบาดตาย เมื่อความผิดพลาดเกิดในโลกกายภาพ

Harness Scorecard · มิติ (มองไปข้างหน้า): “มี safety envelope + teleop + verify จากเซนเซอร์ไหม?”

📋 build-your-harness checklist · บรรทัดที่ 17 “เมื่อ act เป็นกายภาพ: safety envelope จากเซนเซอร์จริง · teleop fallback · verify จากเซนเซอร์ ไม่ใช่ความมั่นใจของ policy”

หมายเหตุข้อมูล: เนื้อหา VLA / safety envelope / teleop อ้างอิงสถานะของสาขา embodied AI ปี 2025–2026 (ดู เอกสารอ้างอิง) · สถานการณ์ “หุ่นตรวจม้านั่งแล็บ” เป็น ตัวอย่างเชิงสาธิต ที่ต่อยอดจากผู้ช่วยจัดการแล็บ ไม่ใช่ระบบที่ติดตั้งจริง