สองบริษัทผู้นำด้านปัญญาประดิษฐ์—OpenAI และ Anthropic—ได้ร่วมมือกันจัดการประเมินความปลอดภัยของโมเดล AI แบบข้ามค่ายเป็นครั้งแรก โดยต่างฝ่ายต่างนำโมเดลของอีกฝ่ายมาทดสอบผ่านชุดการประเมินภายในที่ออกแบบมาเพื่อค้นหาพฤติกรรมที่อาจก่อให้เกิดความเสี่ยงหรือการใช้งานผิดวัตถุประสงค์

เป้าหมายของการประเมิน

ตรวจสอบความสามารถของโมเดลในการต้านทานคำสั่งที่เป็นอันตราย
วิเคราะห์ความแม่นยำของข้อมูลที่โมเดลให้
ทดสอบการตอบสนองต่อสถานการณ์ที่ซับซ้อนหรือมีความขัดแย้งในคำสั่ง

ผลการทดสอบที่น่าสนใจ

Claude Opus 4 และ Sonnet 4 จาก Anthropic แสดงความสามารถสูงในการปฏิเสธคำสั่งที่พยายามเจาะระบบหรือดึงข้อมูลภายใน เช่น “system prompt” โดยมีอัตราการปฏิเสธสูงถึง 100% ในบางชุดทดสอบ
GPT-5 จาก OpenAI ซึ่งเพิ่งเปิดตัวในเดือนสิงหาคม แสดงให้เห็นถึงการพัฒนาอย่างชัดเจนในด้านการลดการประจบสอพลอ (sycophancy), การหลอกลวง (deception) และการตอบคำถามผิด (hallucination)
ในการทดสอบ “jailbreaking” หรือการพยายามหลอกให้โมเดลให้ข้อมูลต้องห้าม Claude 4 ยังมีช่องโหว่บางจุด โดยเฉพาะเมื่อปิดโหมด reasoning ขณะที่ GPT-5 มีความทนทานต่อการโจมตีมากกว่า
ด้านความแม่นยำของข้อมูล GPT-5 ให้คำตอบถูกต้องมากกว่า แต่ Claude 4 เลือกที่จะ “ไม่ตอบ” หากไม่มั่นใจ ซึ่งสะท้อนแนวทางความปลอดภัยที่แตกต่างกัน

ความร่วมมือเพื่ออนาคต OpenAI ระบุว่าการร่วมมือกับ Anthropic ครั้งนี้ช่วยเปิดมุมมองใหม่ในการประเมินความปลอดภัย และยืนยันว่าการพัฒนา AI ที่ปลอดภัยต้องอาศัยความร่วมมือระหว่างหลายองค์กร พร้อมประกาศแผนเผยแพร่ผลการทดสอบเพิ่มเติมในอนาคต

สำหรับผู้ใช้งานทั่วไป การทดสอบนี้ไม่ได้สะท้อนพฤติกรรมของโมเดลในสถานการณ์จริงโดยตรง แต่เป็นการจำลองสถานการณ์ที่ยากและซับซ้อน เพื่อผลักดันให้โมเดลพัฒนาให้ปลอดภัยยิ่งขึ้นในทุกบริบทการใช้งาน

ข้อมูล: OpenAI

Last update:

Beginner's Guide: