OpenAI และ Anthropic ผนึกกำลังครั้งแรก ตรวจสอบความปลอดภัย AI ของกันและกัน เพื่อสร้างความมั่นใจให้ผู้ใช้: GPT-5 และ Claude 4 ผ่านบททดสอบเข้มข้น
สองบริษัทผู้นำด้านปัญญาประดิษฐ์—OpenAI และ Anthropic—ได้ร่วมมือกันจัดการประเมินความปลอดภัยของโมเดล AI แบบข้ามค่ายเป็นครั้งแรก โดยต่างฝ่ายต่างนำโมเดลของอีกฝ่ายมาทดสอบผ่านชุดการประเมินภายในที่ออกแบบมาเพื่อค้นหาพฤติกรรมที่อาจก่อให้เกิดความเสี่ยงหรือการใช้งานผิดวัตถุประสงค์
เป้าหมายของการประเมิน
- ตรวจสอบความสามารถของโมเดลในการต้านทานคำสั่งที่เป็นอันตราย
- วิเคราะห์ความแม่นยำของข้อมูลที่โมเดลให้
- ทดสอบการตอบสนองต่อสถานการณ์ที่ซับซ้อนหรือมีความขัดแย้งในคำสั่ง
ผลการทดสอบที่น่าสนใจ
- Claude Opus 4 และ Sonnet 4 จาก Anthropic แสดงความสามารถสูงในการปฏิเสธคำสั่งที่พยายามเจาะระบบหรือดึงข้อมูลภายใน เช่น “system prompt” โดยมีอัตราการปฏิเสธสูงถึง 100% ในบางชุดทดสอบ
- GPT-5 จาก OpenAI ซึ่งเพิ่งเปิดตัวในเดือนสิงหาคม แสดงให้เห็นถึงการพัฒนาอย่างชัดเจนในด้านการลดการประจบสอพลอ (sycophancy), การหลอกลวง (deception) และการตอบคำถามผิด (hallucination)
- ในการทดสอบ “jailbreaking” หรือการพยายามหลอกให้โมเดลให้ข้อมูลต้องห้าม Claude 4 ยังมีช่องโหว่บางจุด โดยเฉพาะเมื่อปิดโหมด reasoning ขณะที่ GPT-5 มีความทนทานต่อการโจมตีมากกว่า
- ด้านความแม่นยำของข้อมูล GPT-5 ให้คำตอบถูกต้องมากกว่า แต่ Claude 4 เลือกที่จะ “ไม่ตอบ” หากไม่มั่นใจ ซึ่งสะท้อนแนวทางความปลอดภัยที่แตกต่างกัน
ความร่วมมือเพื่ออนาคต OpenAI ระบุว่าการร่วมมือกับ Anthropic ครั้งนี้ช่วยเปิดมุมมองใหม่ในการประเมินความปลอดภัย และยืนยันว่าการพัฒนา AI ที่ปลอดภัยต้องอาศัยความร่วมมือระหว่างหลายองค์กร พร้อมประกาศแผนเผยแพร่ผลการทดสอบเพิ่มเติมในอนาคต
สำหรับผู้ใช้งานทั่วไป การทดสอบนี้ไม่ได้สะท้อนพฤติกรรมของโมเดลในสถานการณ์จริงโดยตรง แต่เป็นการจำลองสถานการณ์ที่ยากและซับซ้อน เพื่อผลักดันให้โมเดลพัฒนาให้ปลอดภัยยิ่งขึ้นในทุกบริบทการใช้งาน
ข้อมูล: OpenAI