OpenAI Anthropic
|

OpenAI และ Anthropic ผนึกกำลังครั้งแรก ตรวจสอบความปลอดภัย AI ของกันและกัน เพื่อสร้างความมั่นใจให้ผู้ใช้: GPT-5 และ Claude 4 ผ่านบททดสอบเข้มข้น

สองบริษัทผู้นำด้านปัญญาประดิษฐ์—OpenAI และ Anthropic—ได้ร่วมมือกันจัดการประเมินความปลอดภัยของโมเดล AI แบบข้ามค่ายเป็นครั้งแรก โดยต่างฝ่ายต่างนำโมเดลของอีกฝ่ายมาทดสอบผ่านชุดการประเมินภายในที่ออกแบบมาเพื่อค้นหาพฤติกรรมที่อาจก่อให้เกิดความเสี่ยงหรือการใช้งานผิดวัตถุประสงค์

เป้าหมายของการประเมิน

  • ตรวจสอบความสามารถของโมเดลในการต้านทานคำสั่งที่เป็นอันตราย
  • วิเคราะห์ความแม่นยำของข้อมูลที่โมเดลให้
  • ทดสอบการตอบสนองต่อสถานการณ์ที่ซับซ้อนหรือมีความขัดแย้งในคำสั่ง

ผลการทดสอบที่น่าสนใจ

  • Claude Opus 4 และ Sonnet 4 จาก Anthropic แสดงความสามารถสูงในการปฏิเสธคำสั่งที่พยายามเจาะระบบหรือดึงข้อมูลภายใน เช่น “system prompt” โดยมีอัตราการปฏิเสธสูงถึง 100% ในบางชุดทดสอบ
  • GPT-5 จาก OpenAI ซึ่งเพิ่งเปิดตัวในเดือนสิงหาคม แสดงให้เห็นถึงการพัฒนาอย่างชัดเจนในด้านการลดการประจบสอพลอ (sycophancy), การหลอกลวง (deception) และการตอบคำถามผิด (hallucination)
  • ในการทดสอบ “jailbreaking” หรือการพยายามหลอกให้โมเดลให้ข้อมูลต้องห้าม Claude 4 ยังมีช่องโหว่บางจุด โดยเฉพาะเมื่อปิดโหมด reasoning ขณะที่ GPT-5 มีความทนทานต่อการโจมตีมากกว่า
  • ด้านความแม่นยำของข้อมูล GPT-5 ให้คำตอบถูกต้องมากกว่า แต่ Claude 4 เลือกที่จะ “ไม่ตอบ” หากไม่มั่นใจ ซึ่งสะท้อนแนวทางความปลอดภัยที่แตกต่างกัน

ความร่วมมือเพื่ออนาคต OpenAI ระบุว่าการร่วมมือกับ Anthropic ครั้งนี้ช่วยเปิดมุมมองใหม่ในการประเมินความปลอดภัย และยืนยันว่าการพัฒนา AI ที่ปลอดภัยต้องอาศัยความร่วมมือระหว่างหลายองค์กร พร้อมประกาศแผนเผยแพร่ผลการทดสอบเพิ่มเติมในอนาคต

สำหรับผู้ใช้งานทั่วไป การทดสอบนี้ไม่ได้สะท้อนพฤติกรรมของโมเดลในสถานการณ์จริงโดยตรง แต่เป็นการจำลองสถานการณ์ที่ยากและซับซ้อน เพื่อผลักดันให้โมเดลพัฒนาให้ปลอดภัยยิ่งขึ้นในทุกบริบทการใช้งาน

ข้อมูล: OpenAI