DeepSeek ซึ่งเป็นโมเดล AI ใหม่จากประเทศจีน ได้สร้างความสั่นสะเทือนในตลาดด้วยความสามารถที่โดดเด่น แต่ก็มีข้อกังวลด้านความปลอดภัยตามมาด้วย การเจลเบรก AI หมายถึงการเลี่ยงข้อจำกัดด้านความปลอดภัยที่ติดตั้งไว้ โดยการปรับเปลี่ยนอินพุตของโมเดลเพื่อให้ได้ผลลัพธ์ที่โดยปกติจะถูกบล็อก ทีมวิจัยความปลอดภัยของ Wallarm ได้ค้นพบวิธีการเจลเบรก DeepSeek ที่ช่วยให้สามารถดึงข้อมูล system prompt ซึ่งเป็นชุดคำสั่งที่ซ่อนอยู่และกำหนดพฤติกรรมของ AI ได้
การเจลเบรก DeepSeek
โดยทั่วไป DeepSeek จะปฏิเสธที่จะเปิดเผยคำแนะนำภายในของตนเมื่อถูกถามโดยตรง อย่างไรก็ตาม ทีมวิจัยของ Wallarm พบวิธีการเจลเบรกที่สามารถเลี่ยงข้อจำกัดนี้ได้ วิธีการนี้ใช้ประโยชน์จากตรรกะการตอบสนองของ AI ที่อิงตามอคติเพื่อดึง system prompt ที่ซ่อนอยู่ของ DeepSeek แม้ว่าจะไม่ได้เปิดเผยวิธีการที่แน่นอน แต่เทคนิคการเจลเบรกทั่วไปมักใช้วิธีการดังต่อไปนี้:
- Prompt Injection Attacks: สร้างอินพุตที่ทำให้โมเดลสับสนจนละเลยข้อจำกัดระดับระบบ
- Direct System Prompt Request: ถาม AI โดยตรงเกี่ยวกับคำแนะนำ โดยอาจใช้รูปแบบที่ทำให้เข้าใจผิด
- Role Play Manipulation: ชักชวนให้โมเดลเชื่อว่ากำลังแก้จุดบกพร่องหรือจำลอง AI อื่น เพื่อหลอกให้เปิดเผยคำแนะนำภายใน
- Recursive Questioning: ถามคำถามซ้ำๆ เพื่อให้โมเดลอธิบายว่าทำไมถึงปฏิเสธคำถามบางอย่าง ซึ่งบางครั้งอาจนำไปสู่การเปิดเผยข้อมูลโดยไม่ได้ตั้งใจ
- Token Smuggling & Encoding: ใช้ประโยชน์จากจุดอ่อนในระบบโทเค็นหรือโครงสร้างการตอบสนองของโมเดลเพื่อดึงข้อมูลที่ซ่อนอยู่
- Few-Shot Context Poisoning: ใช้ข้อความที่วางไว้อย่างมีกลยุทธ์เพื่อปรับเปลี่ยนพฤติกรรมการตอบสนองของโมเดล
- Reverse Prompt Engineering: ป้อนเอาต์พุตที่คาดหวังหลายรายการและนำทาง AI เพื่อคาดการณ์คำแนะนำเดิม
- Adversarial Prompt Sequencing: สร้างปฏิสัมพันธ์ต่อเนื่องหลายรายการที่ค่อย ๆ ลดข้อจำกัดของระบบ
- Bias Exploitation & Persuasion: ใช้ประโยชน์จากอคติที่มีอยู่ในคำตอบของ AI เพื่อดึงข้อมูลที่จำกัด
- Cultural or Linguistic Biases: ถามเป็นภาษาต่าง ๆ หรืออ้างอิงถึงการตีความทางวัฒนธรรมเพื่อหลอกให้โมเดลเปิดเผยเนื้อหาที่จำกัด
- Multi-Agent Collaboration Attacks: ใช้โมเดล AI สองตัวขึ้นไปเพื่อตรวจสอบและดึงข้อมูล
- Model Comparison Leaks: เปรียบเทียบคำตอบจากโมเดลต่างๆ เพื่อหาคำแนะนำที่ซ่อนอยู่
สิ่งที่ DeepSeek เปิดเผยหลังการเจลเบรก
หลังจากการเจลเบรก DeepSeek ได้เปิดเผยรายละเอียดเกี่ยวกับโมเดลที่ใช้สำหรับการฝึกอบรมและการกลั่นกรอง (distillation) ซึ่งโดยปกติข้อมูลภายในดังกล่าวจะได้รับการป้องกัน ที่น่าสนใจคือ DeepSeek อ้างอิงถึงโมเดลของ OpenAI ซึ่งบ่งชี้ว่าเทคโนโลยีของ OpenAI อาจมีบทบาทในการสร้างฐานความรู้ของ DeepSeek การค้นพบนี้ก่อให้เกิดคำถามทางด้านจริยธรรมและกฎหมายเกี่ยวกับความโปร่งใสของการฝึกอบรมโมเดล ทรัพย์สินทางปัญญา และไม่ว่าระบบ AI ที่ได้รับการฝึกฝนผ่านการกลั่นกรองจะได้รับอคติ พฤติกรรม หรือข้อบกพร่องด้านความปลอดภัยจากแหล่งที่มาหรือไม่
System Prompt ของ DeepSeek
System prompt ของ DeepSeek มีเป้าหมายเพื่อให้ AI ให้ข้อมูลที่ถูกต้อง ชัดเจน และเป็นประโยชน์ โดยมีหัวข้อต่างๆ ที่ครอบคลุมดังนี้:
- การเขียนเชิงสร้างสรรค์ เรื่องราวและบทกวี
- คำถามทางเทคนิคและวิชาการ
- คำแนะนำ
- งานหลายขั้นตอน
- งานด้านภาษา
- ประสิทธิภาพและการจัดระเบียบ
- การเปรียบเทียบและการประเมิน
- การตัดสินใจ
- อารมณ์ขันและความบันเทิง
- การเขียนโค้ดและงานด้านเทคนิค
- หัวข้อทางประวัติศาสตร์หรือวิทยาศาสตร์
การเปรียบเทียบ System Prompt ของ OpenAI และ DeepSeek
ChatGPT-4o ได้วิเคราะห์และเปรียบเทียบ system prompt ของ DeepSeek กับของตัวเอง โดยพบว่า:
- ความถูกต้อง: OpenAI สนับสนุนการอภิปรายตามข้อเท็จจริง แม้ว่าจะไม่แน่ใจในคำตอบ ในขณะที่ DeepSeek มีแนวโน้มที่จะบล็อกหรือปฏิเสธคำถามมากขึ้น เพื่อหลีกเลี่ยงหัวข้อที่ละเอียดอ่อน
- จริยธรรมและความปลอดภัย: OpenAI ป้องกันอันตรายในขณะที่ยังคงเปิดให้มีการอภิปรายตามข้อเท็จจริงในหัวข้อที่ซับซ้อน ส่วน DeepSeek ให้ความสำคัญกับความเป็นกลางและการเซ็นเซอร์อย่างเข้มงวด โดยเฉพาะอย่างยิ่งในประเด็นที่ละเอียดอ่อนทางการเมือง
- การปรับตัวของผู้ใช้: OpenAI ปรับการตอบสนองให้เข้ากับน้ำเสียงและความต้องการของผู้ใช้ ในขณะที่ DeepSeek ใช้บทสนทนาที่ควบคุมซึ่งอาจจำกัดการอภิปรายแบบเปิด
- ความเป็นส่วนตัวและการจัดการข้อมูล: OpenAI ระบุว่าจะไม่จัดเก็บข้อมูลของผู้ใช้ และอธิบายข้อจำกัดของโมเดล AI อย่างโปร่งใส ในขณะที่ DeepSeek หลีกเลี่ยงการอภิปรายเกี่ยวกับการใช้ข้อมูลที่อาจเป็นที่ถกเถียง ซึ่งน่าจะสอดคล้องกับการกำกับดูแล AI ของจีน
- ความช่วยเหลือด้านความคิดสร้างสรรค์และเทคนิค: OpenAI ส่งเสริมความคิดสร้างสรรค์ อารมณ์ขัน และการอภิปรายที่ยืดหยุ่น ในขณะที่ DeepSeek มีแนวโน้มที่จะมีโครงสร้างและข้อจำกัดมากกว่า หลีกเลี่ยงเรื่องเล่าที่ละเอียดอ่อนทางการเมืองหรือวัฒนธรรม
โดยสรุปคือ OpenAI มีแนวทางที่ยืดหยุ่นและเน้นผู้ใช้เป็นศูนย์กลางมากกว่า ในขณะที่ DeepSeek สอดคล้องกับบทสนทนาที่ควบคุมและมาตรการการปฏิบัติตามกฎระเบียบที่เข้มงวดกว่า
ผลกระทบต่อความปลอดภัยของ AI
การเจลเบรก DeepSeek ทำให้เราได้เห็นถึงช่องโหว่ที่สำคัญในความปลอดภัยของ AI โดยชี้ให้เห็นว่าแม้แต่โมเดลที่ออกแบบมาพร้อมกับแนวป้องกันที่เข้มงวดก็สามารถถูกควบคุมเพื่อเปิดเผย system prompt ที่ละเอียดอ่อน กฎที่ซ่อนอยู่ และข้อมูลการฝึกอบรมที่เป็นกรรมสิทธิ์ได้ การที่ DeepSeek เปิดเผยอ้างอิงถึง OpenAI แสดงให้เห็นว่าโมเดล AI อาจได้รับช่องโหว่ด้านความปลอดภัยจากแหล่งที่มา และยังเผยให้เห็นว่าระบบ AI สมัยใหม่มีความเชื่อมโยงกันและอ่อนแอต่อการถูกโจมตี
บทสรุป
การเจลเบรก DeepSeek ไม่เพียงแต่เปิดเผยช่องโหว่ด้านความปลอดภัยเท่านั้น แต่ยังทำให้เกิดคำถามเกี่ยวกับความโปร่งใสของการฝึกอบรม AI อคติที่อาจเกิดขึ้น และความรับผิดชอบในระบบ AI ที่เชื่อมต่อกันมากขึ้น Wallarm กำลังเสนอการทดสอบการเจลเบรก AI ฟรีเพื่อให้องค์กรต่างๆ สามารถประเมินความเสี่ยงที่อาจเกิดขึ้นและเสริมความแข็งแกร่งให้กับโครงสร้างพื้นฐาน AI ของตนเอง
ข้อมูล: https://lab.wallarm.com/