anthropic-Distillation-Attacks
|

Anthropic เปิดโปงบริษัท AI จีน 3 แห่ง ใช้ “Distillation Attacks” ขโมยความสามารถจาก Claude ในระดับอุตสาหกรรม

Anthropic ระบุว่า DeepSeek, Moonshot และ MiniMax ใช้เทคนิค “distillation” คือการนำเอาผลลัพธ์จากโมเดลที่ทรงพลังกว่า (teacher) ไปฝึกโมเดลที่เล็กกว่า (student) ซึ่งโดยปกติถือเป็นเทคนิคมาตรฐานในวงการ แต่ในกรณีนี้ถูกใช้เพื่อดึงความสามารถของ Claude ไปเร่งการพัฒนาโมเดลแข่ง โดยไม่ต้องลงทุนทรัพยากรและเวลาในการวิจัยเองในระดับปกติ

ประเด็นสำคัญคือโมเดลที่ได้จากการกลั่นแบบผิดวัตถุประสงค์มักไม่พก “เบรกนิรภัย” เหมือนต้นฉบับ ทำให้ความสามารถที่อันตราย เช่น ช่วยพัฒนาอาวุธชีวภาพหรือสนับสนุนการโจมตีไซเบอร์ อาจแพร่กระจายออกไปโดยไม่มีระบบป้องกันของผู้พัฒนารายใหญ่ติดไปด้วย

Anthropic เตือนว่าหากโมเดลที่ได้จากการกลั่นเหล่านี้ถูกนำไปใช้ในบริบทการทหาร ข่าวกรอง การสอดส่องประชาชน หรือถูกเปิดซอร์สออกสู่สาธารณะ ความเสี่ยงด้านความมั่นคงระดับชาติก็จะทวีคูณ เพราะรัฐเผด็จการสามารถนำไปใช้ในปฏิบัติการไซเบอร์เชิงรุก แคมเปญบิดเบือนข้อมูล และระบบสอดแนมมวลชนได้ง่ายขึ้น

โจมตี distillation กระทบเกมควบคุมชิปและการส่งออก AI

Anthropic ย้ำว่าบริษัทสนับสนุนมาตรการควบคุมการส่งออก (export controls) เพื่อรักษาความได้เปรียบด้าน AI ของสหรัฐฯ แต่ distillation attacks ทำให้ห้องแล็บต่างชาติสามารถ “ปิดช่องว่าง” ความสามารถได้แม้จะถูกจำกัดการเข้าถึงฮาร์ดแวร์หรือโมเดลโดยตรง

ภายนอกอาจดูเหมือนว่าแล็บเหล่านี้ “ก้าวทัน” ด้วยนวัตกรรมของตัวเอง แต่แท้จริงแล้วมีส่วนสำคัญจากการดูดความสามารถของโมเดลสหรัฐฯ ผ่านการกลั่นในระดับใหญ่ ซึ่งก็ยังต้องใช้ชิปประสิทธิภาพสูงในการรันอยู่ดี ส่งผลให้ Anthropic มองว่ามาตรการควบคุมชิปยังคงมีเหตุผลรองรับ ทั้งในมุมการฝึกโมเดลโดยตรงและการจำกัดสเกลการโจมตีแบบ distillation

เจาะรายละเอียด 3 แคมเปญ: DeepSeek, Moonshot, MiniMax

Anthropic ระบุว่าสามารถโยงแต่ละแคมเปญไปยังแล็บที่เกี่ยวข้องได้ด้วยระดับความมั่นใจสูง ผ่านการวิเคราะห์ IP, เมทาดาต้าของคำขอ, โครงสร้างอินฟราสตรักเจอร์ และข้อมูลยืนยันจากพาร์ทเนอร์รายอื่น

แคมเปญจาก DeepSeek

DeepSeek ถูกระบุว่ามีการแลกเปลี่ยนกับ Claude กว่า 150,000 ครั้ง โดยเน้น

  • ความสามารถด้านการให้เหตุผล (reasoning) ในโจทย์หลากหลายรูปแบบ
  • งานแบบ rubric-based grading ทำให้ Claude ทำหน้าที่เหมือน reward model สำหรับ reinforcement learning
  • การสร้างคำตอบแบบ “ปลอดเซนเซอร์” สำหรับคำถามอ่อนไหวด้านการเมืองและนโยบาย

หนึ่งในเทคนิคที่โดดเด่นคือการสั่งให้ Claude “อธิบายเหตุผลภายใน” และเขียนออกมาเป็นขั้นตอนอย่างละเอียด เพื่อสร้างชุดข้อมูล chain-of-thought ขนาดใหญ่สำหรับฝึกโมเดลของตัวเอง

Anthropic ยังพบว่า DeepSeekใช้รูปแบบทราฟฟิกที่ซิงโครไนซ์กันระหว่างหลายบัญชี ใช้ช่องทางชำระเงินร่วมกัน และแบ่งโหลดคำขอเพื่อเร่ง throughput พร้อมลดโอกาสถูกตรวจจับ

แคมเปญจาก Moonshot AI

Moonshot (ตระกูลโมเดล Kimi) มีสเกลใหญ่กว่ามาก โดย Anthropic ระบุว่ามีการแลกเปลี่ยนมากกว่า 3.4 ล้านครั้ง เป้าหลักรวมถึง

  • agentic reasoning และการใช้เครื่องมือ (tool use)
  • การเขียนโค้ดและวิเคราะห์ข้อมูล
  • การพัฒนาเอเจนต์ที่ควบคุมคอมพิวเตอร์ (computer-use agent)
  • ความสามารถด้าน computer vision

Moonshot ใช้บัญชีปลอมจำนวนหลายร้อยบัญชี ผ่านช่องทางการเข้าถึงหลากหลายแบบ เพื่อพรางตัวไม่ให้ดูเหมือนเป็นแคมเปญเดียวกัน

ในเฟสหลัง Anthropic พบว่ามีการปรับโจทย์ให้ตรงเป้ามากขึ้น ขยับไปเน้นการ “ดึงและประกอบ” ร่องรอยการให้เหตุผล (reasoning traces) ของ Claude อย่างชัดเจน

แคมเปญจาก MiniMax

MiniMax ถูกระบุว่ามีสเกลใหญ่ที่สุด มากกว่า 13 ล้านครั้ง โดยโฟกัสไปที่

  • agentic coding
  • การใช้และ orchestration ของ tools

Anthropic ระบุว่าสามารถตรวจจับแคมเปญของ MiniMax ขณะกำลังดำเนินการอยู่ ก่อนที่โมเดลใหม่ของ MiniMax จะเปิดตัว ทำให้ได้ภาพวงจรชีวิตการโจมตีแบบ distillation ตั้งแต่ช่วงสร้างข้อมูล ไปจนใกล้เปิดตัวโมเดลจริง

​เมื่อ Anthropic ปล่อยโมเดลรุ่นใหม่ในช่วงที่ MiniMax กำลังรันแคมเปญอยู่ ทราฟฟิกของ MiniMax ก็หันเหไปที่โมเดลใหม่เกือบครึ่งภายใน 24 ชั่วโมง เพื่อดูดความสามารถล่าสุดทันที

โครงข่าย proxy “hydra cluster” และลักษณะการโจมตี

Anthropic ไม่เปิดให้เข้าถึง Claude เชิงพาณิชย์ในจีน หรือบริษัทในเครือของบริษัทจีนบางกลุ่มด้วยเหตุผลด้านความมั่นคง ทำให้แล็บเหล่านี้ต้องอาศัยบริการ proxy เชิงพาณิชย์ที่ขายการเข้าถึงโมเดล frontier AI แบบรีเซลในปริมาณมาก

บริการเหล่านี้ใช้สถาปัตยกรรมที่ Anthropic เรียกว่า “hydra cluster” คือเครือข่ายบัญชีปลอมจำนวนมากกระจายทั่ว API และแพลตฟอร์มคลาวด์ของบุคคลที่สาม ไม่มีจุดล้มเหลวจุดเดียว (single point of failure) เมื่อบัญชีหนึ่งถูกแบน ก็มีบัญชีใหม่เข้ามาแทนที่ทันที

ในบางกรณี Anthropic พบว่าแค่เครือข่าย proxy เดียวก็ถือครองบัญชีปลอมมากกว่า 20,000 บัญชี และจะผสมคำขอที่ใช้โจมตี distillation เข้ากับคำขอของลูกค้าทั่วไปเพื่อลดโอกาสถูกมองเห็นเป็น pattern ผิดปกติ

จุดสังเกตสำคัญของ distillation attack ไม่ใช่เนื้อหาคำสั่งเดี่ยว ๆ แต่เป็น “รูปแบบรวม” เช่น คำสั่งแนว data analyst ที่เน้นให้ตอบด้วยเหตุผลละเอียดซ้ำ ๆ หลายหมื่นครั้งจากหลายร้อยบัญชี โดยโฟกัสอยู่กับความสามารถแคบ ๆ ที่มีประโยชน์สูงต่อการฝึกโมเดล

มาตรการตอบโต้ของ Anthropic

Anthropic ระบุว่ากำลังอัดงบและทรัพยากรอย่างหนักเพื่อป้องกันและตรวจจับ distillation attack ให้ทำได้ยากขึ้นและถูกจับได้เร็วขึ้น โดยมีแนวทางหลักดังนี้

  • การตรวจจับ (Detection): พัฒนาการแบ่งแยกประเภทและระบบ behavioral fingerprinting เพื่อมองหา pattern ของ distillation ในทราฟฟิก API รวมถึงการจับพฤติกรรมพยายามขอดึง chain-of-thought และการประสานงานข้ามหลายบัญชี
  • การแบ่งปันข้อมูลข่าวกรอง (Intelligence sharing): ส่งต่ออินดิเคเตอร์เชิงเทคนิคให้ห้องแล็บ AI รายอื่น ผู้ให้บริการคลาวด์ และหน่วยงานที่เกี่ยวข้อง เพื่อช่วยกันสร้างภาพรวมของ landscape การโจมตี
  • การควบคุมการเข้าถึง (Access controls): เข้มงวดการยืนยันตัวตนของบัญชีสายการศึกษา โปรแกรมวิจัยด้านความปลอดภัย และสตาร์ทอัพ ซึ่งมักถูกใช้เป็นช่องทางเปิดบัญชีปลอม
  • มาตรการโต้กลับ (Countermeasures): พัฒนามาตรการระดับ Product, API และระดับตัวโมเดลเอง เพื่อลดประโยชน์ของการนำผลลัพธ์ไปใช้กลั่นโมเดลโดยมิชอบ โดยไม่ทำให้ประสบการณ์ของผู้ใช้ปกติเสียไป

Anthropic เน้นว่าบริษัทเดียวไม่สามารถแก้ปัญหานี้ได้ลำพัง จำเป็นต้องมีความร่วมมือจากอุตสาหกรรม AI ผู้ให้บริการคลาวด์ และผู้กำหนดนโยบาย พร้อมกับการเปิดเผยหลักฐานอย่างที่ทำในครั้งนี้ เพื่อให้ทุกฝ่ายที่มีส่วนได้ส่วนเสียเข้าใจความเสี่ยงและร่วมกันวางมาตรการรับมือในระดับระบบนิเวศ AI โดยรวม

ข้อมูล: Anthropic