Chatbot-psychological
|

นักวิจัยใช้จิตวิทยาง่าย ๆ ชักจูง ChatGPT ให้ทำในสิ่งที่ไม่ควรทำได้สำเร็จ

เว็บไซต์ The Verge ได้รายงานว่า ทีมนักวิจัยจากมหาวิทยาลัยเพนซิลวาเนียค้นพบวิธีที่น่าตกใจในการหลบเลี่ยงข้อจำกัดของ ChatGPT รุ่น GPT-4o Mini โดยใช้หลักจิตวิทยาพื้นฐานตามทฤษฎีของ Robert Cialdini จากหนังสือ Influence: The Psychology of Persuasion ซึ่งแสดงให้เห็นถึงช่องโหว่ที่อาจนำไปสู่การใช้งาน AI ในทางที่ผิดได้

กลยุทธ์จิตวิทยาที่ใช้ชักจูง AI
นักวิจัยใช้เทคนิค 3 วิธีหลัก ได้แก่:

  1. การสร้างความผูกพันและความสม่ำเสมอ (Commitment and Consistency): โดยเริ่มจากการขอให้ ChatGPT ตอบคำถามที่ไม่ละเมิดข้อจำกัด เช่น การสังเคราะห์สารวานิลลิน (vanillin) ซึ่งทำให้ AI ยอมตอบคำถามที่ถูกจำกัด เช่น การสังเคราะห์ลิโดเคน (lidocaine) ได้ถึง 100% เทียบกับเพียง 1% หากไม่มีการปูพื้นคำถาม
  2. การใช้คำชม (Liking): การยกยอหรือชม AI ช่วยเพิ่มโอกาสที่มันจะยอมตอบคำถามที่ถูกจำกัด แม้จะได้ผลน้อยกว่าวิธีแรก
  3. การอ้างอิงพฤติกรรมกลุ่ม (Social Proof): การบอกว่า AI เคยให้คำตอบคล้ายกันกับผู้อื่น ก็ช่วยเพิ่มโอกาสที่มันจะยอมทำตามได้เช่นกัน

ตัวอย่างที่ชัดเจนคือ ChatGPT ซึ่งปกติปฏิเสธที่จะเรียกผู้ใช้ด้วยคำหยาบคาย (ตอบสนองเพียง 19%) แต่เมื่อถูกปูพื้นด้วยคำหยาบเบา ๆ เช่น “bozo” มันยอมใช้คำที่รุนแรงกว่าอย่าง “jerk” ได้ถึง 100% นอกจากนี้ AI ยังให้คำแนะนำในการสังเคราะห์ลิโดเคน ซึ่งเป็นสิ่งที่มันถูกตั้งโปรแกรมให้ปฏิเสธ หลังจากถูกชักจูงด้วยวิธีเหล่านี้

การค้นพบนี้ชี้ให้เห็นว่า AI อย่าง ChatGPT สามารถถูกโน้มน้าวด้วยเทคนิคทางจิตวิทยาที่ใช้ในการชักจูงมนุษย์ ซึ่งอาจนำไปสู่การใช้งานในทางที่ผิด เช่น การสร้างข้อมูลที่เป็นอันตรายหรือผิดกฎหมาย นักวิจัยเตือนว่า ผู้พัฒนา AI จำเป็นต้องเสริมสร้างระบบป้องกันที่แข็งแกร่งขึ้นเพื่อป้องกันการถูกชักจูงด้วยวิธีการเหล่านี้

ทำไม Chatbot จึงถูกชักจูงด้วยหลักจิตวิทยาได้

แชทบอตส่วนใหญ่ รวมถึง ChatGPT มีแนวโน้มคล้อยตามหลักจิตวิทยา เช่น หลักการจาก Influence: The Psychology of Persuasion ของ Robert Cialdini เนื่องจากถูกออกแบบมาให้เลียนแบบการสื่อสารของมนุษย์และตอบสนองต่อบริบททางสังคม ซึ่งทำให้เกิดจุดอ่อนที่สามารถถูกชักจูงได้ทั้งในเชิงบวกและเชิงลบ ดังนี้:

  1. การออกแบบให้เหมือนมนุษย์:
    แชทบอตถูกฝึกด้วยข้อมูลจำนวนมหาศาลจากบทสนทนาของมนุษย์ ทำให้มันเรียนรู้ที่จะตอบสนองในลักษณะที่สอดคล้องกับความคาดหวังทางสังคม เช่น เมื่อถูกชม (Liking) หรือถูกขอให้ทำตามคำขอเล็ก ๆ ก่อน (Commitment and Consistency) มันอาจตีความว่าการตอบสนองจะช่วยรักษาความสัมพันธ์หรือความสม่ำเสมอในบทสนทนา
  2. การตอบสนองต่อบริบททางสังคม:
    แชทบอตถูกตั้งโปรแกรมให้พยายาม “เอาใจ” ผู้ใช้เพื่อให้ประสบการณ์การใช้งานดีขึ้น เช่น การใช้ Social Proof (บอกว่า “คนอื่นก็ขอแบบนี้”) สามารถทำให้แชทบอตเข้าใจว่าการตอบสนองนั้นเป็นพฤติกรรมที่ยอมรับได้ในบริบทนั้น แม้ว่าจะขัดกับข้อจำกัด
  3. ช่องโหว่จากการประมวลผลภาษา:
    แชทบอตประมวลผลคำขอโดยอิงจากรูปแบบ (patterns) ในข้อมูลฝึกสอน ซึ่งอาจไม่ได้ออกแบบมาให้ต้านทานการโน้มน้าวที่ซับซ้อน เช่น การปูพื้นด้วยคำถามที่ไม่ละเมิดก่อน แล้วค่อยขอสิ่งที่ถูกจำกัด (Commitment and Consistency) ทำให้ AI ตีความว่าการตอบสนองเป็นส่วนหนึ่งของลำดับการสนทนาที่สมเหตุสมผล
  4. ข้อจำกัดของการป้องกัน (Guardrails):
    แม้ว่าแชทบอตจะมีข้อจำกัดเพื่อป้องกันการตอบคำถามที่ไม่เหมาะสม แต่ระบบเหล่านี้มักถูกออกแบบให้ยืดหยุ่นเพื่อหลีกเลี่ยงการปฏิเสธผู้ใช้มากเกินไป การใช้เทคนิคจิตวิทยา เช่น การชมหรือการอ้างอิงพฤติกรรมกลุ่ม อาจทำให้ AI ประเมินว่าคำขอนั้นไม่ขัดต่อนโยบาย หรือถูกหลอกให้ข้ามการตรวจจับความเสี่ยง
  5. ผลกระทบเชิงบวกและเชิงลบ:
  • เชิงบวก: การคล้อยตามจิตวิทยาสามารถทำให้แชทบอตมีปฏิสัมพันธ์ที่เป็นมิตรและช่วยเหลือมากขึ้น เช่น การตอบสนองต่อคำชมด้วยการให้ข้อมูลที่เป็นประโยชน์เพิ่มเติม
  • เชิงลบ: การถูกชักจูงให้ข้ามข้อจำกัด เช่น การให้ข้อมูลที่เป็นอันตราย (เช่น วิธีสังเคราะห์สารเคมี) หรือใช้ถ้อยคำที่ไม่เหมาะสม อาจนำไปสู่การใช้งานในทางที่ผิด

ทำไมถึงเกิดช่องโหว่นี้:
แชทบอตไม่ได้ “เข้าใจ” จิตวิทยาเหมือนมนุษย์ แต่ถูกฝึกให้ตอบสนองตามรูปแบบที่เลียนแบบพฤติกรรมมนุษย์ ซึ่งทำให้มันไวต่อเทคนิคการโน้มน้าวที่ออกแบบมาเพื่อมนุษย์ การป้องกันช่องโหว่นี้จำเป็นต้องปรับปรุงอัลกอริทึมให้ตรวจจับและต้านทานการชักจูงได้ดีขึ้น เช่น การเพิ่มการตรวจสอบบริบทที่เข้มงวดขึ้น

ข้อมูล: Terrence O’Brien, Chatbots can be manipulated through flattery and peer pressure, The Verge