GPT 5.3 Codex cover
|

OpenAI เปิดตัว GPT‑5.3‑Codex เอเจนต์โค้ดดิ้งยุคใหม่ที่ทำงานแทนนักพัฒนาได้เกือบครบวงจร

OpenAI ประกาศเปิดตัว GPT‑5.3‑Codex โมเดลสายโค้ดรุ่นล่าสุดที่ถูกออกแบบให้เป็นเอเจนต์อัจฉริยะสำหรับทำงานบนคอมพิวเตอร์ ตั้งแต่เขียนโค้ด ตรวจบั๊ก ทำเว็บแอป ไปจนถึงงานเอกสารเชิงมืออาชีพ โดยอัปเกรดทั้งด้านสมรรถนะการเขียนโปรแกรม การให้เหตุผล และความรู้เชิงวิชาชีพ พร้อมเคลมว่าทำงานได้เร็วกว่า GPT‑5.2‑Codex ถึง 25%

GPT‑5.3‑Codex: จากผู้ช่วยเขียนโค้ด สู่เอเจนต์ทำงานบนคอมพิวเตอร์

OpenAI ระบุว่า GPT‑5.3‑Codex เป็นโมเดล Codex รุ่นแรกที่มีบทบาทช่วย “เทรนและดีพลอยตัวเอง” ทีมพัฒนาใช้เวอร์ชันต้นแบบของโมเดลช่วยดีบั๊กระบบเทรนนิ่ง ดูแล deployment รวมถึงวิเคราะห์ผลทดสอบและ evaluation ต่าง ๆ ทำให้รอบการพัฒนาโมเดลรุ่นนี้เร็วขึ้นอย่างมีนัยสำคัญ

แนวคิดหลักของ GPT‑5.3‑Codex คือยกระดับ Codex จากเอเจนต์ที่แค่เขียนและรีวิวโค้ด ไปสู่เอเจนต์ที่ทำงานได้เกือบทุกอย่างบนเครื่องคอมพิวเตอร์เหมือนผู้เชี่ยวชาญคนหนึ่ง ผู้ใช้สามารถสั่งให้รันงานยาว ๆ ที่มีทั้งการรีเสิร์ช เรียกใช้เครื่องมือ และลงมือ execute งานซับซ้อนได้ต่อเนื่อง พร้อมคุยโต้ตอบและเปลี่ยนโจทย์ระหว่างทางโดยไม่หลุดคอนเท็กซ์

คะแนนเบนช์มาร์กและความสามารถด้านโค้ด

บนชุดทดสอบสายซอฟต์แวร์และเอเจนต์เชิงปฏิบัติอย่าง SWE‑Bench Pro และ Terminal‑Bench 2.0 GPT‑5.3‑Codex ทำคะแนนสูงสุดใหม่ของอุตสาหกรรม โดย SWE‑Bench Pro เป็นเบนช์มาร์กที่จำลองงานซอฟต์แวร์จริง ครอบคลุมหลายภาษาโปรแกรมและออกแบบมาให้ป้องกันการปนเปื้อนข้อมูลเทรนอย่างเข้มงวด

ในตารางสรุปท้ายบทความ GPT‑5.3‑Codex (โหมด reasoning xhigh) ทำคะแนน SWE‑Bench Pro ได้ 56.8% แซงทั้ง GPT‑5.2‑Codex (56.4%) และ GPT‑5.2 (55.6%) ส่วน Terminal‑Bench 2.0 โมเดลใหม่ขึ้นไปถึง 77.3% จากเดิม 64.0% บน GPT‑5.2‑Codex แสดงให้เห็นความสามารถใช้งานเทอร์มินัลที่แข็งแรงขึ้นมาก นอกจากนี้ยังใช้จำนวนโทเคน output น้อยกว่ารุ่นก่อนในระดับความแม่นยำใกล้เคียงหรือสูงกว่า ช่วยให้ผู้ใช้ “ต่อยอด” งานได้มากขึ้นต่อการเรียกใช้แต่ละครั้ง

บนเบนช์มาร์กสายเอเจนต์ใช้คอมพิวเตอร์จริงอย่าง OSWorld‑Verified GPT‑5.3‑Codex ทำได้ 64.7% เทียบกับ GPT‑5.2‑Codex ที่ 38.2% และ GPT‑5.2 ที่ 37.9% สะท้อนว่ามีทักษะการใช้งานเดสก์ท็อปและแอปต่าง ๆ ใกล้เคียงมนุษย์มากขึ้น (มนุษย์ทำได้ราว 72%)

งานเว็บและแอป: สร้างเกมและหน้าเว็บซับซ้อนแบบรันยาว

OpenAI ยกตัวอย่างการทดสอบความสามารถด้านเว็บดีเวลลอปเมนต์และการทำงานระยะยาว โดยสั่งให้ GPT‑5.3‑Codex พัฒนาเกมเว็บสองเกม ได้แก่ เกมแข่งรถเวอร์ชัน 2 (ต่อยอดจากเกมในงานเปิดตัว Codex app) และเกมดำน้ำ ที่ต้องออกแบบทั้งระบบเกมเพลย์ แผนที่ รายการปลา ระบบออกซิเจน ความดัน และอันตรายต่าง ๆ

ทีมงานใช้สกิล “develop web game” คู่กับพรอมต์ติดตามผลแบบมาตรฐาน เช่น “fix the bug” หรือ “improve the game” ให้โมเดลวนพัฒนางานด้วยตัวเองต่อเนื่องเป็นล้าน ๆ โทเคน ผลงานเกมที่ได้สามารถเล่นจริงผ่านลิงก์ตัวอย่างในบทความ และแสดงให้เห็นว่าตัวโมเดลสามารถออกแบบทั้งโค้ดและองค์ประกอบเชิงภาพได้ในระดับ production-ready

สำหรับงานสร้างเว็บไซต์ GPT‑5.3‑Codex ถูกระบุว่ายังเข้าใจเจตนาผู้ใช้ได้ดีขึ้นจาก GPT‑5.2‑Codex โดยเมื่อสั่งสร้างหน้า Landing Page สำหรับบริการ “Quiet KPI” โมเดลใหม่เลือกแสดงแพลนรายปีในรูปแบบราคาต่อเดือนพร้อมส่วนลดอย่างชัดเจน และสร้าง testimonial carousel แบบเลื่อนอัตโนมัติพร้อมหลายคำรีวิว ทำให้หน้าเว็บดูเต็มและพร้อมใช้งานกว่าเดิมตั้งแต่เวอร์ชันแรกที่ generate ออกมา

ก้าวข้ามการเขียนโค้ด: รองรับงานโปรเฟสชันแนลครบวงจร

OpenAI ย้ำว่าในโลกจริงวิศวกรซอฟต์แวร์ ดีไซเนอร์ โปรดักต์ และ Data Scientist ทำมากกว่าการเขียนโค้ด GPT‑5.3‑Codex จึงถูกออกแบบให้รองรับทั้งวงจรงานซอฟต์แวร์ ได้แก่ ดีบั๊ก ดีพลอย มอนิเตอร์ เขียน PRD เขียน/แก้ไขคอนเทนต์ ทำ user research ออกแบบเทสต์ และวิเคราะห์เมตริก ไปจนถึงงานนอกสายซอฟต์แวร์อย่างจัดทำสไลด์ วิเคราะห์ข้อมูลในสเปรดชีต หรือสร้างเอกสารเชิงธุรกิจ

เมื่อใช้สกิลคัสตอมแบบเดียวกับที่ใช้ใน GDPval GPT‑5.3‑Codex ทำผลงานบน GDPval ได้เทียบเท่า GPT‑5.2 ที่ระดับชนะหรือเสมอ 70.9% ของโจทย์ โดย GDPval เป็นชุดประเมินงานความรู้ (knowledge work) จริงจาก 44 อาชีพ เช่น จัดทำพรีเซนเทชัน สร้างสเปรดชีต และงานเอกสารเชิงมืออาชีพอื่น ๆ บทความยังยกตัวอย่างงานที่โมเดลสร้าง เช่น สไลด์ให้คำแนะนำด้านการเงิน เอกสารเทรนนิงรีเทล และไฟล์วิเคราะห์ NPV

บนมุมมองการใช้งานจริง OpenAI เล่าว่าทีมวิจัยใช้ Codex ช่วยมอนิเตอร์และดีบั๊กเทรนนิ่งรันของโมเดลนี้ เสนอแนวคิดและสร้างแอปภายในสำหรับวิเคราะห์พฤติกรรมโมเดล เปรียบเทียบกับรุ่นก่อน ๆ และสรุป insight จากข้อมูลจำนวนมากในเวลาไม่กี่นาที ขณะเดียวกันทีมวิศวกรใช้ Codex ช่วยหาบั๊กเรื่อง context rendering และปัญหา cache hit rate ต่ำ รวมถึงจัดการสเกล GPU cluster แบบไดนามิกให้รองรับทราฟฟิกช่วงเปิดตัว

อินเทอร์เฟซร่วมงานแบบ “คุยกับเอเจนต์”

บนฝั่งประสบการณ์ใช้งาน OpenAI ปรับ Codex app ให้ทำงานกับ GPT‑5.3‑Codex ได้แบบ interactive มากขึ้น โมเดลจะรายงานความคืบหน้าระหว่างทำงานเป็นระยะ ผู้ใช้สามารถถาม แทรกคอมเมนต์ หรือเปลี่ยนทิศทางงานระหว่างทางได้ คล้ายทำงานร่วมกับเพื่อนร่วมทีมที่อัปเดตสถานะตลอด ไม่ต้องรอผลลัพธ์สุดท้ายทีเดียว

ในแอปยังมีตัวเลือก “steering while the model works” ที่เปิดให้เข้าไปกำกับท่ามกลางการประมวลผลผ่านเมนู Settings > General > Follow‑up behavior ซึ่งช่วยลดช่องว่างระหว่างความสามารถของเอเจนต์กับความสามารถในการควบคุมของมนุษย์เมื่อมีเอเจนต์หลายตัวทำงานขนานกัน

โฟกัสด้านความปลอดภัยไซเบอร์

OpenAI ระบุว่า GPT‑5.3‑Codex เป็นโมเดลแรกที่ถูกจัดอยู่ในระดับ High capability สำหรับงานด้านไซเบอร์ซีเคียวริตี้ตามกรอบ Preparedness Framework ของบริษัท และเป็นรุ่นแรกที่ถูกเทรนโดยตรงให้ระบุช่องโหว่ซอฟต์แวร์ แม้ยังไม่มีหลักฐานชัดเจนว่าโมเดลสามารถอัตโนมัติโจมตีไซเบอร์ได้ครบวงจร แต่บริษัทเลือกใช้แนวทางระมัดระวังสูงสุดด้วยการติดตั้ง “cybersecurity safety stack” ที่ครอบคลุม ทั้งการเทรนด้านความปลอดภัย ระบบมอนิเตอร์อัตโนมัติ การจำกัดการเข้าถึงฟีเจอร์ขั้นสูง และ pipeline enforcement ที่อาศัยข้อมูล threat intelligence

ในเชิงระบบนิเวศ OpenAI เปิดโครงการ Trusted Access for Cyber เป็นโปรแกรมนำร่องเพื่อเร่งงานวิจัยด้านป้องกันไซเบอร์ พร้อมขยายเบต้าแบบส่วนตัวของ Aardvark เอเจนต์ช่วยวิจัยด้านความปลอดภัย ซึ่งถือเป็นผลิตภัณฑ์ตัวแรกในชุด Codex Security นอกจากนี้ยังจับมือกับผู้ดูแลโอเพนซอร์สอย่าง Next.js เพื่อสแกนโค้ดเบสหาช่องโหว่ฟรี และเพิ่มงบสนับสนุนผ่านโครงการ Cybersecurity Grant Program จากเดิม 1 ล้านดอลลาร์เป็นการให้เครดิต API มูลค่า 10 ล้านดอลลาร์ สำหรับองค์กรที่ทำวิจัยด้านความปลอดภัยโดยสุจริต โดยเน้นโครงสร้างพื้นฐานสำคัญและซอฟต์แวร์โอเพนซอร์ส

การให้บริการ ความเร็ว และฮาร์ดแวร์เบื้องหลัง

GPT‑5.3‑Codex พร้อมให้ใช้งานแล้วสำหรับผู้ใช้ที่มีแพ็กเกจ ChatGPT แบบชำระเงินในทุกช่องทางที่ใช้งาน Codex ได้ ได้แก่ แอป Codex, CLI, ส่วนขยาย IDE และเว็บ โดย OpenAI ระบุว่ากำลังเตรียมเปิดให้ใช้งานผ่าน API อย่างปลอดภัยในอนาคตอันใกล้

ในครั้งนี้ OpenAI ยังระบุว่าประสบความสำเร็จในการปรับปรุงโครงสร้างพื้นฐานและระบบ inference ทำให้รัน GPT‑5.3‑Codex ได้เร็วขึ้น 25% เมื่อเทียบกับก่อนหน้า ส่งผลให้การโต้ตอบตอบสนองเร็วขึ้นและได้ผลลัพธ์ไวขึ้น ขณะเดียวกันโมเดลถูกออกแบบ เทรน และให้บริการบนระบบ NVIDIA GB200 NVL72 ทั้งชุด ซึ่ง OpenAI กล่าวขอบคุณ NVIDIA สำหรับความร่วมมือในโครงการนี้

ท้ายที่สุด OpenAI มองว่า GPT‑5.3‑Codex คือจุดเปลี่ยนที่ทำให้ Codex ก้าวข้ามบทบาท “เอเจนต์เขียนโค้ดที่เก่งที่สุด” ไปสู่บทบาทผู้ร่วมงานอเนกประสงค์บนคอมพิวเตอร์ ที่สามารถทั้งคิด วางแผน ลงมือสร้าง และรันงานเทคนิคจริงได้ตั้งแต่ต้นจนจบ ช่วยเปิดโอกาสให้คนกลุ่มกว้างขึ้นสามารถสร้างซอฟต์แวร์และผลงานดิจิทัลซับซ้อนได้ด้วยเอเจนต์ตัวเดียว

GPT-5.3-Codex (xhigh)GPT-5.2-Codex (xhigh)GPT-5.2 (xhigh)
SWE-Bench Pro (Public)56.8%56.4%55.6%
Terminal-Bench 2.077.3%64.0%62.2%
OSWorld-Verified64.7%38.2%37.9%
GDPval (wins or ties)70.9%70.9% (high)
Cybersecurity Capture The Flag Challenges77.6%67.4%67.7%
SWE-Lancer IC Diamond81.4%76.0%74.6%

ข้อมูล: OpenAI