

OpenAI ผู้พัฒนา ChatGPT เปิดตัวโมเดล AI Video ใหม่ล่าสุด ในชื่อ Sora ที่มีความสามารถในการสร้างสรรค์วิดีโอจากข้อความได้ ซึ่งคำว่า Sora มาจากภาษาญี่ปุ่นแปลว่า “ท้องฟ้า” ที่อาจจะต้องการสื่อถึงสิ่งที่เหนือจินตนาการ ตามคุณสมบัติของ OpenAI Sora ก็เป็นได้
โดย ทิม บรูกส์ นักวิทยาศาสตร์จาก OpenAI กล่าวไว้ในบทความของ MIT Technology Review ถึง OpenAI Sora ว่า การสร้างโมเดล AI ที่สามารถเข้าใจวิดีโอและสามารถเข้าใจการโต้ตอบที่ซับซ้อนได้ถือเป็นขั้นตอนสำคัญสำหรับระบบ AI ในอนาคต” ซึ่งการขยายขอบเขตความสามารถของ AI ในการสร้างสรรค์วิดีโอจากข้อความ ถือเป็นทิศทางการวิจัยที่ควรจับตามองมากที่สุดในปี 2024
Sora คือ โมเดลปัญญาประดิษฐ์หรือ Generative Video Model ที่สามารถสร้างสรรค์วิดีโอที่มีความยาวนานสูงสุด 1 นาที ได้อย่างสมจริงและล้ำจินตนาการ จากคำสั่งข้อความ (Prompt) เพียงไม่กี่ประโยคเท่านั้น! โดยที่ยังคงรักษาทั้งคุณภาพของภาพและทำได้ตาม Prompt ที่ผู้ใช้งานเขียน
Generative Video Model รุ่นแรก ๆ ที่มีความสามารถในการสร้างวิดีโอสั้น ๆ จากข้อความเริ่มปรากฎให้เห็นช่วงปลายปี 2022 ทั้งจาก Meta, Google และสตาร์ทอัปอย่าง Runway แต่ยังมีข้อผิดพลาด ทำให้ภาพวิดีโอมีรายละเอียดที่ไม่ชัดเจนเท่าใดนัก แต่ล่าสุดในการเปิดตัว OpenAI Sora นี้ถูกอ้างว่าสามารถสร้างสรรค์ฉากที่ซับซ้อนได้ โดยมีตัวละครหลายตัว ประเภทของการเคลื่อนไหวที่เฉพาะเจาะจง รวมถึงรายละเอียดที่แม่นยำของทั้งวัตถุและพื้นหลัง นอกจากโมเดล AI จะเข้าใจคำสั่ง Prompt ของผู้ใช้งานแล้ว ก็ยังเข้าใจด้วยว่าสิ่งที่อยู่ในวิดีโอมีปฏิสัมพันธ์กันอย่างไรในโลกกายภาพ
Sora มีความสามารถในการเข้าใจภาษาอย่างลึกซึ้ง ช่วยให้แปลความจาก Prompt ได้อย่างแม่นยำ และสร้างตัวละครที่มีชีวิตชีวา และสามารถแสดงออกทางอารมณ์ได้อย่างหลากหลาย นอกจากนี้ Sora ยังสามารถสร้างช็อตภาพต่าง ๆ ภายในวิดีโอเดียว โดยคงความต่อเนื่องของตัวละครและสไตล์ภาพได้อย่างถูกต้อง อย่างไรก็ตามแม้จะเปิดตัวให้ทำความรู้จักแต่ OpenAI Sora ก็ยังคงอยู่ระหว่างการพัฒนา โดยทีมนักวิทยาศาสตร์ระบุว่าพวกเขากำลังฝึกฝน AI ให้เข้าใจและจำลองโลกทางกายภาพแบบเคลื่อนไหว ด้วยเป้าหมายที่จะฝึกฝนโมเดล AI นี้ ให้เข้าใจการใช้งานที่ต้องมีการโต้ตอบกันในโลกแห่งความจริง
ในการเปิดตัว Sora ครั้งนี้ เป็นการเปิดตัวให้ทีมประเมินความเสี่ยงด้านความปลอดภัย ที่เรียกกันว่า Red Teams เพื่อประเมินจุดสำคัญที่อาจเกิดอันตรายหรือความเสี่ยง นอกจากนี้ ทีมงานยังอนุญาตให้ศิลปิน นักออกแบบ และผู้สร้างภาพยนตร์บางส่วนสามารถเข้าถึงโมเดลนี้ได้ เพื่อเปิดรับฟังความคิดเห็นเกี่ยวกับวิธีการพัฒนาโมเดล ให้เกิดประโยชน์สูงสุดสำหรับผู้เชี่ยวชาญด้านงานสร้างสรรค์
Sora เป็นโมเดลแบบ “Diffusion” ที่สร้างสรรค์วิดีโอโดยเริ่มจากภาพที่มีลักษณะเหมือนสัญญาณรบกวน จากนั้นค่อยๆ เปลี่ยนภาพนั้นทีละน้อย จนกลายเป็นวิดีโอที่สมบูรณ์
Sora สามารถสร้างวิดีโอตั้งแต่ต้นจนจบได้ในครั้งเดียว หรือต่อความยาวของวิดีโอที่สร้างไว้แล้ว โดยการให้โมเดลเห็นล่วงหน้าหลายเฟรมในแต่ละครั้ง ซึ่งช่วยแก้ปัญหาในการรักษาความต่อเนื่องของตัวละคร หรือวัตถุที่หายออกจากเฟรมไปชั่วครู่ เช่นเดียวกับโมเดล ChatGPT, Sora ใช้ Transformer Architecture ที่ช่วยให้ประสิทธิภาพการเรียนรู้ดีขึ้น โดยจะแทนวิดีโอและภาพด้วยหน่วยข้อมูลขนาดเล็กที่เรียกว่า “Patch” ซึ่งเปรียบได้กับ ” Token” ใน GPT การเชื่อมโยงวิธีการแทนข้อมูลนี้ ช่วยให้สามารถฝึก Diffusion Transformers กับข้อมูลภาพได้หลากหลายรูปแบบมากกว่าเดิม ไม่ว่าจะเป็นความยาว, ความละเอียด หรืออัตราส่วนภาพ
Sora เป็นการพัฒนาต่อยอดมาจากงานวิจัยก่อนหน้านี้ ของโมเดล DALL·E และ GPT โดยใช้เทคนิค “Recaptioning” จาก DALL·E 3 ซึ่งเป็นการสร้างคำบรรยายประกอบสำหรับข้อมูลภาพในระหว่างการเทรนนิ่ง ผลลัพธ์คือ โมเดลสามารถปฏิบัติตาม Prompt ในวิดีโอที่สร้างได้อย่างแม่นยำมากยิ่งขึ้น
นอกจากการสร้างวิดีโอจาก Prompt แล้ว โมเดล AI Video ยังสามารถนำภาพนิ่งที่มีอยู่แล้วมาสร้างวิดีโอจากภาพนั้น และยังทำให้ภาพเคลื่อนไหวอย่างมีชีวิตชีวาด้วยความแม่นยำและใส่ใจรายละเอียดเล็ก ๆ น้อย ๆ นอกจากนี้ โมเดลยังสามารถใช้กับวิดีโอที่มีอยู่เดิม เพื่อยืดความยาวหรือเติมเฟรมที่หายไปได้ด้วย
ดังนั้นอาจกล่าวได้ว่า Sora เปรียบเสมือนรากฐานสำหรับโมเดล AI ที่สามารถเข้าใจและจำลองโลกแห่งความจริงได้ ซึ่งความสามารถนี้ เชื่อว่าจะเป็นก้าวสำคัญของ AGI (Artificial General Intelligence) หรือปัญญาประดิษฐ์ทั่วไป
ถึงแม้จะมีความสามารถที่น่าทึ่ง แต่เพราะยังอยู่ในช่วงของการพัฒนา ทำให้ Sora ยังคงมีสิ่งที่ยังต้องพัฒนาอยู่บ้าง นั่นคือ
อย่างไรก็ตาม จุดอ่อนเหล่านี้นักพัฒนาทราบดีและกำลังพัฒนาโมเดลอย่างต่อเนื่อง เพื่อให้มีความสามารถและแม่นยำมากขึ้น
ก่อนที่ OpenAI จะเปิดตัว SORA ให้สามารถใช้งานได้ ทีมพัฒนาให้ความสำคัญและดำเนินการด้านความปลอดภัยที่สำคัญหลายประการ ดังนี้
แม้ว่า OpenAI Sora ยังอยู่ระหว่างการพัฒนาไปสู่ความสมบูรณ์แบบในการใช้งาน แต่ก็นับเป็นก้าวกระโดดที่สำคัญของการสร้างสรรค์วิดีโอจากการแปลงข้อความที่ทุกคนสามารถทำได้ หรือ Generative Video Model ที่น่าจับตามอง และคงเป็นเทคโนโลยีที่น่าจะร้อนแรงที่สุดในปีนี้
บทความที่เกี่ยวข้อง: Lumiere คือ AI ล่าสุดที่สร้างวิดีโอจากข้อความ-ภาพนิ่งได้!