OpenAI เปิดตัว ChatGPT รุ่นเรือธง GPT-4o เข้าใจคำสั่งด้วยเสียง ใช้งานฟรี !
OpenAI เปิดตัว ChatGPT รุ่นเรือธงใหม่ในชื่อ GPT-4o ซึ่งเป็น Generative AI โมเดลล่าสุดที่มีความสามารถมากขึ้นกว่าเดิม โดย Mira Murati ประธานเจ้าหน้าที่บริหารฝ่ายเทคโนโลยี (CTO) ของ OpenAI ระบุว่า GPT-4o ทำงานได้เร็วขึ้นกว่าเดิมมาก พร้อมทั้งพัฒนาความสามารถเพิ่มขึ้นด้วย Multimodel จึงสามารถวิเคราะห์ได้ทั้งส่วนของข้อความ วิดีโอ และเสียง โดย ChatGPT รุ่นเรือธงนี้จะอนุญาตให้ผู้ใช้งานสามารถใช้วิดีโอแชต (Video Chat) ได้ด้วย จึงเป็นก้าวสำคัญของ ChatGPT ที่ทำให้สามารถใช้งานได้ง่ายยิ่งขึ้น และโต้ตอบได้เหมือนการพูดคุยมากขึ้น
Mira Murati เผยด้วยว่าเหตุผลสำคัญที่พัฒนา GPT-4o ให้สามารถใช้งานได้ทั้งในรูปแบบเสียง ข้อความ และการมองเห็นผ่าน Video Chat นั้น เป็นเพราะ OpenAI มองถึงอนาคตในการมีปฏิสัมพันธ์ระหว่างคนกับเครื่องจักรนั่นเอง หลังจากนำ GPT-4 Turbo ซึ่งเป็นโมเดลที่ดีที่สุดก่อนหน้านี้ของ OpenAl มาฝึกฝนเพิ่มเติมเกี่ยวกับการผสมผสานระหว่างรูปภาพกับข้อความ รวมถึงความสามารถในการวิเคราะห์รูปภาพและข้อความ เช่น การแยกข้อความออกจากรูปภาพ หรือแม้แต่อธิบายเนื้อหาของรูปภาพเหล่านั้นได้ โดย GPT-4o มีความสามารถที่เพิ่มขึ้นในการเข้าใจคำสั่งด้วยเสียง โต้ตอบการสนทนาได้อย่างเป็นธรรมชาติมากขึ้น และตอบสนองได้แบบเรียลไทม์
ขณะที่ Brad Lightcap ประธานเจ้าหน้าที่บริหารฝ่ายปฏิบัติการของ (COO) ของ OpenAI กล่าวว่าการเปิดตัว GPT-4o ในครั้งนี้ ถือเป็นการประกาศครั้งใหญ่ที่สุดของบริษัท นับตั้งแต่เปิดตัว ChatGPT Enterprise แชทบอท AI สำหรับธุรกิจไปเมื่อเดือนสิงหาคม 2023 โดยใช้เวลาไม่ถึงปีในการพัฒนาChatGPT รุ่นเรือธง และได้รับความช่วยเหลือจากบริษัทกว่า 20 แห่งที่มีขนาดและอุตสาหกรรมที่แตกต่างกัน
GPT-4o คืออะไร
GPT-4o คือ ChatGPT รุ่นเรือธง ที่มีความสามารถมากกว่าเวอร์ชันก่อน ๆ โดยตัว “o” ที่ต่อท้ายเลข 4 ในเวอร์ชันใหม่นี้ ย่อมาจากคำว่า “omni” เพื่อสื่อความหมายว่า Generative AI โมเดลล่าสุดของ OpenAI มีความสามารถหลากหลายในการจัดการทั้งข้อความ คำพูด และวิดีโอได้ โดยเข้าใจภาษาต่าง ๆ ได้มากถึง 50 ภาษา อีกทั้งมีการทำงานที่รวดเร็วและมีคุณภาพยิ่งขึ้นด้วย โดยทำงานเร็วกว่า GPT-4 Turbo ถึง 2 เท่า ขณะที่ราคาเปิดตัวถูกกว่า GPT-4 Turbo ครึ่งหนึ่งเลยทีเดียว !
ที่สำคัญ GPT-4o มีความสามารถในการ “รับรู้อารมณ์” ของผู้ใช้งานได้ด้วย และสามารถตอบสนองต่อเสียงของผู้ใช้งานได้ภายในเวลาเพียง 232 มิลลิวินาที หรือโดยเฉลี่ย 320 มิลลิวินาที ซึ่งใกล้เคียงกับเวลาตอบสนองของมนุษย์ในการสนทนา และเมื่อถูกขัดจังหวะก็สามารถสื่อสารต่อได้อย่างไม่มีสะดุด
นอกจากนี้ โมเดลใหม่ของ OpenAI ยังทำหน้าที่เป็น “นักแปล” หรือ “ล่าม” ได้ด้วยแม้ว่าจะอยู่ในโหมดการใช้งานแบบเสียงเท่านั้นก็ตาม โดย Mark Chen หนึ่งในทีมวิจัยของ OpenAI สาธิตการใช้งานดังกล่าวในงานเปิดตัว โดยให้ GPT-4o แปลภาษาที่ได้ยินแบบเรียลไทม์ จากบทสนทนาระหว่างเขากับผู้บริหาร CTO ของ OpenAI ที่มีทั้งภาษาอิตาเลียนและภาษาอังกฤษ โดย GPT-4o สามารถแปลภาษาอิตาเลียนเป็นภาษาอังกฤษ และแปลภาษาอังกฤษกลับไปเป็นภาษาอิตาเลียนได้ทันที
อย่างไรก็ตาม ความสามารถในการใช้งาน “โหมดเสียง” จะยังไม่รวมอยู่ในการใช้งานผ่าน API ที่เปิดให้นักพัฒนานำไปใช้งานต่อได้ โดย OpenAl ระบุว่ามีความเสี่ยงต่อการการนำไปใช้งานในทางที่ผิด จึงมีแผนจะเปิดให้ใช้งานส่วนนี้ครั้งแรกเฉพาะพันธมิตรกลุ่มเล็ก ๆ ที่เชื่อถือได้เท่านั้น และวางแผนจะทดสอบการใช้งานในโหมดเสียงในอีกไม่กี่สัปดาห์ข้างหน้า ก่อนจะเปิดให้สมาชิกที่ใช้งานแบบชำระเงินสามารถเข้าถึงเวอร์ชันล่าสุดนี้ได้ก่อนใคร
ส่วนความสามารถอื่น ๆ ที่สามารถทำได้ดีไม่แพ้กัน คือการแก้สมการทางคณิตศาสตร์, การเขียนโค้ด ทาง OpenAI จึงวางตำแหน่งของ GPT-4o ให้เป็นคู่แข่งที่มีความแข็งแกร่งกว่า GitHub Copilot ของ Microsoft ด้วย
GPT-4o เปิดให้ใช้งานฟรี แต่มีข้อจำกัด
แม้ว่าความสามารถ GPT-4o จะล้นเหลือ และมีราคาถูกกว่า GPT-4 Turbo ถึง 50 % แต่ก็มีเวอร์ชันฟรีให้ใช้งานด้วยเช่นกัน เพียงแต่จะมีข้อจำกัดในกรณีที่ใช้งานครบโควต้าที่กำหนด จะถูกปรับการใช้งานไปเป็นเวอร์ชันรุ่นเก่า GPT-3.5 ที่มีความสามารถน้อยกว่าโดยอัตโนมัติ ขณะที่ลูกค้าที่เสียค่าบริการแบบพรีเมียม ทั้งแผน ChatGPT Plus และ ChatGPT Team จะมีโควต้าการใช้งานมากกว่าผู้ใช้งานฟรีถึง 5 เท่า
ทั้งนี้ OpenAI มีกำหนดจะเปิดให้ใช้งาน GPT-4o อย่างเป็นทางการสำหรับลูกค้าที่จ่ายค่าบริการพรีเมียมทั้ง ChatGPT Plus และ ChatGPT Team ก่อน จากนั้นจะเปิดให้องค์กร และบริษัทต่าง ๆ ได้ใช้งานต่อไป
มุมมองของสื่อต่อ GPT-4o
Zoe Kleinman บรรณาธิการเทคโนโลยีของ สำนักข่าว BBC มองว่าการที่ GPT-4o สามารถตอบสนองต่อข้อความ เสียง และรูปภาพ ที่มาในรูปแบบที่ผสมผสานกันได้อย่างราบรื่นและทันท่วงทีนั้น ดูเหมือนจะทำให้ OpenAI ล้ำหน้ากว่าคู่แข่งอื่น ๆ อีกทั้งยังเลือกช่วงเวลาที่เหมาะสม ด้วยการชิงตัดหน้า Google ที่จะมีการประชุมใหญ่ประจำปี ซึ่งมักเปิดตัวผลิตภัณฑ์ AI ล่าสุดของบริษัท
ส่วน Kyle Wiggers ผู้สื่อข่าวอาวุโสของ TechCrunch เว็บไซต์ข่าวสารด้านเทคโนโลยีชื่อดัง ระบุว่าการที่ GPT-4o ตอบสนองได้อย่างรวดเร็ว และผู้ใช้งานสามารถขัดจังหวะในขณะที่ GPT-4o กำลังตอบคำถามในโหมดเสียงได้นั้น อีกทั้งยังสามารถรับรู้อารมณ์ของผู้ใช้งานได้ด้วย ทำให้การโต้ตอบระหว่างผู้ใช้งานกับ GPT-4o เหมือนกับการคุยกับผู้ช่วยมากกว่าแชทบอต
ขณะที่ Tom’s Guide เว็บไซต์ดังที่รีวิวเกี่ยวกับเทคโนโลยีต่าง ๆ มองว่าความสามารถของ GPT-4o ในการใช้งานระบบสั่งการด้วยเสียง ( Voice Assistant) นั้น GPT-4o ตอบสนองได้อย่างรวดเร็ว และทำได้มากกว่าที่ Siri ของ Apple ทำได้ ขณะเดียวกันก็ทำหน้าที่ได้เหมือนกับ Google Lens ที่สามารถแปลข้อความได้แบบเรียลไทม์
ที่มา: CNBC, CNET, BBC, TechCrunch, Tom’s Guide
บทความที่เกี่ยวข้อง: รู้จัก OpenThaiGPT ChatGPT สัญชาติไทยที่เข้าใจภาษาไทยลึกซึ้ง