Google เข้าร่วมโมเดล Vision-Language กับ Paligemma 2 แต่จะช่วยให้ AI มีค่าใช้จ่ายได้อย่างไร

มีรูปแบบ AI ที่แตกต่างกันในตลาดเพื่อให้ผู้ใช้เลือกและส่วนใหญ่จะขึ้นอยู่กับประเภทของบริการที่พวกเขาต้องการจากเทคโนโลยีการเรียนรู้ของเครื่องและตอนนี้ติดตามเทคโนโลยีก่อนหน้านี้ด้วย Paligemma 2 AI ใหม่นี้เป็นโมเดล Vision-Language แบบเปิด (VLM) ซึ่งหมายถึงการเข้าใจรูปภาพและรูปแบบอื่น ๆ ของสื่อที่ไม่ใช่ข้อความ

บริษัท กำลังเพิ่มแนวทางที่หลากหลายในด้านปัญญาประดิษฐ์โดยเฉพาะอย่างยิ่งเมื่อมันทำให้โลกได้รับ Gemini AI ที่มีชื่อเสียงซึ่งเป็นแบบจำลองหลายรูปแบบที่สามารถยอมรับการป้อนข้อมูลประเภทต่าง ๆ ได้

Google เปิดตัว Paligemma 2 รูปแบบภาษาวิสัยทัศน์ใหม่

Google เปิดเผยโมเดล AI ล่าสุดของพวกเขาสำหรับโลกและเรียกว่าPaligemma 2ซึ่งเป็นส่วนหนึ่งของโมเดล Gemma ของ บริษัท ที่มุ่งเน้นประสบการณ์เพิ่มเติมเกี่ยวกับปัญญาประดิษฐ์ที่มุ่งเน้นไปที่วิสัยทัศน์ เดิมที googleannound รุ่น Gemma 2 ครั้งสุดท้าย I/O 2024 ในเดือนพฤษภาคมและจะเน้นไปที่โมเดล Vision-Language (VLM) ซึ่งใช้ในการทำความเข้าใจตัวชี้นำภาพสำหรับผู้ใช้

Paligemma 2 เป็นล่าสุดจาก บริษัท หลังจากเปิดตัว Paligemma เมื่อเดือนพฤษภาคมที่ผ่านมาและในตอนนั้นมันก็สามารถให้คำอธิบายภาพสั้น ๆ สำหรับรูปภาพและวิดีโอสั้น ๆ โดยใช้ AI เพื่อทำความเข้าใจรูปภาพการตรวจจับวัตถุและการแบ่งส่วนได้ดีขึ้นรวมถึง "การตอบคำถามด้วยภาพ"

อย่างไรก็ตามด้วยการเปิดตัว Paligemma2 ตอนนี้ Google สามารถส่ง "คำบรรยายภาพยาว" สำหรับรูปภาพและวิดีโอดังกล่าว OneWhich เสนอข้อมูลโดยละเอียดเพิ่มเติมเกี่ยวกับภาพถ่ายเฉพาะที่มีอยู่ในขนาดที่แตกต่างกัน

Google กล่าวว่าปัจจุบันมีขนาดรุ่นรวมถึงพารามิเตอร์ 3B, 10B และ 28B รวมถึง 224PX, 448PX และ 896PX Paligemma 2 ยังสามารถอธิบายการกระทำของภาพอารมณ์และเรื่องเล่าที่พบในฉาก

Paligemma 2 ช่วย AI Tech ล่าสุดของ Google ได้อย่างไร

Google กำลังใช้ประโยชน์จาก VLM เปิด Paligemma 2 ให้กับนักพัฒนาที่มีให้ผ่าน Kaggle, Hugging Face และ Ollama เพื่อใช้ในแอพพลิเคชั่นต่างๆเพื่อปรับปรุงความสามารถของพวกเขาในเนื้อหาที่ใช้วิสัยทัศน์

Paligemma 2 ล่าสุดยังมีความสามารถในการมองเห็นที่ซับซ้อนและทางเทคนิคมากขึ้นซึ่งสามารถตรวจจับสูตรทางเคมีคะแนนเพลงรายงาน X-ray ทรวงอกการใช้เหตุผลเชิงพื้นที่และอื่น ๆ เพื่อขยาย AI มากขึ้น

ตามที่ Google กล่าวว่า devs ที่มีอยู่ซึ่งเคยใช้ Paligemma ดั้งเดิมแล้วอาจใช้เวอร์ชันรุ่นต่อไปนี้เพื่ออัพเกรดความสามารถและคุณสมบัติของแอปพลิเคชันของพวกเขาด้วย

Google ไป All-in สำหรับ AI นี้ในปี 2024

Google มีจำนวนมากในปีพ. ศในเดือนธันวาคม 2566 บริษัท ได้ขยายคุณสมบัติและเทคโนโลยีของรูปแบบภาษาให้มากขึ้นซึ่งปัจจุบันมีรูปแบบที่แตกต่างกันรวมถึงล่าสุดคือ Gemini 2.0

หนึ่งในการเปลี่ยนแปลงที่ยิ่งใหญ่ที่สุดจาก Google ในปีนี้คือ I/O 2024 ประกาศคุณลักษณะปัญญาประดิษฐ์ของ บริษัท ที่มีให้ในผลิตภัณฑ์ค้นหาเป็นที่รู้จักกันดีในชื่อ- ดังที่ได้กล่าวไปแล้วผลิตภัณฑ์อื่น ๆ จาก Google เช่น Workspace Suite, YouTube, Pixel และอีกมากมายเป็นผู้รับผลประโยชน์จากการพัฒนา AI ล่าสุดของ บริษัท

ไม่เพียงแค่นั้น Google DeepMind ยังเพิ่มการพัฒนา AI หลายครั้งซึ่งตอนนี้สามารถสอนหุ่นยนต์หลายฟังก์ชั่นโดยแฟคตอริ่งในแบบจำลองการมองเห็นเพื่อช่วยขยายขีดความสามารถของเครื่องจักรอิสระ

Google เปิดตัว Paligemma 2 รูปแบบภาษาวิสัยทัศน์ใหม่

Paligemma 2 ช่วย AI Tech ล่าสุดของ Google ได้อย่างไร

Google ไป All-in สำหรับ AI นี้ในปี 2024

相關貼文