มีโมเดล AI ประเภทต่างๆ ในตลาดให้ผู้ใช้เลือก และส่วนใหญ่จะขึ้นอยู่กับประเภทของบริการที่พวกเขาต้องการจากเทคโนโลยีการเรียนรู้ของเครื่อง และตอนนี้ได้ติดตามเทคโนโลยีก่อนหน้านี้ด้วย PaliGemma 2 AI ใหม่นี้เป็นโมเดลภาษาวิสัยทัศน์แบบเปิด (VLM) ซึ่งมีไว้เพื่อทำความเข้าใจรูปภาพและสื่อที่ไม่ใช่ข้อความรูปแบบอื่น ๆ
บริษัทกำลังเร่งพัฒนาแนวทางปัญญาประดิษฐ์แบบหลายแง่มุม โดยเฉพาะอย่างยิ่งในขณะที่บริษัทได้มอบ Gemini AI อันโด่งดังไปทั่วโลก ซึ่งเป็นโมเดลต่อเนื่องหลายรูปแบบที่สามารถรับอินพุตประเภทต่างๆ ได้
Google เปิดตัว PaliGemma 2 ซึ่งเป็นโมเดลภาษาวิชั่นใหม่
Google เปิดเผยโมเดล AI ล่าสุดของพวกเขาสำหรับโลก และมันถูกเรียกว่าปาลีเจมม่า 2ซึ่งเป็นส่วนหนึ่งของโมเดล Gemma ของบริษัทที่มุ่งเน้นประสบการณ์เพิ่มเติมเกี่ยวกับปัญญาประดิษฐ์ที่เน้นไปที่วิสัยทัศน์ เดิมที Google ได้ประกาศโมเดล Gemma 2 ในงาน I/O ปี 2024 ครั้งล่าสุดในเดือนพฤษภาคม และมุ่งเน้นไปที่โมเดล Vision-Language (VLM) ซึ่งเชี่ยวชาญในการทำความเข้าใจสัญญาณภาพสำหรับผู้ใช้
PaliGemma 2 เป็นผลิตภัณฑ์ล่าสุดจากบริษัทหลังจากเปิดตัว PaliGemma เมื่อเดือนพฤษภาคมปีที่แล้ว และในตอนนั้นก็สามารถให้คำบรรยายภาพและวิดีโอสั้นได้แล้ว โดยใช้ AI เพื่อทำความเข้าใจภาพ การตรวจจับวัตถุ และการแบ่งส่วน ตลอดจน "คำถามเกี่ยวกับภาพ" ได้ดียิ่งขึ้น กำลังตอบ”
อย่างไรก็ตาม ด้วยการเปิดตัว PaliGemma2 ขณะนี้ Google สามารถส่ง "คำบรรยายภาพแบบยาว" สำหรับรูปภาพและวิดีโอดังกล่าวได้ ซึ่งให้ข้อมูลรายละเอียดเพิ่มเติมเกี่ยวกับรูปภาพเฉพาะเจาะจง ซึ่งมีให้เลือกหลายขนาด
Google กล่าวว่าปัจจุบันมีขนาดโมเดลรวมถึงพารามิเตอร์ 3B, 10B และ 28B รวมถึงความละเอียด 224px, 448px และ 896px PaliGemma 2 ยังสามารถอธิบายการกระทำของภาพ อารมณ์ และเรื่องราวที่พบในฉากได้อีกด้วย
PaliGemma 2 สามารถช่วยเทคโนโลยี AI ล่าสุดของ Google ได้อย่างไร
ขณะนี้ Google กำลังใช้ประโยชน์จาก PaliGemma 2 open VLM ให้กับนักพัฒนา ซึ่งพร้อมใช้งานผ่าน Kaggle, Hugging Face และ Ollama เพื่อใช้ในแอปพลิเคชันต่างๆ เพื่อปรับปรุงความสามารถในเนื้อหาที่ใช้การมองเห็น
PaliGemma 2 ล่าสุดยังมีความสามารถในการมองเห็นที่ซับซ้อนและทางเทคนิคมากขึ้น โดยสามารถตรวจจับสูตรทางเคมี โน้ตเพลง รายงานเอ็กซ์เรย์ทรวงอก การให้เหตุผลเชิงพื้นที่ และอื่นๆ เพื่อขยาย AI ได้มากขึ้น
ตามข้อมูลของ Google นักพัฒนาที่มีอยู่ซึ่งใช้ PaliGemma ดั้งเดิมอยู่แล้วอาจใช้เวอร์ชันถัดไปนี้เพื่ออัปเกรดความสามารถและคุณสมบัติของแอปพลิเคชันของพวกเขา ด้วย "ประสิทธิภาพที่เพิ่มขึ้นทันทีสำหรับงานส่วนใหญ่โดยไม่ต้องแก้ไขโค้ดที่สำคัญ"
Google ทุ่มเทอย่างเต็มที่เพื่อ AI ในปี 2024 นี้
Google มีงานใหญ่ในปี 2024 ซึ่งมุ่งเน้นไปที่การขยายข้อเสนอปัญญาประดิษฐ์ให้มากขึ้น โดยมีโมเดลที่นำเสนอคุณสมบัติที่สำคัญสำหรับผู้ใช้ โดยเริ่มจากช่วงแรกๆในเดือนธันวาคม พ.ศ. 2566 บริษัทได้ขยายฟีเจอร์และเทคโนโลยีของโมเดลภาษาให้มากขึ้น โดยขณะนี้นำเสนอโมเดลประเภทต่างๆ รวมถึง Gemini 2.0 ล่าสุด
การเปลี่ยนแปลงครั้งใหญ่ที่สุดอย่างหนึ่งจาก Google ในปีนี้คือ I/O 2024 ประกาศฟีเจอร์ปัญญาประดิษฐ์ของบริษัทที่พร้อมใช้งานในผลิตภัณฑ์ Search หรือที่รู้จักกันดีในชื่อ- ดังที่กล่าวไปแล้ว ผลิตภัณฑ์อื่นๆ จาก Google เช่น ชุด Workspace, YouTube, Pixel และอื่นๆ ล้วนได้รับประโยชน์จากการพัฒนา AI ล่าสุดของบริษัท
ไม่เพียงเท่านั้น Google DeepMind ยังเพิ่มการพัฒนา AI หลายอย่าง โดยขณะนี้สามารถสอนหุ่นยนต์ได้หลายฟังก์ชัน โดยคำนึงถึงโมเดลการมองเห็นเพื่อช่วยขยายขีดความสามารถของเครื่องจักรอัตโนมัติ