ai-hiddenArtificial Intelligenceطراحی وب

پس از مدت ها انتظار انتشار «جمینی»، گوگل انتقاداتی را برای نسخه ی نمایشی به خود جلب کرد


مدت کوتاهی پس از انتشار اخباری مبنی بر اینکه گوگل عرضه مدل هوش مصنوعی مورد انتظار خود به نام Gemini را به عقب می اندازد، گوگل راه اندازی آن را اعلام کرد.

به عنوان بخشی از انتشار، آنها یک نسخه ی نمایشی منتشر کردند که قابلیت های چشمگیر – کاملاً باورنکردنی – از Gemini را به نمایش گذاشت. خوب، شما می دانید که آنها در مورد چیزهایی که بیش از حد خوب هستند که واقعیت داشته باشند، چه می گویند.

بیایید بررسی کنیم که چه مشکلی در نسخه ی نمایشی رخ داده است و چگونه آن را با OpenAI مقایسه می کنیم.

برای عضویت در خبرنامه هوش مصنوعی HubSpot اینجا را کلیک کنید

گوگل جمینی چیست؟

جمینی که رقیب GPT-4 OpenAI است، یک مدل هوش مصنوعی چندوجهی است، به این معنی که می تواند متن، تصویر، صدا و ورودی های کد را پردازش کند.

(برای مدت طولانی، ChatGPT یک‌وجهی بود و فقط متن را پردازش می‌کرد، تا اینکه امسال به چندوجهی شدن رسید.)

Gemini در سه نسخه ارائه می شود:

  • نانو: این کم قدرت ترین نسخه Gemini است که برای کار بر روی دستگاه های تلفن همراه مانند تلفن و تبلت طراحی شده است. این برای کارهای ساده و روزمره مانند خلاصه کردن یک فایل صوتی و نوشتن کپی برای ایمیل بهترین است.
  • حرفه ای: این نسخه می تواند کارهای پیچیده تری مانند ترجمه زبان و ایده پردازی کمپین بازاریابی را انجام دهد. این نسخه ای است که اکنون ابزارهای هوش مصنوعی گوگل مانند Bard و Google Assistant را تقویت می کند.
  • فوق العاده: بزرگترین و قدرتمندترین نسخه Gemini، با دسترسی به مجموعه داده های بزرگ و قدرت پردازش برای تکمیل وظایفی مانند حل مشکلات علمی و ایجاد برنامه های هوش مصنوعی پیشرفته.

Ultra هنوز برای مصرف کنندگان در دسترس نیست و برای اوایل سال 2024 برنامه ریزی شده است، زیرا گوگل تست های نهایی را برای اطمینان از ایمن بودن آن برای استفاده تجاری انجام می دهد. Gemini Nano به تلفن پیکسل 8 پرو گوگل مجهز خواهد شد که دارای ویژگی‌های هوش مصنوعی داخلی است.

از سوی دیگر، Gemini Pro از امروز ابزارهای Google مانند Bard را تقویت خواهد کرد و از طریق API از طریق Google AI Studio و Google Cloud Vertex AI قابل دسترسی است.

آیا نسخه ی نمایشی Gemini گوگل فریبنده بود؟

گوگل یک نسخه نمایشی شش دقیقه ای در یوتیوب منتشر کرد که در آن مهارت های Gemini در زبان، ساخت بازی، منطق و استدلال فضایی، درک فرهنگی و غیره را به نمایش گذاشت.

اگر ویدیو را تماشا کنید، به راحتی شگفت زده می شوید.

Gemini قادر است یک اردک را از یک نقاشی ساده تشخیص دهد، یک ترفند ساده با دست را درک کند و پازل های بصری را کامل کند – برای نام بردن از چند کار.

با این حال، پس از کسب بیش از 2 میلیون بازدید، گزارش بلومبرگ نشان داد که این ویدیو بریده شده و به هم چسبیده شده است که عملکرد جمینی را متورم کرده است.

گوگل در ابتدای ویدئو یک سلب مسئولیت را به اشتراک گذاشت: “برای اهداف این نسخه نمایشی، تاخیر کاهش یافته است و خروجی های Gemini برای اختصار کوتاه شده است.”

با این حال، بلومبرگ اشاره می کند که آنها چند جزئیات مهم را نادیده گرفته اند:

  • ویدیو به‌صورت بلادرنگ یا از طریق خروجی صدا انجام نشده است، و این نشان می‌دهد که مکالمات به همان‌طوری که در نسخه نمایشی نشان داده شده است، روان نخواهد بود.
  • مدل استفاده شده در این ویدیو Gemini Ultra است که هنوز در دسترس عموم قرار نگرفته است.

روشی که Gemini در واقع ورودی‌ها را در نسخه نمایشی پردازش می‌کرد، از طریق تصاویر ثابت و درخواست‌های نوشته شده بود.

مثل زمانی است که بهترین ترفند سگ خود را به همه نشان می دهید.

شما ویدیو را از طریق متن به اشتراک می گذارید و همه تحت تاثیر قرار می گیرند. اما وقتی همه کارشان تمام می‌شود، می‌بینند که برای دیدن عملی این ترفند نیاز به یک سری رفتار و نوازش و صبر و 100 بار تکرار خودتان است.

بیایید مقایسه ای کنار هم انجام دهیم.

در این کلیپ 8 ثانیه ای، دست فردی را می بینیم که گویی در حال انجام بازی است که برای حل و فصل همه اختلافات دوستانه استفاده می شود. جوزا پاسخ می دهد:میدونم داری چیکار میکنی داری سنگ-کاغذ-قیچی بازی می کنی.

دمو جوزا

منبع تصویر

اما آنچه در واقع در پشت صحنه اتفاق افتاد شامل غذا دادن با قاشق بسیار بیشتر است.

در نسخه ی نمایشی واقعی، کاربر هر حرکت دست را به صورت جداگانه ارسال کرد و از Gemini خواست تا آنچه را که می بیند شرح دهد.

دمو گوگل جمینی

منبع تصویر

از آنجا، کاربر هر سه تصویر را با هم ترکیب کرد، دوباره از Gemini پرسید و یک اشاره بزرگ را ارائه کرد.

دمو گوگل جمینی

در حالی که هنوز هم قابل توجه است که Gemini چگونه می‌تواند تصاویر را پردازش کند و زمینه را درک کند، این ویدیو میزان فرمان لازم برای Gemini را برای ایجاد پاسخ مناسب کم‌اهمیت می‌کند.

اگرچه این موضوع انتقادات زیادی را به گوگل وارد کرده است، برخی به این نکته اشاره می‌کنند که استفاده از ویرایش برای ایجاد موارد استفاده یکپارچه‌تر و ایده‌آلی در دموهای خود غیرمعمول نیست.

جمینی در مقابل GPT-4

تاکنون، GPT-4 که ​​توسط OpenAI ایجاد شده است، قدرتمندترین مدل هوش مصنوعی موجود در بازار بوده است. از آن زمان، گوگل و سایر بازیکنان هوش مصنوعی به سختی در تلاش بوده اند تا مدلی ارائه دهند که بتواند آن را شکست دهد.

گوگل برای اولین بار در ماه سپتامبر Gemini را مورد آزار قرار داد و پیشنهاد کرد که GPT-4 را شکست خواهد داد و از نظر فنی، ارائه شد.

Gemini در تعدادی از معیارهای تعیین شده توسط محققان هوش مصنوعی بهتر از GPT-4 عمل می کند.

جمینی در مقابل gpt-4

منبع تصویر

با این حال، مقاله بلومبرگ به نکته مهمی اشاره می کند.

برای مدلی که عرضه آن اینقدر طول کشید، این واقعیت که فقط اندکی بهتر از GPT-4 است، پیروزی بزرگی نیست که گوگل به دنبال آن بود.

OpenAI GPT-4 را در ماه مارس منتشر کرد. گوگل اکنون Gemini را منتشر کرده است که عملکرد بهتری دارد اما تنها چند درصد.

بنابراین، چقدر طول می کشد تا OpenAI نسخه بزرگتر و بهتری را منتشر کند؟ با قضاوت در سال گذشته، احتمالاً طولانی نخواهد بود.

در حال حاضر، جمینی گزینه بهتری به نظر می رسد، اما تا اوایل سال 2024 که Ultra عرضه شود، مشخص نخواهد شد.

برای عضویت در خبرنامه هوش مصنوعی HubSpot اینجا را کلیک کنید



این خبر را در ایران وب سازان مرجع وب و فناوری دنبال کنید

جهت دانلود و یا توضیحات بیشتر اینجا را کلیک نمایید

دکمه بازگشت به بالا