همه چیز درباره هوش مصنوعی گوگل Gemini

توسط admin
2 قبل
100
0

پکیج هوش مصنوعی مولد گوگل که Gemini نام دارد، مجموعه از مدل‌ها، اپلیکیشن‌ها و سرویس‌ها است و این شرکت بنا دارد با معرفی این محصول، حسابی گرد و خاک به پا کند.

اما Gemini حقیقتا چیست و چطور می‌توان از آن استفاده کرد؟

همینطور چگونه قرار است با محصولات هم رده خود رقابت کند؟ پاسخ این سوالات را در ادامه بخوانید.

Gemini چست؟
Gemini، نسل بعدی مدل‌های هوش مصنوعی مولد است که گوگل مدت‌هاست قول عرضه آن را داده است. این سرویس توسط آزمایشگاه‌های هوش مصنوعی گوگل-DeepMind وGoogle Research طراحی و در سه مدل تولید شده‌اند:

Gemini Ultra

Gemini Pro

Gemini Nano

تمام مدل‌های Gemini قادر هستند انواع صدا، تصاویر، ویدیوها، کدها و متون در زبان‌های مختلف را درک کرده و خود را با آنها تطبیق دهند.
مدل‌های Gemini نسبت به مدل‌های دیگر گوگل مانند LaMDA متفاوت است زیرا جمینی می‌تواند متن، صدا، تصویر، ویدیو و کدها را هم درک کرده و هم تولید کند. LaMDA بسیار محدودتر بوده و زمینه عملکرد آن تنها درک و تولید متن است مانند مقالات یا پیش‌نویس‌های ایمیل.

نامگذاری محصولات گوگل همیشه منحصر به فرد بوده اما بسیاری از کاربران را گیج می‌کند. اما این بار مدل‌های چندگانه Gemini به وضوح از اپلیکیشن‌های این سرویس(که قبلا Bard نام داشت) متمایز شده‌اند. این اپلیکیشن‌ها حکم رابطی برای دسترسی به برخی از مدل‌های Gemini را دارند.

قابلیت‌های Gemini
مدل‌های Gemini ویژگی متمایزی دارند و می‌توانند با استفاده از چند مدل مختلف از داده، خروجی‌های مختلفی ارائه دهند. البته برخی از قابلیت‌های این سیستم هنوز آماده عرضه نیست و گوگل قول داده به زودی آنها را به سیستم اصلی اضافه می‌کند.

البته گوگل سابقه‌ی خوبی در نگه داشتن قول ندارد مثلا سیستم Bard بسیار دیرتر از زمانی که اعلام شده بود، عرضه شد. فیلم اخیری نیز توسط گوگل منتشر شد که قابلیت‌های سیستم Gemini را معرفی می کرد ولی مشخص شد که مونتاژ سنگینی داشته و بیشتر شبیه یک طرح مفهومی بود تا واقعیت.

فرض را بر این می‌گذاریم که واقعیت Gemini همانطوری باشد که گوگل معرفی کرده، بیایید ببینیم هر کدام از نسخه‌های مختلف جمینی چه کارهای انجام می‌دهند:

Gemini Ultra
Gemini اولترا طبق گفته گوگل با قابلیت‌های مالتی مُدالی که دارد، می‌تواند در حل مسائل فیزیک کمک کند. اولترا، هم می‌تواند راه حل این مسائل را مرحله به مرحله توضیح داده و هم اشکال راه حل ارائه شده توسط کاربر را تشخیص دهد. به علاوه قادر است مقالات علمی مرتبط را پیدا کرده و اطلاعات به خصوصی را از آنها استخراج کند.

Gemini اولترا قابلیت تکنیکی تولید تصویر ندارد و هنوز داخل ساختار سیستمی که در دسترس عموم قرار گرفته، ادغام نشده است. دلیل این تاخیر، مکانیزم تولید تصویر به خصوص اولترا است که با نحوه عملکرد دیگر اپلیکیشن‌های این حوزه متفاوت است. مثلا در چت‌جی‌پی‌تی، تکنیک‌های ساده‌تری برای تولید تصویر اتخاذ شده ولی تکنیک پیچیده‌ تولید تصویر در نسخه جمینی اولترا، هنوز در حال توسعه و آزمایش است.

Gemini اولترا ابزاری است که در توسعه اپلیکیشن‌های هوشمند به توسعه دهندگان برنامه کمک می‌کند و از طریق پلتفرم‌هایی مانند Vertex AI یا AI Studio در دسترس است. البته کاربران برای استفاده از تمام قابلیت‌های آن باید طرح اشتراک Google One AI را خریداری کنند که ۲۰ دلار در ماه هزینه دارد.

Gemini پرو
به گفته گوگل، جمینی پرو نسخه ارتقا یافته پلتفرم LaMDA (یک مدل هوشمند زبان محاوره‌ای که توسط گوگل توسعه یافته) است و قابلیت استدلال، برنامه ریزی و درک اطلاعات را دارد.

بر اساس تحقیقات مستقلی که انجام شده، جمینی پرو در زمینه مدیریت زنجیره‌های استدلالی پیچیده‌تر و طولاتر، نسبت چت جی‌پی‌تی نسخه ۳٫۵ اوپن ای‌آی برتری دارد.

اولین نسخه ارتقا یافته این مدل، Gemini 1.5 پرو نام دارد که به خصوص در زمینه ظرفیت پردازش داده تغییرات مهمی در آن اعمال شده است. نسخه محدود(Limited) از جمینی ۱٫۵ پرو می‌تواند تقریبا ۷۰۰ هزار کلمه یا ۳۰ هزار خط از کدها را مدیریت کند که ۳۵ برابر بیشتر از از نسخه Gemini 1.0 پرو است. به علاوه، جمینی ۱٫۵ پرو به عنوان یک مدل چند حالته، می‌تواند ۱۱ ساعت فایل صوتی یا یک ساعت فایل ویدیویی را در چند زبان مختلف تحلیل و بررسی کند، که البته سرعت این فرآیند کمی آهسته است.

همچنین نسخه دیگری نیز وجود دارد به نام Gemini پرو ویژن که می‌تواند هم متن و هم تصویر ( چه عکس و چه ویدیو) را پردازش کرده و بر اساس آنها، خروجی متنی تولید کند، مشابه چت‌جی‌پی‌تی-۴ شرکت اوپن ای‌آی.

Gemini نانو
Gemini نانو، نسخه فشرده شده مدل‌های جمینی پرو و اولترا محسوب شده و می‌تواند مستقیما از طریق دستگاه‌های موبایل (فعلا فقط در گوگل پیکسل ۸ پرو) اجرا شده و در واقع به یک سرور خاص وابسته نیست. این مدل، دستگاه پیکسل ۸ پرو را به دو قابلیت «خلاصه نویسی» در برنامه Recorder و قابلیت «پاسخ هوشمند» در برنامه Gboard مجهز کرده است.

در برنامه Recorder، کاربر می‌تواند یک صدا ضبط کرده( مثل مصاحبه، مکالمه و غیره) و Gemini نانو خلاصه‌ای از مکالمه کاربر تولید می‌کند. برای تولید این متون خلاصه شده، اتصال به اینترنت لازم نیست و تمام فرآیند، روی گوشی کاربر انجام می‌گیرد.

Gemini نانو، داخل برنامه کیبورد گوگل(Gboard) هم تلفیق شده که البته فعلا در مرحله پیش نمایش و فقط برای توسعه دهندگان در دسترس است. از دیگر قابلیت‌های این مدل، «پاسخ هوشمند» است که توصیه‌هایی متنی هستند و هنگام گفتگو در برنامه‌های پیغام رسانی، به کاربر پیشنهاد داده می‌شوند.

به گفته گوگل، این برنامه ابتدا برای اپلیکیشن واتسپ و در طول سال ۲۰۲۴ برای دیگر اپلیکیشن‌ها عرضه خواهد شد.
آیا Gemini از چت‌جی‌پی‌تی ۴ اوپن ای‌آی بهتر است؟
گوگل مدعی است در آزمایشاتی که توسط محققان انجام شده، Gemini در انجام سبک خاصی از دستورات، برتر از دیگر پلتفرم‌های هم رده خود شناخته شده و حتی در زمینه خلاصه نویسی، هم فکری و نوشتار، نسبت به چت جی‌پی‌تی ۳٫۵ بهتر عمل می‌کند.

البته برخی معتقدند این آزمایش‌ها نمی تواند به وضوح نشان‌دهنده برتری پلتفرم خاصی باشد. امتیازاتی که گوگل ادعا می‌کند، تنها فاصله کمی با مدل‌های اوپن ای‌آی دارند. به علاوه، بازخوردهای اولیه کاربران و متخصصان درباره مدل‌های Gemini، چندان مثبت نبوده است. بسیاری معتقد هستند که جمینی پرو برخی از استدلا‌ل‌ها و واقعیت‌های ساده را اشتباه می‌گیرد، در ترجمه مشکل دارد و توصیه‌های کدنویسی نه چندان کاربردی ارائه می‌دهد.

هزینه استفاده از Gemini چقدر خواهد بود؟
در اپلیکیشن‌های Gemini و فعلا در پلتفرم‌های AI Studio و Vertex AI، استفاده از Gemini پرو رایگان است.

زمانیکه Gemini پرو در پلتفرم Vertex از حالت پیش نمایش خارج شود، به عنوان مثال خلاصه نویسی یک مقاله ۵۰۰ کلمه‌ای در جمینی پرو، تقریبا ۵ دلار هزینه دارد.

هزینه استفاده از قابلیت‌های نسخه اولترا هنوز اعلام نشده است.

از چه طریقی می توان Gemini را امتحان کرد؟
Gemini پرو
ساده‌ترین راه استفاده از جمینی پرو، اپلیکیشن‌های Gemini هستند. در این برنامه‌ها، مدل‌های پرو و اولترا می‌توانند طیف مختلفی از درخواست‌ها را به زبان‌های مختلف پاسخ دهند.

Gemini پرو و اولترا همچنین از طریق نسخه پیش نمایش در پلتفرم Vertex AI از طریق API در دسترس هستند.

Gemini پرو و اولترا در پلتفرم AI Studio هم ارائه شده‌اند. برنامه نویسان می‌توانند از طریق این سرویس، پرامپت‌ها و چت‌بات‌های خود را تولید کرده و همچنین با دریافت کلیدهای API، این ابزارها را داخل برنامه‌ها خود تلفیق کنند.

Gemini نانو
Gemini نانو از طریق دستگاه پیکسل ۸ پرو در دسترس است و در آینده برای دیگر دستگاه‌ها نیز ارائه می‌شود.

منبع: techcrunch