گوگل در تلاش است تا با هوش مصنوعی Gemini ، مجموعه پرچمدار مدلها، برنامهها و سرویسهای هوش مصنوعی تولیدی، موج ایجاد کند. اما جمینی چیست؟. چگونه می توانید از آن استفاده کنید؟. چگونه با سایر ابزارهای هوش مصنوعی مانند ChatGPT OpenAI، Meta’s Llama و Copilot مایکروسافت سازگار می شود؟. برای اینکه راحتتر با آخرین پیشرفتهای هوش مصنوعی Gemini همراه شوید، این راهنمای مفید را گردآوری کردهایم که با انتشار مدلها، ویژگیها و اخبار جدید در مورد برنامههای Google برای Gemini، آن را بهروزرسانی خواهیم کرد.
آنچه در این مقاله خواهید خواند :
جمینی، خانواده مدلهای هوش مصنوعی نسل بعدی گوگل است که مدتها وعده داده بود. این نرم افزار که توسط آزمایشگاه های تحقیقاتی هوش مصنوعی گوگل DeepMind و Google Research توسعه یافته است، دارای چندین طعم است:
جمینی اولترا، یک مدل بسیار بزرگ.
Gemini Pro، یک مدل بزرگ – هرچند کوچکتر از Ultra. آخرین نسخه، Gemini 2.0 Pro، پرچمدار فعلی گوگل است.
جمینی فلش، یک نسخه سریعتر و “مقطیر” از Pro.
Gemini Flash-Lite، نسخه کمی کوچکتر و سریعتر از Gemini Flash.
Gemini Flash Thinking، مدلی با قابلیت “استدلال”.
Gemini Nano، دو مدل کوچک: Nano-1 و Nano-2 کمی توانمندتر، که قرار است به صورت آفلاین اجرا شود.
همه مدلهای جمینی به گونهای آموزش داده شدهاند که به صورت بومی چندوجهی باشند . یعنی قادر به کار و تجزیه و تحلیل بیشتر از متن باشند. گوگل می گوید که آنها از قبل آموزش دیده اند و روی انواع صداها، تصاویر و ویدئوهای عمومی، اختصاصی و دارای مجوز تنظیم شده اند. مجموعه ای از پایگاه های کد؛ و متن به زبان های مختلف.
این امر هوش مصنوعی Gemini را از مدل هایی مانند LaMDA خود گوگل یا سایر انواع برنامه هوش مصنوعی که منحصراً بر روی داده های متنی آموزش داده شده است، متمایز می کند. LaMDA نمی تواند چیزی فراتر از متن را بفهمد یا تولید کند (به عنوان مثال، مقاله، ایمیل، و غیره)، اما این لزوما در مورد مدل های هوش مصنوعی Gemini صدق نمی کند. به عنوان مثال، آخرین نسخههای هوش مصنوعی Gemini Flash و هوش مصنوعی Gemini Pro میتوانند علاوه بر متن، تصاویر و صدا را به صورت بومی تولید کنند.
ما در اینجا متذکر می شویم که اصول اخلاقی و قانونی مدل های آموزشی در مورد داده های عمومی، در برخی موارد بدون اطلاع یا رضایت صاحبان داده ها، مبهم است. Google برای محافظت از برخی از مشتریان Google Cloud از شکایت در صورت مواجهه با آنها، یک خطمشی جبران خسارت هوش مصنوعی دارد، اما این خطمشی شامل مواردی است. با احتیاط ادامه دهید – به خصوص اگر قصد استفاده تجاری از هوش مصنوعی Gemini را دارید.
هوش مصنوعی Gemini جدا و متمایز از برنامه های هوش مصنوعی Gemini در وب و موبایل (بارد سابق) است. برنامههای Gemini کلاینتهایی هستند که به مدلهای مختلف Gemini متصل میشوند و یک رابط چتمانند در بالای آن لایهبندی میکنند. آنها را بهعنوان بخشهای جلویی برای هوش مصنوعی مولد Google در نظر بگیرید، مشابه ChatGPT و خانواده برنامههای Claude Anthropic.
جمینی در وب اینجا زندگی می کند. در اندروید، برنامه هوش مصنوعی Gemini جایگزین برنامه Google Assistant موجود میشود. و در iOS، برنامه های جستجوی گوگل و گوگل به عنوان مشتریان هوش مصنوعی Gemini آن پلتفرم عمل می کنند. در اندروید، کاربران میتوانند یک پوشش Gemini برای پرسیدن سوالاتی در مورد آنچه روی صفحه نمایش آنها است (مثلاً یک ویدیوی YouTube) بیاورند. فشار دادن و نگه داشتن دکمه روشن/خاموش تلفن هوشمند پشتیبانیشده یا گفتن «Hey Google» پوشش را فراخوانی میکند.
برنامههای هوش مصنوعی Gemini میتوانند تصاویر و همچنین دستورات صوتی و متن را بپذیرند – از جمله فایلهایی مانند فایلهای PDF، آپلود شده یا وارد شده از Google Drive – و تصاویر تولید میکنند. همانطور که انتظار دارید، مکالمات با برنامه های هوش مصنوعی Gemini در تلفن همراه به هوش مصنوعی Gemini در وب منتقل می شود و بالعکس اگر در هر دو مکان به یک حساب Google وارد شده باشید.
برنامههای هوش مصنوعی Gemini تنها ابزاری برای جذب کمک مدلهای هوش مصنوعی Gemini در انجام وظایف نیستند. ویژگیهای آغشته به هوش مصنوعی Gemini به آرامی اما مطمئناً راه خود را به برنامهها و سرویسهای اصلی Google مانند Gmail و Google Docs باز میکنند.
برای استفاده از بیشتر این موارد، به Google One AI Premium Plan نیاز دارید. از نظر فنی بخشی از Google One، برنامه AI Premium 20 دلار در ماه هزینه دارد و دسترسی به هوش مصنوعی Gemini را در برنامههای Google Workspace مانند Docs، Maps، Slides، Sheets، Drive و Meet فراهم میکند. همچنین چیزی را که Google Gemini Advanced می نامد را فعال می کند که مدل های پیچیده تر هوش مصنوعی Gemini این شرکت را به برنامه های Gemini می آورد.
کاربران هوش مصنوعی Gemini Advanced از اینجا و آنجا نیز امکانات اضافی دریافت میکنند، مانند دسترسی اولویتدار به ویژگیها و مدلهای جدید. امکان اجرا و ویرایش کد پایتون به طور مستقیم در هوش مصنوعی Gemini. و افزایش محدودیتها برای NotebookLM، ابزار Google که فایلهای PDF را به پادکستهای تولید شده با هوش مصنوعی تبدیل میکند. اخیراً، Gemini Advanced یک ویژگی حافظه به دست آورده است که تنظیمات برگزیده کاربران را ذخیره می کند و به هوش مصنوعی Gemini اجازه می دهد تا به مکالمات قدیمی به عنوان زمینه برای چت های فعلی اشاره کند.
یکی از جذابترین موارد انحصاری Gemini Advanced، Deep Research، از مدلهای هوش مصنوعی Gemini با «استدلال پیشرفته» برای ایجاد خلاصههای دقیق استفاده میکند. در پاسخ به یک درخواست (مثلاً «چگونه باید آشپزخانهام را دوباره طراحی کنم؟»)، Deep Research یک طرح تحقیقاتی چند مرحلهای ایجاد میکند و در وب جستجو میکند تا پاسخی جامع ارائه کند.
در هوش مصنوعی Gmail، Gemini در یک پانل جانبی زندگی می کند که می تواند ایمیل بنویسد و رشته های پیام را خلاصه کند. همان پانل را در Docs پیدا خواهید کرد. جایی که به نوشتن و اصلاح محتوا و ایجاد ایده های جدید کمک می کند. Gemini in Slides اسلایدها و تصاویر سفارشی تولید می کند. و Gemini در Google Sheets داده ها را ردیابی و سازماندهی می کند و جداول و فرمول ها را ایجاد می کند.
هوش مصنوعی Gemini در Google Maps است، جایی که میتواند نظرات مربوط به کسبوکارهای محلی را جمعآوری کند و توصیههایی مانند نحوه صرف یک روز برای بازدید از یک شهر خارجی ارائه دهد. دسترسی ربات چت به Drive نیز گسترش مییابد، جایی که میتواند فایلها و پوشهها را خلاصه کند و اطلاعات سریعی درباره یک پروژه ارائه دهد.
هوش مصنوعی Gemini اخیراً به مرورگر کروم گوگل در قالب یک ابزار نوشتن هوش مصنوعی وارد شده است. می توانید از آن برای نوشتن چیزی کاملاً جدید یا بازنویسی متن موجود استفاده کنید. گوگل می گوید که صفحه وب شما را برای ارائه توصیه ها در نظر می گیرد.
در جای دیگر، نکاتی از هوش مصنوعی Gemini را در محصولات پایگاه داده Google، ابزارهای امنیتی ابری، و پلتفرمهای توسعه برنامه (از جمله Firebase و Project IDX)، و همچنین در برنامههایی مانند Google Photos (جایی که جمینی درخواستهای جستجوی زبان طبیعی را انجام میدهد)، YouTube (جایی که به ایدههای ویدیویی طوفان فکری کمک میکند) و Meet (جایی که شرحها را ترجمه میکند) خواهید دید.
Code Assist (قبلاً Duet AI برای توسعه دهندگان)، مجموعه ابزارهای کمکی مبتنی بر هوش مصنوعی Google برای تکمیل و تولید کد، در حال بارگذاری محاسبات سنگین به Gemini است. همچنین محصولات امنیتی Google که زیربنای Gemini هستند، مانند Gemini in Threat Intelligence، که میتواند بخشهای بزرگی از کدهای مخرب بالقوه را تجزیه و تحلیل کند و به کاربران اجازه دهد به زبان طبیعی برای تهدیدهای مداوم یا شاخصهای سازش جستجو کنند، هستند.
کاربران پیشرفته هوش مصنوعی Gemini می توانند Gems، چت ربات های سفارشی را روی دسکتاپ و موبایل با مدل های Gemini ایجاد کنند. جواهرات را می توان از توضیحات زبان طبیعی تولید کرد – به عنوان مثال، «تو مربی دویدن من هستی. به من یک برنامه در حال اجرا روزانه بدهید» – و با سایر کاربران به اشتراک گذاشته شده یا خصوصی نگه داشته می شود.
برنامههای هوش مصنوعی Gemini میتوانند از طریق آنچه Google «افزونههای جمینی» مینامد، به سرویسهای Google دسترسی داشته باشند. Gemini با Drive، Gmail، YouTube و موارد دیگر ادغام میشود تا به سؤالاتی مانند «آیا میتوانید سه ایمیل آخر من را خلاصه کنید؟» پاسخ میدهد.
تجربهای به نام هوش مصنوعی Gemini Live به کاربران امکان میدهد با جمینی چتهای صوتی «عمیق» داشته باشند. در برنامههای هوش مصنوعی Gemini در تلفن همراه و Pixel Buds Pro 2 در دسترس است. جایی که میتوانید حتی زمانی که تلفنتان قفل است به آن دسترسی پیدا کنید. چنین چیزی زمانی که ساخت ویدیو با هوش مصنوعی امکان پذیر است عجیب نیست.
با فعال کردن هوش مصنوعی Gemini Live، میتوانید در حین صحبت کردن ربات چت، برای پرسیدن یک سؤال روشنکننده، جمینی را قطع کنید و در زمان واقعی با الگوهای گفتار شما سازگار میشود. Live همچنین برای خدمت به عنوان یک مربی مجازی طراحی شده است و به شما کمک می کند تا برای رویدادها تمرین کنید، ایده های طوفان فکری و غیره را انجام دهید. به عنوان مثال، Live میتواند مهارتهایی را برای برجسته کردن در مصاحبه شغلی آینده پیشنهاد دهد و نکات سخنرانی عمومی را ارائه دهد.
گوگل تجربه هوش مصنوعی Gemini با تمرکز بر نوجوانان را برای دانش آموزان ارائه می دهد. جمینی متمرکز بر نوجوانان دارای «سیاستها و پادمانهای اضافی» است، از جمله فرآیند سوار شدن سفارشی و راهنمای سواد هوش مصنوعی. در غیر این صورت، تقریباً مشابه تجربه استاندارد هوش مصنوعی Gemini است، تا ویژگی «بررسی مضاعف» که در سراسر وب به نظر می رسد تا ببیند آیا پاسخ های هوش مصنوعی Gemini دقیق هستند یا خیر.
از آنجایی که مدلهای هوش مصنوعی Gemini چند وجهی هستند، میتوانند طیف وسیعی از وظایف چندوجهی را انجام دهند، از رونویسی گفتار گرفته تا نوشتن شرح تصاویر و ویدیوها در زمان واقعی. بسیاری از این قابلیت ها به مرحله تولید رسیده اند و گوگل در آینده ای نه چندان دور وعده های بسیار بیشتری را می دهد.
البته، امروزه گوگل برای برخی از مشکلات اساسی فناوری هوش مصنوعی مولد، مانند تعصبات رمزگذاری شده و تمایل به ساختن چیزها (به عنوان مثال، توهم) راه حلی ارائه نمی دهد. رقبای آن نیز این کار را نمیکنند، اما هنگام استفاده از جمینی یا پرداخت هزینه آن باید به خاطر داشته باشید.
گوگل میگوید که آخرین مدل Pro خود، Gemini 2.0 Pro، برای کدنویسی و درخواستهای پیچیده بهترین است. 2.0 Pro در معیارهای اندازه گیری برنامه نویسی، استدلال، ریاضی و دقت واقعی بهتر از نسخه قبلی خود، Gemini 1.5 Pro عمل می کند.
در پلتفرم Vertex AI گوگل، توسعهدهندگان میتوانند Gemini Pro را در زمینههای خاص سفارشی کنند و از طریق یک فرآیند تنظیم دقیق یا «زمینسازی» از موارد استفاده کنند. به عنوان مثال، میتوان به Pro (همراه با سایر مدلهای Gemini) دستور داد که از دادههای ارائهدهندگان شخص ثالث مانند Moody’s، Thomson Reuters، ZoomInfo و MSCI استفاده کند، یا اطلاعات منبع را از مجموعه دادههای شرکت یا جستجوی Google بهجای بانک دانش گستردهتر خود استفاده کند. Gemini Pro همچنین می تواند به API های خارجی و شخص ثالث متصل شود تا اقدامات خاصی را انجام دهد، مانند خودکار کردن یک گردش کار پشتیبان.
پلتفرم استودیوی هوش مصنوعی گوگل الگوهایی را برای ایجاد پیامهای چت ساختاریافته با Pro ارائه میدهد. توسعهدهندگان میتوانند محدوده خلاقانه مدل را کنترل کنند و مثالهایی برای ارائه دستورالعملهای لحن و سبک ارائه دهند – و همچنین تنظیمات ایمنی Pro را تنظیم کنند.
APIهای داخلی، در معیارهای سنجش کدگذاری و تجزیه و تحلیل تصویر، از برخی از مدلهای بزرگتر Gemini 1.5 بهتر عمل میکند. فلش که شاخهای از Gemini Pro است، کوچک و کارآمد است – برای بارهای کاری باریک و با فرکانس بالا مولد هوش مصنوعی ساخته شده است.
گوگل میگوید فلش بهویژه برای کارهایی مانند برنامههای خلاصهسازی و چت، بهعلاوه شرح تصاویر و ویدیوها و استخراج دادهها از اسناد و جداول طولانی بسیار مناسب است. در همین حال، به گفته گوگل، Gemini 2.0 Flash-Lite، یک نسخه فشرده تر از Flash، بهتر از Gemini 1.5 Flash عمل می کند، اما با همان قیمت و سرعت کار می کند.
در دسامبر گذشته، گوگل نسخه «متفکر» Gemini 2.0 Flash را منتشر کرد که قادر به «استدلال» است. مدل هوش مصنوعی قبل از اینکه پاسخی بدهد، چند ثانیه طول می کشد تا از طریق یک مشکل به عقب کار کند، که می تواند قابلیت اطمینان آن را بهبود بخشد.
هوش مصنوعی Gemini Nano یک نسخه کوچک از Gemini است که به اندازه کافی کارآمد است که بهجای ارسال کار به سرور در جایی، مستقیماً روی (برخی) دستگاهها اجرا شود. تا کنون، نانو چند ویژگی را در پیکسل 8 پرو، پیکسل 8، پیکسل 9 پرو، پیکسل 9 و سامسونگ گلکسی اس 24، از جمله خلاصه کردن در ضبط و پاسخ هوشمند در جیبورد، تقویت میکند.
برنامه Recorder که به کاربران اجازه میدهد دکمهای را برای ضبط و رونویسی صدا فشار دهند، شامل خلاصهای از مکالمات ضبطشده، مصاحبهها، ارائهها و سایر قطعههای صوتی با پشتیبانی از هوش مصنوعی Gemini است. کاربران حتی اگر سیگنال یا اتصال Wi-Fi نداشته باشند، خلاصه میشوند – و با اشاره به حفظ حریم خصوصی، هیچ دادهای از تلفن آنها خارج نمیشود. Nano همچنین در Gboard، جایگزین صفحه کلید Google است. در آنجا، Smart Reply را تقویت میکند، که به شما کمک میکند تا چیز بعدی را که میخواهید هنگام مکالمه در یک برنامه پیامرسانی مانند WhatsApp بگویید، پیشنهاد کنید.
نسخه آینده اندروید روی Nano ضربه میزند تا کاربران را از کلاهبرداریهای احتمالی در حین تماس آگاه کند. برنامه جدید آب و هوا در تلفنهای Pixel از Gemini Nano برای تولید گزارشهای هواشناسی مناسب استفاده میکند. و TalkBack، سرویس دسترسی گوگل، از Nano برای ایجاد توضیحات شنیداری از اشیاء برای کاربران کم بینا و نابینا استفاده می کند.
ما در ماههای اخیر چیز زیادی از Gemini Ultra ندیدهایم. حتی تشخیص بیماری با هوش مصنوعی که توسط سایر AI ها انجام می شود. این مدل در برنامههای Gemini موجود نیست و در صفحه قیمتگذاری Google’s Gemini API فهرست نشده است. با این حال، این بدان معنا نیست که گوگل در آینده ای Ultra را باز نمی گرداند.
قیمت مدل های جمینی چقدر است؟
Gemini 1.5 Pro، 1.5 Flash، 2.0 Flash و 2.0 Flash-Lite از طریق API Gemini Google برای ساخت برنامهها و خدمات در دسترس هستند. آنها به صورت پرداختی هستند. در اینجا قیمت پایه – بدون احتساب افزونه ها – از فوریه 225 آمده است:
1.25 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواست تا 128 هزار توکن) یا 2.50 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواست های طولانی تر از 128 هزار توکن). 5 دلار به ازای هر 1 میلیون توکن خروجی (برای درخواست های تا 128 هزار توکن) یا 10 دلار به ازای هر 1 میلیون توکن خروجی (برای درخواست های طولانی تر از 128 هزار توکن)
7.5 سنت به ازای هر 1 میلیون توکن ورودی (برای درخواست های تا 128 هزار توکن)، 15 سنت در هر 1 میلیون توکن ورودی (برای درخواست های طولانی تر از 128 هزار توکن)، 30 سنت به ازای هر 1 میلیون توکن خروجی (برای درخواست ها تا 128 هزار توکن خروجی)، 60 سنت برای هر 1 میلیون توکن توکن ورودی. (برای درخواست های بیشتر از 128 هزار توکن)
Gemini 2.0 Flash: 10 سنت به ازای هر 1 میلیون توکن ورودی، 40 سنت در هر 1 میلیون توکن خروجی. برای صدا، 70 سنت به ازای هر 1 میلیون توکن ورودی.
7.5 سنت به ازای هر 1 میلیون توکن ورودی، 30 سنت به ازای هر 1 میلیون توکن خروجی. توکنها بیتهای تقسیمبندی شدهای از دادههای خام هستند، مانند هجاهای «فن»، «تاس» و «تیک» در کلمه «فانتزی»؛ 1 میلیون توکن معادل حدود 750000 کلمه است. ورودی به نشانه هایی اشاره دارد که به مدل تغذیه می شوند، در حالی که خروجی به نشانه هایی اشاره دارد که مدل تولید می کند.
این پست برای شما مفید بود؟
این پست چندتا ستاره داره ؟
میانگین رتبه : 0 / 5. تعداد آرا : 0
اولین نفری باشید که به این پست امتیاز می دهید