هوش مصنوعی Gemini +معرفی کامل و آموزش 0 تا 100 استفاده🟢

نویسنده

زمان خواندن

10 دقیقه

گوگل در تلاش است تا با هوش مصنوعی Gemini ، مجموعه پرچم‌دار مدل‌ها، برنامه‌ها و سرویس‌های هوش مصنوعی تولیدی، موج ایجاد کند. اما جمینی چیست؟. چگونه می توانید از آن استفاده کنید؟. چگونه با سایر ابزارهای هوش مصنوعی مانند ChatGPT OpenAI، Meta’s Llama و Copilot مایکروسافت سازگار می شود؟. برای اینکه راحت‌تر با آخرین پیشرفت‌های هوش مصنوعی Gemini همراه شوید، این راهنمای مفید را گردآوری کرده‌ایم که با انتشار مدل‌ها، ویژگی‌ها و اخبار جدید در مورد برنامه‌های Google برای Gemini، آن را به‌روزرسانی خواهیم کرد.

آنچه در این مقاله خواهید خواند :

هوش مصنوعی Gemini چیست؟

جمینی، خانواده مدل‌های هوش مصنوعی نسل بعدی گوگل است که مدت‌ها وعده داده بود. این نرم افزار که توسط آزمایشگاه های تحقیقاتی هوش مصنوعی گوگل DeepMind و Google Research توسعه یافته است، دارای چندین طعم است:

جمینی اولترا، یک مدل بسیار بزرگ.
Gemini Pro، یک مدل بزرگ – هرچند کوچکتر از Ultra. آخرین نسخه، Gemini 2.0 Pro، پرچمدار فعلی گوگل است.
جمینی فلش، یک نسخه سریعتر و “مقطیر” از Pro.
Gemini Flash-Lite، نسخه کمی کوچکتر و سریعتر از Gemini Flash.
Gemini Flash Thinking، مدلی با قابلیت “استدلال”.
Gemini Nano، دو مدل کوچک: Nano-1 و Nano-2 کمی توانمندتر، که قرار است به صورت آفلاین اجرا شود.

همه مدل‌های جمینی به گونه‌ای آموزش داده شده‌اند که به صورت بومی چندوجهی باشند . یعنی قادر به کار و تجزیه و تحلیل بیشتر از متن باشند. گوگل می گوید که آنها از قبل آموزش دیده اند و روی انواع صداها، تصاویر و ویدئوهای عمومی، اختصاصی و دارای مجوز تنظیم شده اند. مجموعه ای از پایگاه های کد؛ و متن به زبان های مختلف.

هوش مصنوعی Gemini گوگل در رقابت با چت جی پی تی قرار دارد

نکته

این امر هوش مصنوعی Gemini را از مدل هایی مانند LaMDA خود گوگل یا سایر انواع برنامه هوش مصنوعی که منحصراً بر روی داده های متنی آموزش داده شده است، متمایز می کند. LaMDA نمی تواند چیزی فراتر از متن را بفهمد یا تولید کند (به عنوان مثال، مقاله، ایمیل، و غیره)، اما این لزوما در مورد مدل های هوش مصنوعی Gemini صدق نمی کند. به عنوان مثال، آخرین نسخه‌های هوش مصنوعی Gemini Flash و هوش مصنوعی Gemini Pro می‌توانند علاوه بر متن، تصاویر و صدا را به صورت بومی تولید کنند.

ما در اینجا متذکر می شویم که اصول اخلاقی و قانونی مدل های آموزشی در مورد داده های عمومی، در برخی موارد بدون اطلاع یا رضایت صاحبان داده ها، مبهم است. Google برای محافظت از برخی از مشتریان Google Cloud از شکایت در صورت مواجهه با آنها، یک خط‌مشی جبران خسارت هوش مصنوعی دارد، اما این خط‌مشی شامل مواردی است. با احتیاط ادامه دهید – به خصوص اگر قصد استفاده تجاری از هوش مصنوعی Gemini را دارید.

تفاوت بین برنامه های Gemini و مدل های Gemini چیست؟

هوش مصنوعی Gemini جدا و متمایز از برنامه های هوش مصنوعی Gemini در وب و موبایل (بارد سابق) است. برنامه‌های Gemini کلاینت‌هایی هستند که به مدل‌های مختلف Gemini متصل می‌شوند و یک رابط چت‌مانند در بالای آن لایه‌بندی می‌کنند. آنها را به‌عنوان بخش‌های جلویی برای هوش مصنوعی مولد Google در نظر بگیرید، مشابه ChatGPT و خانواده برنامه‌های Claude Anthropic.

جمینی در وب اینجا زندگی می کند. در اندروید، برنامه هوش مصنوعی Gemini جایگزین برنامه Google Assistant موجود می‌شود. و در iOS، برنامه های جستجوی گوگل و گوگل به عنوان مشتریان هوش مصنوعی Gemini آن پلتفرم عمل می کنند. در اندروید، کاربران می‌توانند یک پوشش Gemini برای پرسیدن سوالاتی در مورد آنچه روی صفحه نمایش آن‌ها است (مثلاً یک ویدیوی YouTube) بیاورند. فشار دادن و نگه داشتن دکمه روشن/خاموش تلفن هوشمند پشتیبانی‌شده یا گفتن «Hey Google» پوشش را فراخوانی می‌کند.

برنامه‌های هوش مصنوعی Gemini می‌توانند تصاویر و همچنین دستورات صوتی و متن را بپذیرند – از جمله فایل‌هایی مانند فایل‌های PDF، آپلود شده یا وارد شده از Google Drive – و تصاویر تولید می‌کنند. همانطور که انتظار دارید، مکالمات با برنامه های هوش مصنوعی Gemini در تلفن همراه به هوش مصنوعی Gemini در وب منتقل می شود و بالعکس اگر در هر دو مکان به یک حساب Google وارد شده باشید.

جمینی پیشرفته

برنامه‌های هوش مصنوعی Gemini تنها ابزاری برای جذب کمک مدل‌های هوش مصنوعی Gemini در انجام وظایف نیستند. ویژگی‌های آغشته به هوش مصنوعی Gemini به آرامی اما مطمئناً راه خود را به برنامه‌ها و سرویس‌های اصلی Google مانند Gmail و Google Docs باز می‌کنند.

برای استفاده از بیشتر این موارد، به Google One AI Premium Plan نیاز دارید. از نظر فنی بخشی از Google One، برنامه AI Premium 20 دلار در ماه هزینه دارد و دسترسی به هوش مصنوعی Gemini را در برنامه‌های Google Workspace مانند Docs، Maps، Slides، Sheets، Drive و Meet فراهم می‌کند. همچنین چیزی را که Google Gemini Advanced می نامد را فعال می کند که مدل های پیچیده تر هوش مصنوعی Gemini این شرکت را به برنامه های Gemini می آورد.

کاربران هوش مصنوعی Gemini Advanced از اینجا و آنجا نیز امکانات اضافی دریافت می‌کنند، مانند دسترسی اولویت‌دار به ویژگی‌ها و مدل‌های جدید. امکان اجرا و ویرایش کد پایتون به طور مستقیم در هوش مصنوعی Gemini. و افزایش محدودیت‌ها برای NotebookLM، ابزار Google که فایل‌های PDF را به پادکست‌های تولید شده با هوش مصنوعی تبدیل می‌کند. اخیراً، Gemini Advanced یک ویژگی حافظه به دست آورده است که تنظیمات برگزیده کاربران را ذخیره می کند و به هوش مصنوعی Gemini اجازه می دهد تا به مکالمات قدیمی به عنوان زمینه برای چت های فعلی اشاره کند.

نکته

یکی از جذاب‌ترین موارد انحصاری Gemini Advanced، Deep Research، از مدل‌های هوش مصنوعی Gemini با «استدلال پیشرفته» برای ایجاد خلاصه‌های دقیق استفاده می‌کند. در پاسخ به یک درخواست (مثلاً «چگونه باید آشپزخانه‌ام را دوباره طراحی کنم؟»)، Deep Research یک طرح تحقیقاتی چند مرحله‌ای ایجاد می‌کند و در وب جستجو می‌کند تا پاسخی جامع ارائه کند.

Gemini در Gmail، Docs، Chrome، ابزار توسعه و غیره

در هوش مصنوعی Gmail، Gemini در یک پانل جانبی زندگی می کند که می تواند ایمیل بنویسد و رشته های پیام را خلاصه کند. همان پانل را در Docs پیدا خواهید کرد. جایی که به نوشتن و اصلاح محتوا و ایجاد ایده های جدید کمک می کند. Gemini in Slides اسلایدها و تصاویر سفارشی تولید می کند. و Gemini در Google Sheets داده ها را ردیابی و سازماندهی می کند و جداول و فرمول ها را ایجاد می کند.

هوش مصنوعی Gemini در Google Maps است، جایی که می‌تواند نظرات مربوط به کسب‌وکارهای محلی را جمع‌آوری کند و توصیه‌هایی مانند نحوه صرف یک روز برای بازدید از یک شهر خارجی ارائه دهد. دسترسی ربات چت به Drive نیز گسترش می‌یابد، جایی که می‌تواند فایل‌ها و پوشه‌ها را خلاصه کند و اطلاعات سریعی درباره یک پروژه ارائه دهد.

هوش مصنوعی Gemini اخیراً به مرورگر کروم گوگل در قالب یک ابزار نوشتن با هوش مصنوعی وارد شده است. می توانید از آن برای نوشتن چیزی کاملاً جدید یا بازنویسی متن موجود استفاده کنید. گوگل می گوید که صفحه وب شما را برای ارائه توصیه ها در نظر می گیرد.

نکته

در جای دیگر، نکاتی از هوش مصنوعی Gemini را در محصولات پایگاه داده Google، ابزارهای امنیتی ابری، و پلتفرم‌های توسعه برنامه (از جمله Firebase و Project IDX)، و همچنین در برنامه‌هایی مانند Google Photos (جایی که جمینی درخواست‌های جستجوی زبان طبیعی را انجام می‌دهد)، YouTube (جایی که به ایده‌های ویدیویی طوفان فکری کمک می‌کند) و Meet (جایی که شرح‌ها را ترجمه می‌کند) خواهید دید.

Code Assist (قبلاً Duet AI برای توسعه دهندگان)، مجموعه ابزارهای کمکی مبتنی بر هوش مصنوعی Google برای تکمیل و تولید کد، در حال بارگذاری محاسبات سنگین به Gemini است. همچنین محصولات امنیتی Google که زیربنای Gemini هستند، مانند Gemini in Threat Intelligence، که می‌تواند بخش‌های بزرگی از کدهای مخرب بالقوه را تجزیه و تحلیل کند و به کاربران اجازه دهد به زبان طبیعی برای تهدیدهای مداوم یا شاخص‌های سازش جستجو کنند، هستند.

هوش مصنوعی Gemini بارد جدیدا تعویض نام داشته است

پسوند هوش مصنوعی Gemini و Gems

کاربران پیشرفته هوش مصنوعی Gemini می توانند Gems، چت ربات های سفارشی را روی دسکتاپ و موبایل با مدل های Gemini ایجاد کنند. جواهرات را می توان از توضیحات زبان طبیعی تولید کرد – به عنوان مثال، «تو مربی دویدن من هستی. به من یک برنامه در حال اجرا روزانه بدهید» – و با سایر کاربران به اشتراک گذاشته شده یا خصوصی نگه داشته می شود.

برنامه‌های هوش مصنوعی Gemini می‌توانند از طریق آنچه Google «افزونه‌های جمینی» می‌نامد، به سرویس‌های Google دسترسی داشته باشند. Gemini با Drive، Gmail، YouTube و موارد دیگر ادغام می‌شود تا به سؤالاتی مانند «آیا می‌توانید سه ایمیل آخر من را خلاصه کنید؟» پاسخ می‌دهد.

Gemini چت صوتی عمیق زنده

تجربه‌ای به نام هوش مصنوعی Gemini Live به کاربران امکان می‌دهد با جمینی چت‌های صوتی «عمیق» داشته باشند. در برنامه‌های هوش مصنوعی Gemini در تلفن همراه و Pixel Buds Pro 2 در دسترس است. جایی که می‌توانید حتی زمانی که تلفنتان قفل است به آن دسترسی پیدا کنید. چنین چیزی زمانی که ساخت ویدیو با هوش مصنوعی امکان پذیر است عجیب نیست.

با فعال کردن هوش مصنوعی Gemini Live، می‌توانید در حین صحبت کردن ربات چت، برای پرسیدن یک سؤال روشن‌کننده، جمینی را قطع کنید و در زمان واقعی با الگوهای گفتار شما سازگار می‌شود. Live همچنین برای خدمت به عنوان یک مربی مجازی طراحی شده است و به شما کمک می کند تا برای رویدادها تمرین کنید، ایده های طوفان فکری و غیره را انجام دهید. به عنوان مثال، Live می‌تواند مهارت‌هایی را برای برجسته کردن در مصاحبه شغلی آینده پیشنهاد دهد و نکات سخنرانی عمومی را ارائه دهد.

جوزا برای نوجوانان

گوگل تجربه هوش مصنوعی Gemini با تمرکز بر نوجوانان را برای دانش آموزان ارائه می دهد. جمینی متمرکز بر نوجوانان دارای «سیاست‌ها و پادمان‌های اضافی» است، از جمله فرآیند سوار شدن سفارشی و راهنمای سواد هوش مصنوعی. در غیر این صورت، تقریباً مشابه تجربه استاندارد هوش مصنوعی Gemini است، تا ویژگی «بررسی مضاعف» که در سراسر وب به نظر می رسد تا ببیند آیا پاسخ های هوش مصنوعی Gemini دقیق هستند یا خیر.

مدل های جمینی چه کاری می توانند انجام دهند؟

از آنجایی که مدل‌های هوش مصنوعی Gemini چند وجهی هستند، می‌توانند طیف وسیعی از وظایف چندوجهی را انجام دهند، از رونویسی گفتار گرفته تا نوشتن شرح تصاویر و ویدیوها در زمان واقعی. بسیاری از این قابلیت ها به مرحله تولید رسیده اند و گوگل در آینده ای نه چندان دور وعده های بسیار بیشتری را می دهد.

البته، امروزه گوگل برای برخی از مشکلات اساسی فناوری هوش مصنوعی مولد، مانند تعصبات رمزگذاری شده و تمایل به ساختن چیزها (به عنوان مثال، توهم) راه حلی ارائه نمی دهد. رقبای آن نیز این کار را نمی‌کنند، اما هنگام استفاده از جمینی یا پرداخت هزینه آن باید به خاطر داشته باشید.

قابلیت های Gemini Pro

گوگل می‌گوید که آخرین مدل Pro خود، Gemini 2.0 Pro، برای کدنویسی و درخواست‌های پیچیده بهترین است. 2.0 Pro در معیارهای اندازه گیری برنامه نویسی، استدلال، ریاضی و دقت واقعی بهتر از نسخه قبلی خود، Gemini 1.5 Pro عمل می کند.

در پلتفرم Vertex AI گوگل، توسعه‌دهندگان می‌توانند Gemini Pro را در زمینه‌های خاص سفارشی کنند و از طریق یک فرآیند تنظیم دقیق یا «زمین‌سازی» از موارد استفاده کنند. به عنوان مثال، می‌توان به Pro (همراه با سایر مدل‌های Gemini) دستور داد که از داده‌های ارائه‌دهندگان شخص ثالث مانند Moody’s، Thomson Reuters، ZoomInfo و MSCI استفاده کند، یا اطلاعات منبع را از مجموعه داده‌های شرکت یا جستجوی Google به‌جای بانک دانش گسترده‌تر خود استفاده کند. Gemini Pro همچنین می تواند به API های خارجی و شخص ثالث متصل شود تا اقدامات خاصی را انجام دهد، مانند خودکار کردن یک گردش کار پشتیبان.

پلتفرم استودیوی هوش مصنوعی گوگل الگوهایی را برای ایجاد پیام‌های چت ساختاریافته با Pro ارائه می‌دهد. توسعه‌دهندگان می‌توانند محدوده خلاقانه مدل را کنترل کنند و مثال‌هایی برای ارائه دستورالعمل‌های لحن و سبک ارائه دهند – و همچنین تنظیمات ایمنی Pro را تنظیم کنند.

API های داخلی

APIهای داخلی، در معیارهای سنجش کدگذاری و تجزیه و تحلیل تصویر، از برخی از مدل‌های بزرگتر Gemini 1.5 بهتر عمل می‌کند. فلش که شاخه‌ای از Gemini Pro است، کوچک و کارآمد است – برای بارهای کاری باریک و با فرکانس بالا مولد هوش مصنوعی ساخته شده است.

گوگل می‌گوید فلش به‌ویژه برای کارهایی مانند برنامه‌های خلاصه‌سازی و چت، به‌علاوه شرح تصاویر و ویدیوها و استخراج داده‌ها از اسناد و جداول طولانی بسیار مناسب است. در همین حال، به گفته گوگل، Gemini 2.0 Flash-Lite، یک نسخه فشرده تر از Flash، بهتر از Gemini 1.5 Flash عمل می کند، اما با همان قیمت و سرعت کار می کند.

در دسامبر گذشته، گوگل نسخه «متفکر» Gemini 2.0 Flash را منتشر کرد که قادر به «استدلال» است. مدل هوش مصنوعی قبل از اینکه پاسخی بدهد، چند ثانیه طول می کشد تا از طریق یک مشکل به عقب کار کند، که می تواند قابلیت اطمینان آن را بهبود بخشد.

Gemini Nano می تواند روی گوشی شما اجرا شود

هوش مصنوعی Gemini Nano یک نسخه کوچک از Gemini است که به اندازه کافی کارآمد است که به‌جای ارسال کار به سرور در جایی، مستقیماً روی (برخی) دستگاه‌ها اجرا شود. تا کنون، نانو چند ویژگی را در پیکسل 8 پرو، پیکسل 8، پیکسل 9 پرو، پیکسل 9 و سامسونگ گلکسی اس 24، از جمله خلاصه کردن در ضبط و پاسخ هوشمند در جی‌بورد، تقویت می‌کند.

برنامه Recorder که به کاربران اجازه می‌دهد دکمه‌ای را برای ضبط و رونویسی صدا فشار دهند، شامل خلاصه‌ای از مکالمات ضبط‌شده، مصاحبه‌ها، ارائه‌ها و سایر قطعه‌های صوتی با پشتیبانی از هوش مصنوعی Gemini است. کاربران حتی اگر سیگنال یا اتصال Wi-Fi نداشته باشند، خلاصه می‌شوند – و با اشاره به حفظ حریم خصوصی، هیچ داده‌ای از تلفن آنها خارج نمی‌شود. Nano همچنین در Gboard، جایگزین صفحه کلید Google است. در آنجا، Smart Reply را تقویت می‌کند، که به شما کمک می‌کند تا چیز بعدی را که می‌خواهید هنگام مکالمه در یک برنامه پیام‌رسانی مانند WhatsApp بگویید، پیشنهاد کنید.

نسخه آینده اندروید روی Nano ضربه می‌زند تا کاربران را از کلاهبرداری‌های احتمالی در حین تماس آگاه کند. برنامه جدید آب و هوا در تلفن‌های Pixel از Gemini Nano برای تولید گزارش‌های هواشناسی مناسب استفاده می‌کند. و TalkBack، سرویس دسترسی گوگل، از Nano برای ایجاد توضیحات شنیداری از اشیاء برای کاربران کم بینا و نابینا استفاده می کند.

هوش مصنوعی Gemini جدید با پیشرفت های شگفت انگیزی رو به رو شده است

Gemini Ultra، MIA در حال حاضر

ما در ماه‌های اخیر چیز زیادی از Gemini Ultra ندیده‌ایم. حتی تشخیص بیماری با هوش مصنوعی که توسط سایر AI ها انجام می شود. این مدل در برنامه‌های Gemini موجود نیست و در صفحه قیمت‌گذاری Google’s Gemini API فهرست نشده است. با این حال، این بدان معنا نیست که گوگل در آینده ای Ultra را باز نمی گرداند.
قیمت مدل های جمینی چقدر است؟

Gemini 1.5 Pro، 1.5 Flash، 2.0 Flash و 2.0 Flash-Lite از طریق API Gemini Google برای ساخت برنامه‌ها و خدمات در دسترس هستند. آنها به صورت پرداختی هستند. در اینجا قیمت پایه – بدون احتساب افزونه ها – از فوریه 225 آمده است:

Gemini 1.5 Pro:

1.25 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواست تا 128 هزار توکن) یا 2.50 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواست های طولانی تر از 128 هزار توکن). 5 دلار به ازای هر 1 میلیون توکن خروجی (برای درخواست های تا 128 هزار توکن) یا 10 دلار به ازای هر 1 میلیون توکن خروجی (برای درخواست های طولانی تر از 128 هزار توکن)

فلش جمینی 1.5

7.5 سنت به ازای هر 1 میلیون توکن ورودی (برای درخواست های تا 128 هزار توکن)، 15 سنت در هر 1 میلیون توکن ورودی (برای درخواست های طولانی تر از 128 هزار توکن)، 30 سنت به ازای هر 1 میلیون توکن خروجی (برای درخواست ها تا 128 هزار توکن خروجی)، 60 سنت برای هر 1 میلیون توکن توکن ورودی. (برای درخواست های بیشتر از 128 هزار توکن)
Gemini 2.0 Flash: 10 سنت به ازای هر 1 میلیون توکن ورودی، 40 سنت در هر 1 میلیون توکن خروجی. برای صدا، 70 سنت به ازای هر 1 میلیون توکن ورودی.

Gemini 2.0 Flash-Lite:

7.5 سنت به ازای هر 1 میلیون توکن ورودی، 30 سنت به ازای هر 1 میلیون توکن خروجی. توکن‌ها بیت‌های تقسیم‌بندی شده‌ای از داده‌های خام هستند، مانند هجاهای «فن»، «تاس» و «تیک» در کلمه «فانتزی»؛ 1 میلیون توکن معادل حدود 750000 کلمه است. ورودی به نشانه هایی اشاره دارد که به مدل تغذیه می شوند، در حالی که خروجی به نشانه هایی اشاره دارد که مدل تولید می کند.