blank

گوگل جیمنی: ہر وہ چیز جو آپ کو نئے تخلیقی AI پلیٹ فارم کے بارے میں جاننے کی ضرورت ہے۔

گوگل جیمنی کے ساتھ موجیں بنانے کی کوشش کر رہا ہے، اس کے جنریٹیو AI ماڈلز، ایپس اور سروسز کے فلیگ شپ سوٹ۔

تو Gemini کیا ہے؟ آپ اسے کیسے استعمال کر سکتے ہیں؟ اور کیسے کرتا ہے۔ مقابلہ کے لئے اسٹیک اپ?

جیمنی کی تازہ ترین پیشرفت سے باخبر رہنا آسان بنانے کے لیے، ہم نے یہ کارآمد گائیڈ ایک ساتھ رکھا ہے، جسے ہم نئے جیمنی ماڈلز، خصوصیات اور گوگل کے جیمنی کے منصوبوں کے بارے میں خبروں کے جاری ہونے پر اپ ڈیٹ کرتے رہیں گے۔

Gemini کیا ہے؟

جیمنی گوگل کا ہے۔ طویل عرصے سے وعدہ کیا، اگلی نسل GenAI ماڈل فیملی، جسے Google کی AI ریسرچ لیبز DeepMind اور Google Research نے تیار کیا ہے۔ یہ تین ذائقوں میں آتا ہے:

  • جیمنی الٹرا، سب سے زیادہ پرفارمنس جیمنی ماڈل۔
  • جیمنی پرو، ایک “لائٹ” جیمنی ماڈل۔
  • جیمنی نینو، ایک چھوٹا “آست” ماڈل جو موبائل آلات پر چلتا ہے۔ Pixel 8 Pro.

تمام جیمنی ماڈلز کو “مقامی طور پر ملٹی موڈل” ہونے کی تربیت دی گئی تھی – دوسرے لفظوں میں، صرف الفاظ سے زیادہ کام کرنے اور استعمال کرنے کے قابل۔ انہیں پہلے سے تربیت دی گئی تھی اور مختلف آڈیو، تصاویر اور ویڈیوز، کوڈ بیس کا ایک بڑا سیٹ اور مختلف زبانوں میں متن کو ٹھیک بنایا گیا تھا۔

یہ جیمنی کو گوگل کے اپنے ماڈلز سے الگ کرتا ہے۔ لا ایم ڈی اےجس کی تربیت خصوصی طور پر ٹیکسٹ ڈیٹا پر کی گئی تھی۔ LaMDA متن کے علاوہ کسی اور چیز کو نہیں سمجھ سکتا اور نہ ہی بنا سکتا ہے (مثلاً، مضامین، ای میل ڈرافٹ)، لیکن جیمنی ماڈلز کے ساتھ ایسا نہیں ہے۔

جیمنی ایپس اور جیمنی ماڈلز میں کیا فرق ہے؟

گوگل کا بارڈ

تصویری کریڈٹ: گوگل

گوگل، ثابت کر رہا ہے۔ ایک بار پھر کہ اس میں برانڈنگ کی مہارت کا فقدان ہے، اس نے شروع سے یہ واضح نہیں کیا کہ Gemini ویب اور موبائل (سابقہ ​​بارڈ) پر Gemini ایپس سے الگ اور الگ ہے۔ جیمنی ایپس محض ایک انٹرفیس ہیں جس کے ذریعے کچھ جیمنی ماڈلز تک رسائی حاصل کی جا سکتی ہے — اسے گوگل کے GenAI کے کلائنٹ کے طور پر سمجھیں۔

اتفاق سے، Gemini ایپس اور ماڈلز بھی مکمل طور پر آزاد ہیں۔ تصویر 2گوگل کا ٹیکسٹ ٹو امیج ماڈل جو کمپنی کے کچھ ڈیو ٹولز اور ماحول میں دستیاب ہے۔

جیمنی کیا کر سکتا ہے؟

چونکہ جیمنی ماڈل ملٹی موڈل ہوتے ہیں، اس لیے وہ تھیوری میں بہت سے ملٹی موڈل کام انجام دے سکتے ہیں، تقریر کی نقل کرنے سے لے کر تصویروں اور ویڈیوز کی سرخی تک آرٹ ورک تیار کرنے تک۔ ان میں سے کچھ صلاحیتیں ابھی تک پروڈکٹ کے مرحلے تک پہنچ چکی ہیں (اس کے بارے میں مزید بعد میں)، اور گوگل ان سب کا وعدہ کرتا ہے — اور مزید — کسی وقت بہت دور نہیں مستقبل میں۔

یقینا، کمپنی کو اس کے لفظ پر لینا قدرے مشکل ہے۔

گوگل سنجیدگی سے کم ترسیل اصل بارڈ لانچ کے ساتھ۔ اور حال ہی میں اس نے پنکھوں کو جھنجھوڑ دیا۔ جیمنی کی صلاحیتوں کو دکھانے کے لیے ایک ویڈیو کے ساتھ جو کہ بہت زیادہ ڈاکٹری کی گئی تھی اور کم و بیش خواہش مند تھی۔

پھر بھی، یہ فرض کرتے ہوئے کہ گوگل اپنے دعووں کے ساتھ کم و بیش سچا ہے، یہاں یہ ہے کہ جیمنی کے مختلف درجے اپنی پوری صلاحیت تک پہنچنے کے بعد کیا کر سکیں گے:

جیمنی الٹرا

گوگل کا کہنا ہے کہ جیمنی الٹرا — اس کی کثیر العملیت کی بدولت — فزکس ہوم ورک، ورک شیٹ پر قدم بہ قدم مسائل حل کرنے اور پہلے سے بھرے ہوئے جوابات میں ممکنہ غلطیوں کی نشاندہی کرنے جیسی چیزوں میں مدد کے لیے استعمال کیا جا سکتا ہے۔

جیمنی الٹرا کو کسی خاص مسئلے سے متعلقہ سائنسی کاغذات کی شناخت جیسے کاموں پر بھی لاگو کیا جا سکتا ہے، گوگل کا کہنا ہے کہ – ان کاغذات سے معلومات نکالنا اور تازہ ترین اعداد و شمار کے ساتھ چارٹ کو دوبارہ بنانے کے لیے ضروری فارمولے بنا کر ایک سے چارٹ کو “اپ ڈیٹ” کرنا۔ .

جیمنی الٹرا تکنیکی طور پر امیج جنریشن کو سپورٹ کرتا ہے، جیسا کہ پہلے بتایا گیا تھا۔ لیکن اس صلاحیت نے ابھی تک ماڈل کے پروڈکٹائزڈ ورژن میں اپنا راستہ نہیں بنایا ہے – شاید اس لیے کہ طریقہ کار اس سے کہیں زیادہ پیچیدہ ہے کہ ایپس جیسے چیٹ جی پی ٹی تصاویر بنائیں. فیڈ کے بجائے امیج جنریٹر کو اشارہ کرتا ہے (جیسے DALL-E 3ChatGPT کے معاملے میں)، Gemini تصاویر کو “مقامی طور پر” بناتا ہے، بغیر کسی درمیانی قدم کے۔

Gemini Ultra ایک API کے طور پر Vertex AI، Google کے مکمل طور پر منظم AI ڈویلپر پلیٹ فارم، اور AI Studio، ایپ اور پلیٹ فارم کے ڈویلپرز کے لیے Google کے ویب پر مبنی ٹول کے ذریعے دستیاب ہے۔ یہ Gemini ایپس کو بھی طاقت دیتا ہے – لیکن مفت میں نہیں۔ جیمنی الٹرا تک رسائی اس کے ذریعے جسے Google Gemini Advanced کہتا ہے اس کے لیے Google One AI پریمیم پلان کو سبسکرائب کرنے کی ضرورت ہے، جس کی قیمت $20 فی مہینہ ہے۔

AI پریمیم پلان جیمنی کو آپ کے وسیع تر Google Workspace اکاؤنٹ سے بھی جوڑتا ہے — سوچیں Gmail میں ای میلز، Docs میں دستاویزات، Sheets میں پیشکشیں اور Google Meet کی ریکارڈنگز۔ یہ ایک ویڈیو کال کے دوران ای میلز کا خلاصہ کرنے یا جیمنی کیپچر نوٹ رکھنے کے لیے مفید ہے۔

جیمنی پرو

گوگل کا کہنا ہے کہ جیمنی پرو اپنی استدلال، منصوبہ بندی اور سمجھنے کی صلاحیتوں میں LaMDA کے مقابلے میں بہتری ہے۔

ایک آزاد مطالعہ کارنیگی میلن اور بیری اے آئی کے محققین نے پایا کہ جیمنی پرو کا ابتدائی ورژن درحقیقت اوپن اے آئی سے بہتر تھا۔ GPT-3.5 طویل اور زیادہ پیچیدہ استدلال کی زنجیروں سے نمٹنے میں۔ لیکن مطالعہ نے یہ بھی پایا کہ تمام بڑے لینگویج ماڈلز کی طرح جیمنی پرو کا یہ ورژن خاص طور پر ریاضی کے مسائل کے ساتھ جدوجہد کرتا ہے جس میں کئی ہندسے شامل ہوتے ہیں، اور صارفین کو مثالیں ملیں۔ کی غلط استدلال اور واضح غلطیاں.

گوگل نے علاج کا وعدہ کیا تھا، حالانکہ – اور پہلی شکل میں پہنچا Gemini 1.5 Pro.

ڈراپ ان ریپلیسمنٹ کے لیے ڈیزائن کیا گیا، جیمنی 1.5 پرو کو اپنے پیشرو کے مقابلے میں بہت سے شعبوں میں بہتر بنایا گیا ہے، شاید سب سے نمایاں طور پر اس ڈیٹا کی مقدار میں جس پر یہ کارروائی کر سکتا ہے۔ Gemini 1.5 Pro ~ 700,000 الفاظ، یا ~ 30,000 لائنز کوڈ میں لے سکتا ہے — 35 گنا اس رقم سے جو Gemini 1.0 Pro سنبھال سکتا ہے۔ اور – ماڈل ملٹی موڈل ہے – یہ متن تک محدود نہیں ہے۔ Gemini 1.5 Pro مختلف زبانوں میں 11 گھنٹے تک کی آڈیو یا ایک گھنٹے کی ویڈیو کا تجزیہ کر سکتا ہے، اگرچہ آہستہ آہستہ (مثال کے طور پر، ایک گھنٹے کی ویڈیو میں کسی منظر کو تلاش کرنے میں 30 سیکنڈ سے لے کر ایک منٹ تک کا وقت لگتا ہے)۔

Gemini 1.5 Pro اپریل میں Vertex AI پر عوامی پیش نظارہ میں داخل ہوا۔.

ایک اضافی اختتامی نقطہ، Gemini Pro Vision، متن پر کارروائی کر سکتا ہے۔ اور امیجری — بشمول فوٹو اور ویڈیو — اور آؤٹ پٹ ٹیکسٹ OpenAI کی خطوط پر وژن کے ساتھ GPT-4 ماڈل

جیمنی

Vertex AI میں Gemini Pro کا استعمال۔ تصویری کریڈٹ: جیمنی

Vertex AI کے اندر، ڈویلپرز Gemini Pro کو مخصوص سیاق و سباق کے مطابق بنا سکتے ہیں اور فائن ٹیوننگ یا “گراؤنڈنگ” عمل کا استعمال کرتے ہوئے کیسز کا استعمال کر سکتے ہیں۔ جیمنی پرو کو مخصوص اعمال انجام دینے کے لیے بیرونی، تھرڈ پارٹی APIs سے بھی منسلک کیا جا سکتا ہے۔

AI اسٹوڈیو میں، Gemini Pro کا استعمال کرتے ہوئے سٹرکچرڈ چیٹ پرامپٹس بنانے کے لیے ورک فلو موجود ہے۔ ڈیولپرز کو Gemini Pro اور Gemini Pro Vision دونوں اختتامی پوائنٹس تک رسائی حاصل ہے، اور وہ آؤٹ پٹ کی تخلیقی حد کو کنٹرول کرنے کے لیے ماڈل کے درجہ حرارت کو ایڈجسٹ کر سکتے ہیں اور لہجے اور طرز کی ہدایات دینے کے لیے مثالیں فراہم کر سکتے ہیں — اور حفاظتی ترتیبات کو بھی ٹیون کر سکتے ہیں۔

جیمنی نینو

جیمنی نینو جیمنی پرو اور الٹرا ماڈلز کا بہت چھوٹا ورژن ہے، اور یہ کام کو کہیں سرور پر بھیجنے کے بجائے براہ راست (کچھ) فونز پر چلانے کے لیے کافی موثر ہے۔ اب تک، یہ Pixel 8 Pro، Pixel 8 اور Samsung Galaxy S24 پر چند خصوصیات کو طاقت دیتا ہے، بشمول Summarize in Recorder اور Gboard میں Smart Reply۔

ریکارڈر ایپ، جو صارفین کو آڈیو کو ریکارڈ کرنے اور نقل کرنے کے لیے بٹن دبانے دیتی ہے، اس میں آپ کی ریکارڈ شدہ گفتگو، انٹرویوز، پیشکشوں اور دیگر ٹکڑوں کا جیمنی سے چلنے والا خلاصہ شامل ہے۔ صارفین کو یہ خلاصے ملتے ہیں یہاں تک کہ اگر ان کے پاس سگنل یا وائی فائی کنکشن دستیاب نہ ہو — اور رازداری کی منظوری میں، کوئی ڈیٹا ان کے فون کو اس عمل میں نہیں چھوڑتا ہے۔

جیمنی نینو گوگل کی کی بورڈ ایپ جی بورڈ میں بھی ہے۔ وہاں، یہ اسمارٹ ریپلائی نامی ایک خصوصیت کو طاقت دیتا ہے، جو اگلی چیز کو تجویز کرنے میں مدد کرتا ہے جو آپ میسجنگ ایپ میں گفتگو کرتے وقت کہنا چاہیں گے۔ گوگل کا کہنا ہے کہ یہ فیچر ابتدائی طور پر صرف واٹس ایپ کے ساتھ کام کرتا ہے لیکن وقت کے ساتھ ساتھ مزید ایپس پر آئے گا۔

اور معاون ڈیوائسز پر گوگل میسجز ایپ میں، نینو میجک کمپوز کو فعال کرتا ہے، جو پیغامات کو “پرجوش”، “رسمی” اور “گیتی” جیسے انداز میں تیار کر سکتا ہے۔

کیا Gemini OpenAI کے GPT-4 سے بہتر ہے؟

گوگل نے کئی بار کہا بینچ مارکس پر جیمنی کی برتری، یہ دعویٰ کرتے ہوئے کہ جیمنی الٹرا “بڑے زبان کے ماڈل کی تحقیق اور ترقی میں استعمال ہونے والے 32 میں سے 30 بڑے پیمانے پر استعمال شدہ تعلیمی معیارات” پر موجودہ جدید ترین نتائج سے زیادہ ہے۔ کمپنی کا کہنا ہے کہ جیمنی 1.5 پرو، اس دوران، کچھ منظرناموں میں جیمنی الٹرا کے مقابلے میں مواد کا خلاصہ، ذہن سازی اور لکھنے جیسے کاموں میں زیادہ قابل ہے۔ ممکنہ طور پر یہ اگلے الٹرا ماڈل کی ریلیز کے ساتھ بدل جائے گا۔

لیکن اس سوال کو ایک طرف چھوڑ کر کہ آیا بینچ مارکس واقعی ایک بہتر ماڈل کی نشاندہی کرتے ہیں، گوگل کے پوائنٹس کے اسکورز OpenAI کے متعلقہ ماڈلز سے معمولی حد تک بہتر دکھائی دیتے ہیں۔ اور — جیسا کہ پہلے ذکر کیا گیا ہے — کچھ ابتدائی تاثرات اچھے نہیں رہے ہیں۔ صارفین اور ماہرین تعلیم یہ بتاتے ہوئے کہ Gemini Pro کا پرانا ورژن بنیادی حقائق کو غلط سمجھتا ہے، ترجمے کے ساتھ جدوجہد کرتا ہے اور کوڈنگ کی ناقص تجاویز دیتا ہے۔

Gemini کی قیمت کتنی ہے؟

Gemini 1.5 Pro Gemini ایپس اور ابھی کے لیے، AI Studio اور Vertex AI میں استعمال کرنے کے لیے مفت ہے۔

ایک بار جب Gemini 1.5 Pro Vertex میں پیش نظارہ سے باہر ہو جاتا ہے، تاہم، ماڈل کی لاگت $0.0025 فی کریکٹر ہوگی جبکہ آؤٹ پٹ کی لاگت $0.00005 فی کریکٹر ہوگی۔ Vertex کے صارفین فی 1,000 حروف (تقریباً 140 سے 250 الفاظ) اور جیمنی پرو ویژن جیسے ماڈلز کی صورت میں فی تصویر ($0.0025) ادا کرتے ہیں۔

آئیے فرض کریں کہ 500 الفاظ کا مضمون 2,000 حروف پر مشتمل ہے۔ جیمنی 1.5 پرو کے ساتھ اس مضمون کا خلاصہ کرنے کی لاگت $5 ہوگی۔ دریں اثنا، اسی طرح کی لمبائی کا ایک مضمون بنانے پر $0.1 لاگت آئے گی۔

الٹرا قیمتوں کا اعلان ہونا ابھی باقی ہے۔

آپ جیمنی کو کہاں آزما سکتے ہیں؟

جیمنی پرو

Gemini Pro کا تجربہ کرنے کے لیے سب سے آسان جگہ ہے۔ جیمنی ایپس. پرو اور الٹرا مختلف زبانوں میں سوالات کا جواب دے رہے ہیں۔

جیمنی پرو اور الٹرا بھی ہیں۔ قابل رسائی ایک API کے ذریعے Vertex AI میں پیش نظارہ میں۔ API فی الحال “حد کے اندر” استعمال کرنے کے لیے آزاد ہے اور یورپ سمیت بعض خطوں کے ساتھ ساتھ چیٹ کی فعالیت اور فلٹرنگ جیسی خصوصیات کو بھی سپورٹ کرتا ہے۔

کہیں اور، Gemini Pro اور Ultra ہو سکتے ہیں۔ پایا AI اسٹوڈیو میں۔ سروس کا استعمال کرتے ہوئے، ڈویلپر پرامپٹس اور جیمنی پر مبنی چیٹ بوٹس کو اعادہ کر سکتے ہیں اور پھر انہیں اپنی ایپس میں استعمال کرنے کے لیے API کیز حاصل کر سکتے ہیں — یا کوڈ کو مکمل طور پر نمایاں IDE میں ایکسپورٹ کر سکتے ہیں۔

کوڈ اسسٹ (سابقہ ڈویلپرز کے لیے ڈوئٹ AI)، کوڈ کی تکمیل اور جنریشن کے لیے AI سے چلنے والے امدادی ٹولز کا Google کا سوٹ، Gemini ماڈل استعمال کر رہا ہے۔ ڈویلپرز کوڈ بیسز میں “بڑے پیمانے پر” تبدیلیاں انجام دے سکتے ہیں، مثال کے طور پر کراس فائل انحصار کو اپ ڈیٹ کرنا اور کوڈ کے بڑے حصوں کا جائزہ لینا۔

گوگل اس کے لیے جیمنی ماڈلز لایا دیو ٹولز کروم اور فائر بیس موبائل ڈیو پلیٹ فارم کے لیے، اور اس کے ڈیٹا بیس کی تخلیق اور انتظامی ٹولز. اور یہ ہے جیمنی کے زیر اثر نئی سیکیورٹی پروڈکٹس کا آغاز کیا۔جیسے Gemini in Threat Intelligence، Google کے Mandiant cybersecurity پلیٹ فارم کا ایک جزو جو ممکنہ طور پر نقصان دہ کوڈ کے بڑے حصوں کا تجزیہ کر سکتا ہے اور صارفین کو جاری خطرات یا سمجھوتہ کے اشارے کے لیے فطری زبان میں تلاش کرنے دیتا ہے۔



Source link
techcrunch.com

اپنا تبصرہ بھیجیں