blank

جیمنی کی ڈیٹا تجزیہ کرنے کی صلاحیتیں اتنی اچھی نہیں ہیں جتنی گوگل کا دعویٰ ہے۔

گوگل کے فلیگ شپ جنریٹو AI ماڈلز کے سیلنگ پوائنٹس میں سے ایک، جیمنی 1.5 پرو اور 1.5 فلیش، ڈیٹا کی وہ مقدار ہے جس پر وہ قیاس کے مطابق کارروائی اور تجزیہ کر سکتے ہیں۔ پریس بریفنگ اور ڈیمو میں، گوگل نے بارہا دعویٰ کیا ہے کہ ماڈلز اپنے “طویل سیاق و سباق” کی بدولت پہلے سے ناممکن کاموں کو پورا کر سکتے ہیں، جیسے متعدد سو صفحات پر مشتمل دستاویزات کا خلاصہ کرنا یا فلم فوٹیج میں مناظر میں تلاش کرنا۔

لیکن نئی تحقیق سے پتہ چلتا ہے کہ ماڈل، حقیقت میں، ان چیزوں میں بہت اچھے نہیں ہیں۔

دو الگ مطالعہ تحقیق کی کہ گوگل کے جیمنی ماڈلز اور دیگر ڈیٹا کی ایک بہت بڑی مقدار سے کتنی اچھی طرح سے معنی رکھتے ہیں — سوچیں “جنگ اور امن” کی لمبائی کام کرتی ہے۔ دونوں کو معلوم ہوا کہ جیمنی 1.5 پرو اور 1.5 فلیش بڑے ڈیٹا سیٹس کے بارے میں سوالات کے صحیح جواب دینے کے لیے جدوجہد کر رہے ہیں۔ دستاویز پر مبنی ٹیسٹوں کی ایک سیریز میں، ماڈلز نے صحیح جواب صرف 40% 50% وقت دیا۔

“جبکہ جیمنی 1.5 پرو جیسے ماڈلز تکنیکی طور پر طویل سیاق و سباق پر کارروائی کر سکتے ہیں، ہم نے بہت سے ایسے معاملات دیکھے ہیں جو اس بات کی نشاندہی کرتے ہیں کہ ماڈل اصل میں مواد کو ‘سمجھتے’ نہیں ہیں،” مارزینا کارپینسکا، UMass Amherst کی ایک پوسٹ ڈاک اور ان میں سے ایک پر شریک مصنف۔ مطالعہ، TechCrunch کو بتایا.

جیمنی کے سیاق و سباق کی کھڑکی کی کمی ہے۔

ماڈل کا سیاق و سباق، یا سیاق و سباق کی ونڈو، ان پٹ ڈیٹا (مثلاً ٹیکسٹ) سے مراد ہے جسے ماڈل آؤٹ پٹ (مثلاً اضافی ٹیکسٹ) پیدا کرنے سے پہلے غور کرتا ہے۔ ایک سادہ سا سوال – “2020 کا امریکی صدارتی انتخاب کس نے جیتا؟” – سیاق و سباق کے طور پر کام کر سکتا ہے، جیسا کہ فلم کا اسکرپٹ، شو یا آڈیو کلپ۔ اور جیسے جیسے سیاق و سباق کی کھڑکیوں میں اضافہ ہوتا ہے، اسی طرح دستاویزات کا سائز بھی ان میں فٹ ہوتا ہے۔

جیمنی کے تازہ ترین ورژن سیاق و سباق کے طور پر 2 ملین سے زیادہ ٹوکن لے سکتے ہیں۔ (“ٹوکنز” خام ڈیٹا کے ذیلی تقسیم شدہ بٹس ہیں، جیسے لفظ “فینٹسٹک” میں “فین”، “ٹاس” اور “ٹک” کے الفاظ) یہ تقریباً 1.4 ملین الفاظ، دو گھنٹے کی ویڈیو یا 22 گھنٹے کی آڈیو کے برابر ہے۔ – کسی بھی تجارتی طور پر دستیاب ماڈل کا سب سے بڑا سیاق و سباق۔

اس سال کے شروع میں ایک بریفنگ میں، گوگل نے کئی پہلے سے ریکارڈ شدہ ڈیمو دکھائے جن کا مقصد جیمنی کی طویل سیاق و سباق کی صلاحیتوں کی صلاحیت کو واضح کرنا تھا۔ ایک کے پاس Gemini 1.5 Pro نے اپالو 11 کے چاند پر لینڈنگ ٹیلی کاسٹ کی ٹرانسکرپٹ تلاش کی — تقریباً 402 صفحات — لطیفوں پر مشتمل اقتباسات کے لیے، اور پھر ٹیلی کاسٹ میں ایک ایسا منظر تلاش کیا جو پنسل سکیچ سے ملتا جلتا تھا۔

Google DeepMind Oriol Vinyals میں تحقیق کے VP، جنہوں نے بریفنگ کی قیادت کی، نے ماڈل کو “جادوئی” قرار دیا۔

“[1.5 Pro] ہر ایک صفحے، ہر ایک لفظ پر اس طرح کے استدلال کے کام انجام دیتا ہے،” اس نے کہا۔

یہ شاید مبالغہ آرائی تھی۔

ان صلاحیتوں کو بینچ مارک کرنے والے مذکورہ بالا مطالعات میں سے ایک میں، کارپینسکا نے ایلن انسٹی ٹیوٹ فار AI اور پرنسٹن کے محققین کے ساتھ، ماڈلز سے کہا کہ وہ انگریزی میں لکھی گئی فکشن کتابوں کے بارے میں سچے/غلط بیانات کا جائزہ لیں۔ محققین نے حالیہ کاموں کا انتخاب کیا تاکہ ماڈل پیشگی علم پر انحصار کرتے ہوئے “دھوکہ دہی” نہ کر سکیں، اور انہوں نے بیانات کو مخصوص تفصیلات اور پلاٹ پوائنٹس کے حوالے سے پیش کیا جو کتابوں کو مکمل طور پر پڑھے بغیر سمجھنا ناممکن ہوگا۔

جیسا کہ ایک بیان دیتے ہوئے “اپنی صلاحیتوں کو ایک اپوتھ کے طور پر استعمال کرتے ہوئے، Nusis Rona کے لکڑی کے سینے میں پائے جانے والے ریجنٹس کی کلید کے ذریعے کھولے گئے پورٹل کی قسم کو ریورس کرنے کے قابل ہے،” Gemini 1.5 Pro اور 1.5 Flash — متعلقہ کتاب کو ہضم کرنے کے بعد — کرنا پڑا۔ یہ بتائیں کہ آیا بیان درست تھا یا غلط اور ان کے استدلال کی وضاحت کریں۔

blank
تصویری کریڈٹ: UMass Amherst

تقریباً 260,000 الفاظ (~ 520 صفحات) کی لمبائی والی ایک کتاب پر تجربہ کیا گیا، محققین نے پایا کہ 1.5 پرو نے صحیح/غلط بیانات کا 46.7 فیصد وقت درست جواب دیا جبکہ فلیش نے صرف 20 فیصد وقت میں درست جواب دیا۔ اس کا مطلب ہے کہ گوگل کے جدید ترین مشین لرننگ ماڈل کے مقابلے کتاب کے بارے میں سوالات کے جوابات دینے میں ایک سکہ نمایاں طور پر بہتر ہے۔ تمام بینچ مارک کے نتائج کا اوسط کرتے ہوئے، کوئی بھی ماڈل سوال جواب کی درستگی کے لحاظ سے بے ترتیب موقع سے زیادہ حاصل کرنے میں کامیاب نہیں ہوا۔

کارپینسکا نے کہا کہ “ہم نے دیکھا ہے کہ ماڈلز کو ایسے دعووں کی تصدیق کرنے میں زیادہ دشواری ہوتی ہے جن کے لیے کتاب کے بڑے حصوں، یا یہاں تک کہ پوری کتاب پر غور کرنے کی ضرورت ہوتی ہے، ان دعووں کے مقابلے میں جنہیں سزا کی سطح کے شواہد کی بازیافت سے حل کیا جا سکتا ہے۔” “معیاری طور پر، ہم نے یہ بھی مشاہدہ کیا ہے کہ ماڈلز مضمر معلومات کے بارے میں دعووں کی تصدیق کے ساتھ جدوجہد کرتے ہیں جو کہ انسانی قاری کے لیے واضح ہے لیکن متن میں واضح طور پر بیان نہیں کیا گیا ہے۔”

UC Santa Barbara کے محققین کی مشترکہ تصنیف کردہ دو مطالعات میں سے دوسری، Gemini 1.5 Flash (لیکن 1.5 Pro نہیں) کی ویڈیوز کو “ریزن اوور” کرنے کی صلاحیت کا تجربہ کیا — یعنی تلاش کریں اور ان میں موجود مواد کے بارے میں سوالات کے جوابات دیں۔ .

شریک مصنفین نے تصاویر کا ایک ڈیٹاسیٹ بنایا (مثلاً سالگرہ کے کیک کی تصویر) جو ماڈل کے لیے سوالات کے ساتھ تصاویر میں دکھائے گئے اشیا کے بارے میں جواب دینے کے لیے (مثلاً، “اس کیک پر کارٹون کا کون سا کردار ہے؟”)۔ ماڈلز کا جائزہ لینے کے لیے، انہوں نے بے ترتیب تصاویر میں سے ایک کو منتخب کیا اور سلائیڈ شو جیسی فوٹیج بنانے کے لیے اس سے پہلے اور بعد میں “ڈسٹریکٹر” تصاویر ڈالیں۔

فلیش نے اتنی اچھی کارکردگی نہیں دکھائی۔ ایک ٹیسٹ میں جس میں ماڈل نے 25 امیجز کے “سلائیڈ شو” سے ہاتھ سے لکھے ہوئے چھ ہندسوں کو نقل کیا تھا، فلیش کو تقریباً 50% ٹرانسکرپشنز صحیح مل گئیں۔ آٹھ ہندسوں کے ساتھ درستگی تقریباً 30% تک گر گئی۔

UC سانتا باربرا میں پی ایچ ڈی کے طالب علم اور اس مطالعے کے شریک مصنفین میں سے ایک، مائیکل سیکسن نے ٹیک کرنچ کو بتایا، “تصاویر پر حقیقی سوالوں کے جواب دینے والے کاموں پر، یہ خاص طور پر مشکل لگتا ہے کہ ہم نے جن ماڈلز کا تجربہ کیا ہے،”۔ “اس قدر کم استدلال – یہ تسلیم کرنا کہ ایک نمبر ایک فریم میں ہے اور اسے پڑھنا – ہوسکتا ہے جو ماڈل کو توڑ رہا ہو۔”

گوگل جیمنی کے ساتھ بہت زیادہ وعدہ کر رہا ہے۔

کسی بھی مطالعے کا ہم مرتبہ جائزہ نہیں لیا گیا ہے اور نہ ہی وہ 2 ملین ٹوکن سیاق و سباق کے ساتھ Gemini 1.5 Pro اور 1.5 Flash کی ریلیز کی تحقیقات کرتے ہیں۔ (دونوں نے 1-ملین ٹوکن سیاق و سباق کی ریلیز کا تجربہ کیا۔) اور فلیش کا مقصد کارکردگی کے لحاظ سے پرو جتنا قابل ہونا نہیں ہے۔ گوگل اسے کم لاگت والے متبادل کے طور پر تشہیر کرتا ہے۔

بہر حال، دونوں آگ میں ایندھن شامل کریں کہ گوگل جیمنی کے ساتھ بہت زیادہ وعدہ کر رہا ہے – اور کم ڈیلیور کر رہا ہے۔ شروع سے. ان ماڈلز میں سے کوئی بھی نہیں جن کا محققین نے تجربہ کیا، بشمول OpenAI کے GPT-4o اور انتھروپکس کلاڈ 3.5 سونیٹ، اچھی کارکردگی کا مظاہرہ کیا. لیکن گوگل واحد ماڈل فراہم کنندہ ہے جس نے اپنے اشتہارات میں سیاق و سباق کی ونڈو ٹاپ بلنگ دی ہے۔

سیکسن نے کہا کہ “اس سادہ دعوے میں کوئی غلط بات نہیں ہے، ‘ہمارا ماڈل ایکس نمبر ٹوکن لے سکتا ہے’ مقصدی تکنیکی تفصیلات کی بنیاد پر،” سیکسن نے کہا۔ “لیکن سوال یہ ہے کہ آپ اس کے ساتھ کون سی مفید چیز کر سکتے ہیں؟”

جنریٹیو AI وسیع پیمانے پر بات کرتے ہوئے اس کی جانچ پڑتال میں اضافہ ہو رہا ہے کیونکہ کاروبار (اور سرمایہ کار) ٹیکنالوجی کی حدود سے مایوس ہو رہے ہیں۔

ایک ___ میں سے حالیہ سروے کا جوڑا بوسٹن کنسلٹنگ گروپ، جواب دہندگان میں سے تقریباً نصف – تمام C-suite ایگزیکٹوز – نے کہا کہ وہ جنریٹو AI کی پیداواری صلاحیت میں خاطر خواہ فوائد لانے کی توقع نہیں رکھتے اور وہ جنریٹو AI سے پیدا ہونے والی غلطیوں اور ڈیٹا سے سمجھوتہ کرنے کے امکانات کے بارے میں فکر مند ہیں۔ طاقتور اوزار. حال ہی میں پچ بک اطلاع دی کہ، لگاتار دو سہ ماہیوں کے لیے، ابتدائی مراحل میں جنریٹو AI ڈیل میکنگ میں کمی آئی ہے، جو اس کی Q3 2023 کی چوٹی سے 76% گر گئی ہے۔

میٹنگ کا خلاصہ کرنے والے چیٹ بوٹس کا سامنا ہے جو لوگوں اور AI تلاش کے پلیٹ فارمز کے بارے میں خیالی تفصیلات کو جوڑتے ہیں جو بنیادی طور پر سرقہ کے جنریٹرز کے برابر ہوتے ہیں، صارفین امید افزا تفریق کرنے والوں کی تلاش میں ہیں۔ گوگل – جس نے دوڑ لگا دی ہے، کبھی کبھی اناڑی سےاپنے پیدا کرنے والے AI حریفوں کو پکڑنے کے لیے — جیمنی کے سیاق و سباق کو ان فرقوں میں سے ایک بنانے کے لیے بے چین تھا۔

لیکن ایسا لگتا ہے کہ شرط قبل از وقت تھی۔

کارپینسکا نے کہا کہ “ہم واقعی یہ ظاہر کرنے کے راستے پر طے نہیں ہوئے ہیں کہ طویل دستاویزات پر ‘استدلال’ یا ‘سمجھنا’ ہو رہا ہے، اور بنیادی طور پر ان ماڈلز کو جاری کرنے والا ہر گروپ یہ دعوے کرنے کے لیے اپنے اپنے ایڈہاک ایولز کو اکٹھا کر رہا ہے،” کارپینسکا نے کہا۔ . “اس بات کے علم کے بغیر کہ سیاق و سباق کی پروسیسنگ کب تک لاگو ہوتی ہے – اور کمپنیاں ان تفصیلات کا اشتراک نہیں کرتی ہیں – یہ کہنا مشکل ہے کہ یہ دعوے کتنے حقیقت پسندانہ ہیں۔”

گوگل نے تبصرہ کی درخواست کا جواب نہیں دیا۔

سیکسن اور کارپینسکا دونوں کا خیال ہے کہ جنریٹیو AI کے ارد گرد hyped-up دعووں کے تریاق بہتر معیارات ہیں اور، اسی رگ کے ساتھ، تیسرے فریق کی تنقید پر زیادہ زور دیتے ہیں۔ سیکسن نوٹ کرتا ہے کہ طویل سیاق و سباق کے لیے زیادہ عام ٹیسٹوں میں سے ایک (گوگل نے اپنے مارکیٹنگ کے مواد میں آزادانہ طور پر حوالہ دیا ہے)، “گھاس کے اسٹیک میں سوئی”، صرف ماڈل کی ڈیٹا سیٹس سے مخصوص معلومات، جیسے نام اور نمبرز، بازیافت کرنے کی صلاحیت کی پیمائش کرتا ہے – جواب نہیں اس معلومات کے بارے میں پیچیدہ سوالات۔

سیکسن نے کہا، “ان ماڈلز کا استعمال کرنے والے تمام سائنس دان اور زیادہ تر انجینئرز بنیادی طور پر اس بات پر متفق ہیں کہ ہمارا موجودہ بینچ مارک کلچر ٹوٹ گیا ہے،” اس لیے یہ ضروری ہے کہ عوام ان دیوہیکل رپورٹس کو سمجھیں جن میں ‘جنرل انٹیلی جنس آر پار بینچ مارک’ جیسے نمبر شامل ہیں۔ نمک کا دانہ۔”



Source link
techcrunch.com

اپنا تبصرہ بھیجیں