AI ٹریننگ ڈیٹا میں قیمت کا ٹیگ ہوتا ہے جسے صرف Big Tech ہی برداشت کر سکتی ہے۔

[ad_1]

ڈیٹا آج کے جدید ترین AI سسٹمز کے مرکز میں ہے، لیکن اس پر زیادہ سے زیادہ لاگت آرہی ہے – جو اسے امیر ترین ٹیک کمپنیوں کے علاوہ سب کی پہنچ سے باہر کر رہا ہے۔

پچھلے سال، OpenAI کے ایک محقق، جیمز بیٹکر نے لکھا اپنے ذاتی بلاگ پر پوسٹ کریں۔ تخلیقی AI ماڈلز کی نوعیت اور ڈیٹا سیٹس کے بارے میں جن پر وہ تربیت یافتہ ہیں۔ اس میں، Betker نے دعویٰ کیا کہ تربیتی ڈیٹا – ماڈل کا ڈیزائن، فن تعمیر یا کوئی اور خصوصیت نہیں – تیزی سے جدید ترین، قابل AI سسٹمز کی کلید ہے۔

بیٹکر نے لکھا، “ایک ہی ڈیٹا سیٹ پر کافی عرصے تک تربیت دی گئی، تقریباً ہر ماڈل ایک ہی نقطہ پر بدل جاتا ہے۔”

کیا Betker صحیح ہے؟ کیا ٹریننگ ڈیٹا اس بات کا سب سے بڑا تعین کرنے والا ہے کہ ماڈل کیا کر سکتا ہے، چاہے وہ کسی سوال کا جواب دے، انسانی ہاتھ کھینچے، یا ایک حقیقت پسندانہ شہر کا منظر تیار کرے؟

یہ یقینی طور پر قابل فہم ہے۔

شماریاتی مشینیں۔

جنریٹو اے آئی سسٹمز بنیادی طور پر امکانی ماڈلز ہیں – اعداد و شمار کا ایک بہت بڑا انبار۔ وہ بہت ساری مثالوں کی بنیاد پر اندازہ لگاتے ہیں کہ کون سا ڈیٹا سب سے زیادہ “معنی” بناتا ہے جہاں رکھنے کے لیے (مثال کے طور پر، “میں بازار جاتا ہوں” کے جملے میں “بازار میں” سے پہلے لفظ “گو”)۔ اس کے بعد، یہ بدیہی معلوم ہوتا ہے کہ ایک ماڈل کو جتنی زیادہ مثالوں پر جانا پڑتا ہے، ان مثالوں پر تربیت یافتہ ماڈلز کی کارکردگی اتنی ہی بہتر ہوتی ہے۔

“ایسا لگتا ہے کہ کارکردگی کے فوائد ڈیٹا سے آرہے ہیں،” کائل لو، ایلن انسٹی ٹیوٹ فار AI (AI2) کے ایک سینئر اپلائیڈ ریسرچ سائنسدان، ایک AI ریسرچ غیر منافع بخش، نے TechCrunch کو بتایا، “کم از کم ایک بار جب آپ کے پاس تربیت کا ایک مستحکم سیٹ اپ ہو جائے “

لو نے مثال دی۔ Meta’s Llama 3، ٹیکسٹ بنانے والا ماڈل اس سال کے شروع میں ریلیز کیا گیا، جو کہ تعمیراتی طور پر بہت مماثل ہونے کے باوجود AI2 کے اپنے OLMO ماڈل سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔ لاما 3 کو تربیت دی گئی تھی۔ OLMO سے نمایاں طور پر زیادہ ڈیٹا، جس کے بارے میں لو کا خیال ہے کہ بہت سے مشہور AI بینچ مارکس پر اس کی برتری کی وضاحت کرتا ہے۔

(میں یہاں اس بات کی نشاندہی کروں گا کہ آج AI صنعت میں وسیع استعمال میں بینچ مارکس ضروری نہیں کہ ماڈل کی کارکردگی کا بہترین گیج ہو۔، لیکن باہر ہمارے اپنے جیسے معیار کے ٹیسٹ، یہ ان چند اقدامات میں سے ایک ہیں جن پر ہمیں جانا ہے۔)

اس کا مطلب یہ نہیں ہے کہ تیزی سے بڑے ڈیٹاسیٹس پر تربیت تیزی سے بہتر ماڈلز کے لیے ایک یقینی راستہ ہے۔ ماڈلز “کچرا اندر، کچرا باہر” کے نمونے پر کام کرتے ہیں، لو نوٹس، اور اس لیے ڈیٹا کیوریشن اور کوالٹی بہت زیادہ اہمیت رکھتی ہے، شاید مقدار سے زیادہ۔

“یہ ممکن ہے کہ احتیاط سے ڈیزائن کردہ ڈیٹا کے ساتھ ایک چھوٹا ماڈل ایک بڑے ماڈل کو پیچھے چھوڑ دے،” انہوں نے مزید کہا۔ “مثال کے طور پر، Falcon 180B، ایک بڑا ماڈل، LMSYS بینچ مارک پر 63 ویں نمبر پر ہے، جبکہ Llama 2 13B، ایک بہت چھوٹا ماڈل، 56 ویں نمبر پر ہے۔”

گزشتہ اکتوبر میں TechCrunch کے ساتھ ایک انٹرویو میں، OpenAI کے محقق گیبریل گوہ نے کہا کہ اعلیٰ معیار کی تشریحات نے تصویر کے معیار کو بہتر بنانے میں بہت زیادہ تعاون کیا۔ DALL-E 3اوپن اے آئی کا ٹیکسٹ ٹو امیج ماڈل، اپنے پیشرو سے زیادہ DALL-E 2. “میرے خیال میں یہ بہتری کا بنیادی ذریعہ ہے،” انہوں نے کہا۔ “متن کی تشریحات ان کی نسبت بہت بہتر ہیں۔ [with DALL-E 2] – یہ بھی موازنہ نہیں ہے.”

بہت سے AI ماڈلز، بشمول DALL-E 3 اور DALL-E 2، کو انسانی تشریحی لیبل ڈیٹا کے ذریعے تربیت دی جاتی ہے تاکہ ایک ماڈل ان لیبلز کو اس ڈیٹا کی دیگر مشاہدہ شدہ خصوصیات کے ساتھ منسلک کرنا سیکھ سکے۔ مثال کے طور پر، ایک ایسا ماڈل جس نے ہر نسل کے لیے تشریحات کے ساتھ بلیوں کی بہت سی تصویریں کھلائی ہیں، آخر کار اس طرح کی اصطلاحات کو جوڑنا “سیکھ” جائے گا۔ بوبٹیل اور چھوٹے بال ان کی مخصوص بصری خصوصیات کے ساتھ۔

برا سلوک

لو جیسے ماہرین کو خدشہ ہے کہ بڑے، اعلیٰ معیار کے تربیتی ڈیٹاسیٹس پر بڑھتا ہوا زور AI کی ترقی کو اربوں ڈالر کے بجٹ والے چند کھلاڑیوں میں مرکزیت دے گا جو ان سیٹوں کو حاصل کرنے کے متحمل ہو سکتے ہیں۔ میں اہم اختراع مصنوعی ڈیٹا یا بنیادی فن تعمیر جمود میں خلل ڈال سکتا ہے، لیکن دونوں میں سے کوئی بھی قریبی افق پر نظر نہیں آتا۔

لو نے کہا، “مجموعی طور پر، مواد کو کنٹرول کرنے والے اداروں کو جو AI کی ترقی کے لیے ممکنہ طور پر مفید ہے، کو ان کے مواد کو بند کرنے کے لیے ترغیب دی جاتی ہے۔” “اور جیسے جیسے ڈیٹا تک رسائی بند ہو جاتی ہے، ہم بنیادی طور پر ڈیٹا کے حصول اور سیڑھی کو کھینچنے پر کچھ ابتدائی حرکت کرنے والوں کو برکت دے رہے ہیں تاکہ کوئی اور پکڑنے کے لیے ڈیٹا تک رسائی حاصل نہ کر سکے۔”

درحقیقت، جہاں زیادہ تربیتی ڈیٹا حاصل کرنے کی دوڑ غیر اخلاقی (اور شاید غیر قانونی) رویے کا باعث نہیں بنی ہے جیسے کاپی رائٹ شدہ مواد کو خفیہ طور پر جمع کرنا، اس نے ٹیک جنات کو ڈیٹا لائسنسنگ پر خرچ کرنے کے لیے گہری جیب سے نوازا ہے۔

تخلیقی AI ماڈلز جیسے OpenAI کی تربیت زیادہ تر تصاویر، متن، آڈیو، ویڈیوز اور دیگر ڈیٹا پر کی جاتی ہے — کچھ کاپی رائٹ — عوامی ویب صفحات سے حاصل کیے گئے ہیں (بشمول، پریشانی سے، AI سے تیار کردہ)۔ دنیا کے OpenAIs کا دعویٰ ہے کہ منصفانہ استعمال انہیں قانونی انتقام سے بچاتا ہے۔ بہت سے حقوق کے حاملین اس سے متفق نہیں ہیں – لیکن، کم از کم ابھی کے لیے، وہ اس عمل کو روکنے کے لیے زیادہ کچھ نہیں کر سکتے۔

پیدا کرنے والے AI وینڈرز کی بہت سی مثالیں ہیں جو اپنے ماڈلز کو تربیت دینے کے لیے قابل اعتراض ذرائع سے بڑے پیمانے پر ڈیٹا سیٹس حاصل کرتے ہیں۔ اوپن اے آئی مبینہ طور پر اس کے فلیگ شپ ماڈل کو فیڈ کرنے کے لیے – یا تخلیق کاروں کی برکت کے بغیر – YouTube کے دس لاکھ سے زیادہ گھنٹے YouTube ویڈیوز کو نقل کیا GPT-4. Google نے حال ہی میں اپنی سروس کی شرائط کو وسیع کیا ہے تاکہ وہ عوامی Google Docs، Google Maps پر ریستوراں کے جائزے اور اپنی AI مصنوعات کے لیے دیگر آن لائن مواد کو ٹیپ کر سکے۔ اور کہا جاتا ہے کہ میٹا نے قانونی چارہ جوئی پر غور کیا ہے۔ اس کے ماڈلز کو تربیت دیں۔ آئی پی سے محفوظ مواد پر۔

دریں اثنا، بڑی اور چھوٹی کمپنیاں پر انحصار کر رہے ہیں تیسری دنیا کے ممالک میں مزدور صرف چند ڈالر فی گھنٹہ ادا کرتے ہیں۔ تربیتی سیٹوں کے لیے تشریحات بنانے کے لیے۔ ان میں سے کچھ تشریح کنندگان – کے ذریعہ ملازم بہت بڑا آغاز اسکیل AI کی طرح – ایسے کاموں کو مکمل کرنے کے لیے لفظی دن کام کریں جو انھیں تشدد اور خونریزی کی تصویری تصویروں سے بے نقاب کرتے ہیں، بغیر کسی فوائد یا مستقبل کے گیگز کی ضمانتوں کے۔

بڑھتی ہوئی لاگت

دوسرے لفظوں میں، یہاں تک کہ اوپر والے ڈیٹا کے سودے بالکل ایک کھلے اور مساوی پیدا کرنے والے AI ماحولیاتی نظام کو فروغ نہیں دے رہے ہیں۔

OpenAI نے اپنے AI ماڈلز کو تربیت دینے کے لیے خبروں کے پبلشرز، اسٹاک میڈیا لائبریریوں اور مزید سے مواد کے لائسنس کے لیے کروڑوں ڈالر خرچ کیے ہیں – یہ بجٹ زیادہ تر تعلیمی تحقیقی گروپوں، غیر منفعتی اداروں اور اسٹارٹ اپس کے بجٹ سے کہیں زیادہ ہے۔ میٹا نے ای بک اقتباسات کے حقوق کے لیے پبلشر سائمن اینڈ شسٹر کو حاصل کرنے کا وزن کیا ہے (بالآخر سائمن اینڈ شسٹر کو 2023 میں 1.62 بلین ڈالر میں نجی ایکویٹی فرم KKR کو فروخت کیا گیا)۔

AI تربیتی اعداد و شمار کے لئے مارکیٹ کے ساتھ متوقع ہے بڑھنا تقریباً 2.5 بلین ڈالر سے اب ایک دہائی کے اندر 30 بلین ڈالر کے قریب پہنچ گئے ہیں، ڈیٹا بروکرز اور پلیٹ فارمز ٹاپ ڈالر وصول کرنے کے لیے جلدی کر رہے ہیں — بعض صورتوں میں اپنے صارف اڈوں کے اعتراضات پر۔

اسٹاک میڈیا لائبریری شٹر اسٹاک کے پاس ہے۔ سیاہی AI وینڈرز کے ساتھ 25 ملین ڈالر سے لے کر 50 ملین ڈالر تک کا سودا کرتا ہے، جبکہ Reddit دعوے جس نے گوگل اور اوپن اے آئی جیسے اداروں کو لائسنسنگ ڈیٹا سے لاکھوں کمائے ہیں۔ پرچر ڈیٹا کے ساتھ چند پلیٹ فارمز کئی سالوں میں باضابطہ طور پر جمع ہوئے۔ نہیں ہے جنریٹیو AI ڈویلپرز کے ساتھ معاہدوں پر دستخط کیے، ایسا لگتا ہے – Photobucket سے Tumblr تک سوال و جواب سائٹ اسٹیک اوور فلو.

یہ فروخت کرنے کے لیے پلیٹ فارمز کا ڈیٹا ہے — کم از کم اس بات پر منحصر ہے کہ آپ کن قانونی دلائل پر یقین رکھتے ہیں۔ لیکن زیادہ تر معاملات میں، صارفین منافع کا ایک پیسہ بھی نہیں دیکھ رہے ہیں۔ اور یہ وسیع تر AI ریسرچ کمیونٹی کو نقصان پہنچا رہا ہے۔

لو نے کہا، “چھوٹے کھلاڑی ان ڈیٹا لائسنسوں کے متحمل نہیں ہوں گے، اور اس وجہ سے وہ AI ماڈلز کو تیار یا ان کا مطالعہ نہیں کر سکیں گے۔” “مجھے خدشہ ہے کہ یہ AI کے ترقیاتی طریقوں کی آزادانہ جانچ کی کمی کا باعث بن سکتا ہے۔”

آزادانہ کوششیں۔

اگر اندھیرے میں دھوپ کی کرن نظر آتی ہے، تو یہ وہ چند آزاد، غیر منافع بخش کوششیں ہیں جو بڑے پیمانے پر ڈیٹا سیٹس بنانے کے لیے ہیں جنہیں کوئی بھی تخلیقی AI ماڈل کی تربیت کے لیے استعمال کر سکتا ہے۔

EleutherAI، ایک نچلی سطح کا غیر منافع بخش تحقیقی گروپ جس کا آغاز 2020 میں ایک ڈھیلے ڈھالے ڈسکارڈ اجتماعی کے طور پر ہوا، یونیورسٹی آف ٹورنٹو، AI2 اور آزاد محققین کے ساتھ مل کر The Pile v2 بنانے کے لیے کام کر رہا ہے، جو بنیادی طور پر پبلک ڈومین سے حاصل کردہ اربوں ٹیکسٹ حصئوں کا ایک مجموعہ ہے۔ .

اپریل میں، AI سٹارٹ اپ Hugging Face نے FineWeb کو جاری کیا، جو کامن کرال کا فلٹر شدہ ورژن ہے – جو کہ غیر منفعتی کامن کرول کے ذریعے برقرار رکھا گیا ڈیٹاسیٹ ہے، جو اربوں ویب صفحات پر مشتمل ہے – جس کا دعویٰ ہے کہ Hugging Face بہت سے بینچ مارکس پر ماڈل کی کارکردگی کو بہتر بناتا ہے۔

کھلے تربیتی ڈیٹاسیٹس کو جاری کرنے کی چند کوششیں، جیسے گروپ LAION کے امیج سیٹس، کاپی رائٹ، ڈیٹا پرائیویسی اور دیگر کے خلاف چل رہی ہیں، یکساں طور پر سنگین اخلاقی اور قانونی چیلنجز. لیکن کچھ زیادہ سرشار ڈیٹا کیوریٹرز نے بہتر کام کرنے کا عہد کیا ہے۔ Pile v2، مثال کے طور پر، اس کے پروجینیٹر ڈیٹاسیٹ، The Pile میں پائے جانے والے کاپی رائٹ شدہ مواد کو ہٹاتا ہے۔

سوال یہ ہے کہ کیا ان کھلی کوششوں میں سے کوئی بھی بگ ٹیک کے ساتھ رفتار برقرار رکھنے کی امید کر سکتا ہے۔ جب تک کہ ڈیٹا اکٹھا کرنا اور کیوریشن وسائل کا معاملہ ہے، جواب کا امکان نہیں ہے – کم از کم اس وقت تک نہیں جب تک کہ کچھ تحقیقی پیش رفت کھیل کے میدان کی سطح پر نہ آجائے۔

[ad_2]

Source link
techcrunch.com

اپنا تبصرہ بھیجیں