OpenAI کی خلاف ورزی ایک یاد دہانی ہے کہ AI کمپنیاں ہیکرز کے لیے خزانہ ہیں۔

[ad_1]

پریشان ہونے کی ضرورت نہیں ہے کہ آپ کا راز ہے۔ چیٹ جی پی ٹی بات چیت OpenAI کے سسٹمز کی حال ہی میں رپورٹ کردہ خلاف ورزی میں حاصل کی گئی تھی۔ ہیک بظاہر، پریشان کن، سطحی معلوم ہوتا ہے – لیکن یہ یاد دہانی ہے کہ AI کمپنیوں نے مختصر ترتیب میں خود کو ہیکرز کے لیے سب سے زیادہ اہداف میں سے ایک بنا دیا ہے۔

نیو یارک ٹائمز اوپن اے آئی کے سابق ملازم لیوپولڈ اسچین برینر کے بعد مزید تفصیل سے ہیک کی اطلاع دی۔ حال ہی میں ایک پوڈ کاسٹ میں اس کا اشارہ کیا۔. اس نے اسے “سکیورٹی کا ایک بڑا واقعہ” قرار دیا، لیکن کمپنی کے نامعلوم ذرائع نے ٹائمز کو بتایا کہ ہیکر کو صرف ایک ملازم ڈسکشن فورم تک رسائی حاصل تھی۔ (میں نے تصدیق اور تبصرے کے لیے OpenAI سے رابطہ کیا۔)

کسی بھی حفاظتی خلاف ورزی کو واقعی معمولی نہیں سمجھا جانا چاہئے، اور اوپن اے آئی کی اندرونی ترقی کی باتوں پر چھپنا یقینی طور پر اس کی اہمیت رکھتا ہے۔ لیکن یہ ایک ہیکر کو داخلی سسٹمز، ماڈلز پر پیشرفت، خفیہ روڈ میپس وغیرہ تک رسائی حاصل کرنے سے بہت دور ہے۔

لیکن اس سے ہمیں بہرحال خوفزدہ ہونا چاہیے، اور ضروری نہیں کہ چین یا دوسرے دشمنوں کے خطرے کی وجہ سے ہم AI ہتھیاروں کی دوڑ میں آگے نکل جائیں۔ سادہ حقیقت یہ ہے کہ یہ AI کمپنیاں بہت زیادہ قیمتی ڈیٹا کی دربان بن گئی ہیں۔

آئیے تین قسم کے ڈیٹا OpenAI کے بارے میں بات کرتے ہیں اور، ایک حد تک، دوسری AI کمپنیوں نے بنایا یا ان تک رسائی حاصل ہے: اعلیٰ معیار کا تربیتی ڈیٹا، بلک یوزر انٹریکشن، اور کسٹمر ڈیٹا۔

یہ غیر یقینی ہے کہ ان کے پاس تربیت کا کیا ڈیٹا ہے، کیونکہ کمپنیاں اپنے ذخیرے کے بارے میں ناقابل یقین حد تک خفیہ ہیں۔ لیکن یہ سوچنا ایک غلطی ہے کہ وہ صرف سکریپڈ ویب ڈیٹا کے بڑے ڈھیر ہیں۔ جی ہاں، وہ ویب سکریپر یا ڈیٹا سیٹس جیسے Pile کا استعمال کرتے ہیں، لیکن یہ ایک بہت بڑا کام ہے جو اس خام ڈیٹا کو کسی ایسی چیز میں ڈھالتا ہے جسے GPT-4o جیسے ماڈل کو تربیت دینے کے لیے استعمال کیا جا سکتا ہے۔ ایسا کرنے کے لیے بہت زیادہ انسانی کام کے اوقات درکار ہوتے ہیں۔ – یہ صرف جزوی طور پر خودکار ہوسکتا ہے۔

کچھ مشین لرننگ انجینئرز نے قیاس کیا ہے کہ ایک بڑے لینگویج ماڈل (یا، شاید، کسی بھی ٹرانسفارمر پر مبنی سسٹم) کی تخلیق میں جانے والے تمام عوامل میں سے واحد سب سے اہم ڈیٹا سیٹ کا معیار ہے۔ یہی وجہ ہے کہ ٹویٹر اور Reddit پر تربیت یافتہ ماڈل کبھی بھی اتنا فصیح نہیں ہو گا جتنا پچھلی صدی کے ہر شائع شدہ کام پر تربیت یافتہ شخص۔ (اور شاید کیوں OpenAI مبینہ طور پر اپنے تربیتی اعداد و شمار میں کاپی رائٹ شدہ کتابوں جیسے قابل اعتراض قانونی ذرائع کا استعمال کیا، ایک ایسا عمل جس کا وہ دعویٰ کرتے ہیں کہ وہ ترک کر چکے ہیں۔)

اس لیے اوپن اے آئی نے جو تربیتی ڈیٹا سیٹس بنائے ہیں وہ حریفوں کے لیے بہت زیادہ اہمیت کے حامل ہیں، دوسری کمپنیوں سے لے کر مخالف ریاستوں تک امریکہ میں یہاں کے ریگولیٹرز تک کیا FTC یا عدالتیں یہ جاننا پسند نہیں کریں گی کہ کیا ڈیٹا استعمال کیا جا رہا ہے، اور کیا OpenAI اس کے بارے میں سچا ہے۔ کہ

لیکن شاید اس سے بھی زیادہ قیمتی OpenAI کا صارف ڈیٹا کا بہت بڑا ذخیرہ ہے – شاید ChatGPT کے ساتھ سینکڑوں ہزاروں موضوعات پر اربوں بات چیت۔ جس طرح کبھی سرچ ڈیٹا ویب کی اجتماعی نفسیات کو سمجھنے کی کلید ہوا کرتا تھا، اسی طرح چیٹ جی پی ٹی آبادی کی نبض پر انگلی رکھتا ہے جو گوگل کے صارفین کی کائنات کی طرح وسیع نہیں ہو سکتا، لیکن اس سے کہیں زیادہ گہرائی فراہم کرتا ہے۔ (اگر آپ کو معلوم نہیں تھا، جب تک آپ آپٹ آؤٹ نہیں کرتے، آپ کی گفتگو کو تربیتی ڈیٹا کے لیے استعمال کیا جا رہا ہے۔)

گوگل کے معاملے میں، “ایئر کنڈیشنرز” کی تلاش میں اضافہ آپ کو بتاتا ہے کہ مارکیٹ تھوڑی گرم ہو رہی ہے۔ لیکن ان صارفین کے ساتھ اس بارے میں پوری بات چیت نہیں ہوتی کہ وہ کیا چاہتے ہیں، وہ کتنی رقم خرچ کرنے کو تیار ہیں، ان کا گھر کیسا ہے، وہ مینوفیکچررز جن سے وہ بچنا چاہتے ہیں، وغیرہ۔ آپ جانتے ہیں کہ یہ قیمتی ہے کیونکہ گوگل خود اپنے صارفین کو یہ معلومات فراہم کرنے کے لیے تبدیل کرنے کی کوشش کر رہا ہے تاکہ تلاشوں کے لیے AI تعاملات کو تبدیل کیا جا سکے۔

سوچیں کہ لوگوں نے ChatGPT کے ساتھ کتنی بات چیت کی ہے، اور وہ معلومات کتنی مفید ہے، نہ صرف AIs کے ڈویلپرز کے لیے، بلکہ مارکیٹنگ ٹیموں، کنسلٹنٹس، تجزیہ کاروں کے لیے… یہ سونے کی کان ہے۔

ڈیٹا کا آخری زمرہ شاید اوپن مارکیٹ میں سب سے زیادہ قیمت کا حامل ہے: گاہک دراصل AI کو کس طرح استعمال کر رہے ہیں، اور وہ ڈیٹا جو انہوں نے خود ماڈلز کو دیا ہے۔

سینکڑوں بڑی کمپنیاں اور ان گنت چھوٹی کمپنیاں اتنی ہی بڑی قسم کے کاموں کے لیے OpenAI اور Anthropic’s APIs جیسے ٹولز کا استعمال کرتی ہیں۔ اور کسی زبان کے ماڈل کے لیے ان کے لیے مفید ہونے کے لیے، اسے عام طور پر ان کے اپنے اندرونی ڈیٹا بیس تک رسائی دینا ضروری ہے۔

یہ پرانی بجٹ شیٹس یا عملے کے ریکارڈز (مثال کے طور پر انہیں زیادہ آسانی سے تلاش کرنے کے قابل بنانے کے لیے) یا سافٹ ویئر کے غیر جاری شدہ ٹکڑے کے کوڈ جتنا قیمتی ہوسکتا ہے۔ وہ AI کی صلاحیتوں کے ساتھ کیا کرتے ہیں (اور آیا وہ واقعی کارآمد ہیں) ان کا کاروبار ہے، لیکن سادہ سی حقیقت یہ ہے کہ AI فراہم کنندہ کے پاس مراعات یافتہ رسائی ہے، بالکل اسی طرح جیسے کوئی اور SaaS پروڈکٹ کرتا ہے۔

یہ صنعتی راز ہیں، اور AI کمپنیاں اچانک ان میں سے ایک بہت بڑی چیز کے مرکز میں ہیں۔ صنعت کے اس طرف کی نیاپن اس کے ساتھ ایک خاص خطرہ ہوتا ہے۔ اس میں AI کے عمل کو ابھی تک معیاری یا مکمل طور پر سمجھا نہیں گیا ہے۔

کسی بھی SaaS فراہم کنندہ کی طرح، AI کمپنیاں صنعت کی معیاری سطح کی سیکورٹی، پرائیویسی، آن پریمیسس آپشنز، اور عام طور پر اپنی خدمات ذمہ داری کے ساتھ فراہم کرنے کی مکمل صلاحیت رکھتی ہیں۔ مجھے اس میں کوئی شک نہیں کہ OpenAI کے Fortune 500 صارفین کے نجی ڈیٹا بیس اور API کالز بہت سختی سے بند ہیں! انہیں یقینی طور پر AI کے تناظر میں خفیہ ڈیٹا کو ہینڈل کرنے میں موروثی خطرات سے زیادہ آگاہ ہونا چاہیے۔ (حقیقت یہ ہے کہ اوپن اے آئی نے اس حملے کی اطلاع نہیں دی ہے کہ یہ ان کا انتخاب ہے، لیکن یہ کسی ایسی کمپنی کے لئے اعتماد کو متاثر نہیں کرتا جسے اس کی اشد ضرورت ہے۔)

لیکن سیکیورٹی کے اچھے طریقے اس کی قدر کو تبدیل نہیں کرتے ہیں جس کا مقصد ان کی حفاظت کرنا ہے، یا حقیقت یہ ہے کہ بدنیتی پر مبنی اداکار اور مختلف حریف اندر جانے کے لیے دروازے پر پنجے گاڑ رہے ہیں۔ سیکیورٹی صرف صحیح ترتیبات کو چننا یا آپ کے سافٹ ویئر کو اپ ڈیٹ رکھنا نہیں ہے۔ – حالانکہ یقیناً بنیادی باتیں بھی اہم ہیں۔ یہ ایک نہ ختم ہونے والا بلی اور چوہے کا کھیل ہے۔ یعنی ستم ظریفی یہ ہے کہ اب خود AI کے ذریعے سپر چارج کیا جا رہا ہے: ایجنٹ اور اٹیک آٹومیٹرز ان کمپنیوں کے حملے کی سطحوں کی ہر طرح کی چھان بین کر رہے ہیں۔

گھبرانے کی کوئی وجہ نہیں ہے — بہت سارے ذاتی یا تجارتی اعتبار سے قیمتی ڈیٹا تک رسائی رکھنے والی کمپنیاں برسوں سے اسی طرح کے خطرات کا سامنا کر رہی ہیں اور ان کا انتظام کر رہی ہیں۔ لیکن AI کمپنیاں آپ کے باغیچے کے ناقص کنفیگرڈ انٹرپرائز سرور یا غیر ذمہ دار ڈیٹا بروکر کے مقابلے میں ایک نئے، کم عمر، اور ممکنہ طور پر رس دار ہدف کی نمائندگی کرتی ہیں۔ یہاں تک کہ ایک ہیک جیسا کہ اوپر بتایا گیا ہے، جس کے بارے میں ہم جانتے ہیں کہ کوئی سنگین افراتفری کے بغیر، کسی کو بھی پریشان ہونا چاہئے جو AI کمپنیوں کے ساتھ کاروبار کرتا ہے۔ انہوں نے اپنی پیٹھ پر اہداف پینٹ کیے ہیں۔ جب کوئی، یا ہر کوئی، شاٹ لے تو حیران نہ ہوں۔

[ad_2]

Source link
techcrunch.com

اپنا تبصرہ بھیجیں