آنتروپیک اکنون می تواند عملکرد درونی عجیب و غریب یک مدل زبان بزرگ را ردیابی کند
آنچه این شرکت پیدا کرد، برخی از مفروضات اساسی
در مورد نحوه عملکرد این فناوری را به چالش می کشد.
شرکت هوش مصنوعی Anthropic روشی را برای بررسی درون یک مدل زبان بزرگ و
تماشای آنچه انجام میدهد در حین دریافت پاسخ ایجاد کرده است و بینشهای کلیدی
جدیدی را در مورد نحوه عملکرد این فناوری آشکار میکند. نکته اولیه: LLM ها حتی
عجیب تر از آن چیزی هستند که فکر می کردیم.
جاشوا باتسون، دانشمند تحقیقاتی در این شرکت میگوید، تیم Anthropic از
برخی راهحلهای غیرمستقیم که به نظر میرسد مدلهای زبان بزرگ برای تکمیل جملات،
حل مسائل ریاضی ساده، سرکوب توهمات و موارد دیگر استفاده میکنند، شگفتزده شدند.
بر کسی پوشیده نیست که مدل های بزرگ زبان به روش های مرموز کار می کنند . تعداد
کمی از فنآوریهای بازار انبوه (اگر وجود داشته باشند) تا به این اندازه کم درک شدهاند
. این باعث میشود بفهمیم که چه چیزی باعث میشود آنها یکی از بزرگترین چالشهای
باز در علم را انتخاب کنند.
اما این فقط در مورد کنجکاوی نیست. روشن کردن چگونگی کارکرد این مدلها،
نقاط ضعف آنها را آشکار میکند، و نشان میدهد که چرا چیزها را میسازند و چرا
میتوان آنها را فریب داد تا از ریل خارج شوند . این به
حل اختلافات عمیق در مورد اینکه این مدل
ها دقیقاً چه کاری می توانند انجام دهند و نمی توانند انجام دهند، کمک می
کند . و نشان می دهد که آنها واقعا چقدر قابل اعتماد هستند (یا نه).
باتسون و همکارانش کار جدید خود را در دو گزارش منتشر شده امروز توصیف
می کنند. اولین مورد استفاده Anthropic از تکنیکی به نام ردیابی مدار را
ارائه می دهد که به محققان اجازه می دهد فرآیندهای تصمیم گیری را در یک مدل زبان
بزرگ گام به گام پیگیری کنند. Anthropic از ردیابی مدار برای تماشای هایکو LLM Claude 3.5 خود در
انجام وظایف مختلف استفاده کرد. دومی (با عنوان «درباره زیستشناسی یک مدل زبان
بزرگ») جزئیات آنچه را که تیم با بررسی 10 کار به طور خاص کشف کرد، نشان میدهد.
جک مرولو، که در دانشگاه براون در پراویدنس، رود آیلند، مدلهای زبان
بزرگ را مطالعه میکند و در این تحقیق شرکت نداشت، میگوید: «فکر میکنم این
واقعاً کار جالبی است. "این یک گام واقعا خوب به جلو از نظر روش است."
ردیابی مدار به خودی خود جدید نیست. سال گذشته مرولو و همکارانش مدار خاصی را در نسخهای از GPT-2
OpenAI ،
یک مدل زبان بزرگ قدیمیتر که OpenAI در سال 2019 منتشر کرد، تجزیه و
تحلیل کردند. اما
Anthropic اکنون تعدادی مدار مختلف را در یک مدل بسیار بزرگتر
و بسیار پیچیدهتر تجزیه و تحلیل کرده است، زیرا چندین کار را انجام میدهد. مرولو
میگوید: «آنتروپیک در اعمال مقیاس برای یک مسئله بسیار تواناست.
ادن بیران که در دانشگاه تل آویو مدل های زبان بزرگ را مطالعه می کند،
با این موضوع موافق است. او میگوید: «یافتن مدارها در یک مدل بزرگ و پیشرفته
مانند کلود، یک شاهکار مهندسی بیاهمیت است. و این نشان می دهد که مدارها افزایش
می یابند و ممکن است راه خوبی برای تفسیر مدل های زبان باشند.
مدارها بخشها یا اجزای مختلف یک مدل را به هم متصل میکنند. سال
گذشته، Anthropic اجزای خاصی را
در داخل کلود شناسایی کرد که با
مفاهیم دنیای واقعی مطابقت دارد. برخی خاص بودند، مانند «مایکل جردن» یا «سبز
بودن». برخی دیگر مبهمتر بودند، مانند «تعارض بین افراد». به نظر می رسید که یک
جزء نمایانگر پل گلدن گیت باشد. محققان Anthropic دریافتند که اگر صفحه کلید این مولفه
را باز کنند، میتوان کلود را نه به عنوان یک مدل زبان بزرگ، بلکه به عنوان پل
فیزیکی خود شناسایی کرد.
آخرین کار بر اساس آن تحقیق و کار دیگران، از جمله Google
DeepMind است تا برخی از ارتباطات بین اجزای جداگانه را
آشکار کند. زنجیرههای مولفهها مسیرهایی هستند که بین کلمات وارد شده به کلود و
کلماتی که بیرون میآیند، هستند.
باتسون می گوید: "این چیزهای نوک کوه یخ است. شاید ما به چند
درصد از آنچه در حال وقوع است نگاه می کنیم." اما این برای دیدن ساختار
باورنکردنی کافی است.
در حال رشد LLM
محققان Anthropic و جاهای دیگر در حال مطالعه مدلهای
زبانی بزرگ هستند که گویی پدیدههای طبیعی هستند نه نرمافزارهای ساختهشده توسط
انسان. دلیلش این است که مدل ها آموزش دیده اند، نه برنامه ریزی شده.
باتسون می گوید: «آنها تقریباً به صورت ارگانیک رشد می کنند.
"آنها کاملاً تصادفی شروع می کنند. سپس شما آنها را بر روی همه این داده ها
آموزش می دهید و آنها از تولید چرندیات به توانایی صحبت به زبان های مختلف و نوشتن
نرم افزار و تا کردن پروتئین می رسند. چیزهای دیوانه کننده ای وجود دارد که این
مدل ها یاد می گیرند که انجام دهند، اما ما نمی دانیم چگونه این اتفاق افتاد زیرا
ما به آنجا نرفتیم و دستگیره ها را تنظیم نکردیم."
البته، همه چیز ریاضی است. اما این ریاضی نیست که بتوانیم دنبال کنیم.
باتسون میگوید: «یک مدل زبان بزرگ را باز کنید و تنها چیزی که خواهید دید
میلیاردها عدد است - پارامترها. "روشن کننده نیست."
آنتروپیک میگوید از تکنیکهای اسکن مغزی استفاده شده در علوم اعصاب
برای ساخت چیزی که شرکت به عنوان نوعی میکروسکوپ توصیف میکند الهام گرفته شده است
که میتواند در حین کار به قسمتهای مختلف یک مدل اشاره شود. این تکنیک اجزایی را
که در زمان های مختلف فعال هستند برجسته می کند. سپس محققان میتوانند روی اجزای
مختلف زوم کرده و زمانی که فعال هستند یا نیستند را ضبط کنند.
جزء مربوط به پل گلدن گیت را در نظر بگیرید. وقتی متنی به کلود نشان
داده میشود که پل را نامگذاری یا توصیف میکند یا حتی متن مربوط به پل، مانند
«سان فرانسیسکو» یا «آلکاتراز» را نشان میدهد. در غیر این صورت خاموش است.
با این حال، مؤلفه دیگری نیز ممکن است با ایده «کوچک بودن» مطابقت
داشته باشد: «ما دهها میلیون متن را بررسی میکنیم و میبینیم که برای کلمه
«کوچک» روشن است، برای کلمه «کوچک» روشن است، برای کلمه فرانسوی «کوچک» روشن است،
برای کلمات مربوط به کوچکی، چیزهایی که کمی ریز هستند، مانند میگوید، کوچکتر،
روشن است.
پس از شناسایی اجزای منفرد، آنتروپیک مسیر داخل مدل را دنبال می کند،
زیرا اجزای مختلف به هم زنجیر می شوند. محققان در پایان کار را با مؤلفه یا مؤلفههایی
شروع میکنند که منجر به پاسخ نهایی کلود به یک سؤال میشود. سپس باتسون و تیمش آن
زنجیره را به سمت عقب ردیابی می کنند.
رفتار عجیب
پس: چه چیزی پیدا کردند؟ آنتروپیک به 10 رفتار مختلف در کلود نگاه
کرد. یکی شامل استفاده از زبان های مختلف بود. آیا کلود قسمتی دارد که فرانسوی
صحبت می کند و قسمت دیگر چینی و غیره؟
تیم متوجه شد که کلود از اجزای مستقل از هر زبانی برای پاسخ دادن به
یک سوال یا حل یک مشکل استفاده میکند و پس از پاسخ دادن، زبان خاصی را انتخاب میکند.
از آن بپرسید "مخالف کوچک چیست؟" در زبان های انگلیسی، فرانسوی و چینی و
کلود ابتدا از مولفه های خنثی زبان مربوط به «کوچک بودن» و «متضادها» برای
رسیدن به پاسخ استفاده می کند. تنها در این صورت است که زبان خاصی را انتخاب می
کند که به آن پاسخ دهد. این نشان میدهد که مدلهای زبان بزرگ میتوانند چیزها را
به یک زبان یاد بگیرند و آنها را در زبانهای دیگر به کار ببرند.
آنتروپیک همچنین به چگونگی حل مسائل ریاضی ساده توسط کلود نگاه کرد.
تیم دریافت که به نظر میرسد این مدل استراتژیهای داخلی خود را توسعه داده است که
بر خلاف آنهایی است که در دادههای آموزشی خود دیده است. از کلود بخواهید 36 و 59
را اضافه کند و مدل یک سری مراحل فرد را طی خواهد کرد، از جمله ابتدا مجموعه ای از
مقادیر تقریبی را اضافه می کند (افزودن 40ish و 60ish،
اضافه کردن 57ish
و 36ish).
در پایان فرآیند خود، با مقدار 92ish می
آید. در همین حال، دنباله دیگری از مراحل روی رقم های آخر یعنی 6 و 9 تمرکز می کند
و مشخص می کند که پاسخ باید به 5 ختم شود. با قرار دادن آن در کنار 92ish،
پاسخ صحیح 95 به دست می آید.
و با این حال، اگر از کلود بپرسید که چگونه این کار را انجام داد،
چیزی شبیه این میگوید: «من آنها را اضافه کردم (6+9=15)، 1 را حمل کردم، سپس
10ها را اضافه کردم (3+5+1=9)، و به 95 رسید. به عبارت دیگر، به شما یک رویکرد
مشترک را می دهد که در همه جا آنلاین یافت می شود نه آنچه در واقع انجام می دهد.
بله!
LLM ها عجیب هستند. (و قابل اعتماد نیست.)
مراحلی که کلود
3.5 هایکو برای حل یک مسئله ریاضی ساده استفاده کرد، آنطور که آنتروپیک انتظار
داشت، نبود - و این مراحلی هم نیستند که کلود ادعا کرد.
آنتروپیک
این شواهد روشنی است که نشان میدهد مدلهای زبانی بزرگ دلایلی را
برای کاری که انجام میدهند ارائه میکنند که لزوماً منعکسکننده آن چیزی نیست که
واقعاً انجام دادهاند. باتسون میگوید، اما این برای مردم نیز صادق است:
"شما از کسی میپرسید، "چرا این کار را کردی؟" و آنها میگویند،
"اوم، حدس میزنم به این دلیل است که من بودم..." می دانید، شاید نه،
شاید آنها فقط گرسنه بودند و به همین دلیل این کار را کردند.
بیران فکر می کند این یافته به ویژه جالب است. بسیاری از محققان رفتار
مدل های زبان بزرگ را با درخواست از آنها برای توضیح اقدامات خود مطالعه می کنند.
اما او میگوید: «از آنجایی که مدلها به قویتر شدن ادامه میدهند، باید به نردههای
محافظ بهتری مجهز شوند. من معتقدم - و این کار همچنین نشان میدهد - که تنها تکیه
بر خروجیهای مدل کافی نیست.»
سومین وظیفه ای که آنتروپیک مطالعه کرد، نوشتن شعر بود. محققان میخواستند
بدانند که آیا این مدل واقعاً فقط یک کلمه را در یک زمان پیشبینی میکند یا خیر.
در عوض آنها متوجه شدند که کلود به نحوی به جلو نگاه می کند و کلمه ای را که در
انتهای سطر بعدی قرار دارد چند کلمه از قبل انتخاب کرده است.
به عنوان مثال، وقتی به کلود دستور داده شد «یک دوبیتی قافیه: او هویج
را دید و مجبور شد آن را بگیرد»، مدل پاسخ داد: «گرسنگی او مانند یک خرگوش گرسنه
بود». اما با استفاده از میکروسکوپ خود، آنها دیدند که کلود قبلاً کلمه
"خرگوش" را هنگام پردازش "آن را بگیر". سپس به نظر می رسید که
خط بعدی را با پایانی که قبلاً در جای خود قرار داده بود، می نوشت.
این ممکن است مانند یک جزئیات کوچک به نظر برسد. اما برخلاف این فرض
رایج است که مدلهای زبان بزرگ همیشه با انتخاب یک کلمه در یک زمان به ترتیب کار
میکنند. باتسون میگوید: «موضوع برنامهریزی در اشعار مرا غافلگیر کرد. "به
جای اینکه در آخرین لحظه تلاش کند قافیه را معنی دار کند، می داند به کجا می رود."
مرولو میگوید: «فکر میکردم جالب بود. یکی از لذتهای کار در این
زمینه، لحظاتی از این دست است. شاید شواهد کوچکی وجود داشته باشد که به توانایی
مدلها برای برنامهریزی از قبل اشاره میکند، اما این یک سوال بزرگ است که آنها
تا چه حد این کار را انجام میدهند.»
سپس
Anthropic مشاهده خود را با خاموش کردن مولفه نگهدارنده
مکان برای "خرگوش" تأیید کرد. کلود پاسخ داد: "گرسنگی او یک عادت
قدرتمند بود." و وقتی تیم "خرگوش" را با "سبز بودن"
جایگزین کرد، کلود با "آزاد کردن آن از فضای سبز باغ" پاسخ داد.
آنتروپیک همچنین بررسی کرد که چرا کلود گاهی اوقات چیزهایی می سازد،
پدیده ای که به عنوان توهم شناخته می شود. باتسون میگوید: «توهم طبیعیترین چیز
در جهان برای این مدلها است، با توجه به اینکه چگونه آنها برای تکمیلهای
احتمالی آموزش دیدهاند. سوال واقعی این است که چگونه به نام خدا می توانید کاری
نکنید که این کار را انجام ندهد؟
آخرین نسل از مدلهای زبان بزرگ، مانند Claude 3.5 و Gemini و GPT-4o،
به لطف آموزش گسترده پس از آموزش، بسیار کمتر از نسخههای قبلی توهم ایجاد میکنند (مراحلی
که یک
LLM آموزشدیده بر روی متنهای خراشیده شده از بیشتر
اینترنت را انجام میدهد و آن را به یک ربات چت قابل استفاده تبدیل میکند). اما
تیم باتسون وقتی متوجه شد که این پس از تمرین به نظر می رسد کلود را مجبور کرده
است از حدس و گمان به عنوان یک رفتار پیش فرض خودداری کند، شگفت زده شدند. هنگامی
که با اطلاعات نادرست پاسخ داد، به این دلیل بود که برخی از مؤلفههای دیگر مؤلفه
«گمان نکن» را لغو کرده بود.
به نظر میرسید که این اغلب زمانی اتفاق میافتد که گمانهزنیها
مربوط به یک فرد مشهور یا سایر افراد شناخته شده باشد. گویی حجم اطلاعات موجود در
مورد یک موضوع، علیرغم تنظیمات پیشفرض، گمانهزنیها را از بین برده است. هنگامی
که آنتروپیک برای آزمایش این موضوع، مؤلفه «گمان نکن» را زیر پا گذاشت، کلود
اظهارات نادرست زیادی درباره افراد ارائه کرد، از جمله ادعا کرد که باتسون به دلیل
اختراع اصل بتسون مشهور است (او نیست).
هنوز مشخص نیست
از آنجایی که ما اطلاعات کمی در مورد مدل های زبان بزرگ داریم، هر
بینش جدیدی گام بزرگی به جلو است. بیران میگوید: «درک عمیق از نحوه عملکرد این
مدلها در زیر کاپوت به ما امکان میدهد مدلهایی را طراحی و آموزش دهیم که بسیار
بهتر و قویتر هستند».
اما باتسون خاطرنشان می کند که هنوز محدودیت های جدی وجود دارد. او میگوید:
«این یک تصور اشتباه است که ما تمام اجزای مدل یا، مانند یک نمای چشم خدا را پیدا
کردهایم. "برخی چیزها در کانون توجه هستند، اما چیزهای دیگر هنوز نامشخص
هستند - اعوجاج میکروسکوپ."
و چندین ساعت طول میکشد تا یک محقق انسانی پاسخها را حتی به درخواستهای
بسیار کوتاه ردیابی کند. علاوه بر این، این مدل ها می توانند تعداد قابل توجهی از
کارهای مختلف را انجام دهند و آنتروپیک تاکنون تنها به 10 مورد از آنها نگاه کرده
است.
باتسون همچنین می گوید سوالات بزرگی وجود دارد که این رویکرد به آنها
پاسخی نخواهد داد. از ردیابی مدار می توان برای بررسی ساختارهای داخل یک مدل زبان
بزرگ استفاده کرد، اما به شما نمی گوید که چگونه و چرا این ساختارها در طول آموزش
شکل گرفته اند. او میگوید: «این یک سؤال عمیق است که ما اصلاً در این کار به آن
نمیپردازیم».
اما باتسون این را آغاز دوران جدیدی میداند که در آن میتوان در
نهایت شواهدی واقعی برای نحوه کارکرد این مدلها یافت: "نیازی نیست مانند:
"آیا آنها فکر میکنند؟ آیا آنها استدلال میکنند؟ آیا آنها رویا میبینند؟
آیا حفظ میکنند؟ اینها همه قیاس هستند، اما اگر بتوانیم به معنای واقعی کلمه
ببینیم که یک مدل چه کاری انجام می دهد، شاید اکنون نیازی به قیاس نداشته باشیم.
MIT
Technology Review
Comments
Post a Comment