آنتروپیک اکنون می تواند عملکرد درونی عجیب و غریب یک مدل زبان بزرگ را ردیابی کند

آنچه این شرکت پیدا کرد، برخی از مفروضات اساسی در مورد نحوه عملکرد این فناوری را به چالش می کشد.

 

شرکت هوش مصنوعی Anthropic روشی را برای بررسی درون یک مدل زبان بزرگ و تماشای آنچه انجام می‌دهد در حین دریافت پاسخ ایجاد کرده است و بینش‌های کلیدی جدیدی را در مورد نحوه عملکرد این فناوری آشکار می‌کند. نکته اولیه: LLM ها حتی عجیب تر از آن چیزی هستند که فکر می کردیم.

جاشوا باتسون، دانشمند تحقیقاتی در این شرکت می‌گوید، تیم Anthropic از برخی راه‌حل‌های غیرمستقیم که به نظر می‌رسد مدل‌های زبان بزرگ برای تکمیل جملات، حل مسائل ریاضی ساده، سرکوب توهمات و موارد دیگر استفاده می‌کنند، شگفت‌زده شدند.

بر کسی پوشیده نیست که مدل های بزرگ زبان به روش های مرموز کار می کنند . تعداد کمی از فن‌آوری‌های بازار انبوه (اگر وجود داشته باشند) تا به این اندازه کم درک شده‌اند . این باعث می‌شود بفهمیم که چه چیزی باعث می‌شود آنها یکی از بزرگترین چالش‌های باز در علم را انتخاب کنند.

اما این فقط در مورد کنجکاوی نیست. روشن کردن چگونگی کارکرد این مدل‌ها، نقاط ضعف آنها را آشکار می‌کند، و نشان می‌دهد که چرا چیزها را می‌سازند و چرا می‌توان آنها را فریب داد تا از ریل خارج شوند . این به حل اختلافات عمیق در مورد اینکه این مدل ها دقیقاً چه کاری می توانند انجام دهند و نمی توانند انجام دهند، کمک می کند . و نشان می دهد که آنها واقعا چقدر قابل اعتماد هستند (یا نه).

باتسون و همکارانش کار جدید خود را در دو گزارش منتشر شده امروز توصیف می کنند. اولین مورد استفاده Anthropic از تکنیکی به نام ردیابی مدار را ارائه می دهد که به محققان اجازه می دهد فرآیندهای تصمیم گیری را در یک مدل زبان بزرگ گام به گام پیگیری کنند. Anthropic از ردیابی مدار برای تماشای هایکو LLM Claude 3.5 خود در انجام وظایف مختلف استفاده کرد. دومی (با عنوان «درباره زیست‌شناسی یک مدل زبان بزرگ») جزئیات آنچه را که تیم با بررسی 10 کار به طور خاص کشف کرد، نشان می‌دهد.

جک مرولو، که در دانشگاه براون در پراویدنس، رود آیلند، مدل‌های زبان بزرگ را مطالعه می‌کند و در این تحقیق شرکت نداشت، می‌گوید: «فکر می‌کنم این واقعاً کار جالبی است. "این یک گام واقعا خوب به جلو از نظر روش است."

ردیابی مدار به خودی خود جدید نیست. سال گذشته مرولو و همکارانش مدار خاصی را در نسخه‌ای از GPT-2 OpenAI ، یک مدل زبان بزرگ قدیمی‌تر که OpenAI در سال 2019 منتشر کرد، تجزیه و تحلیل کردند. اما Anthropic اکنون تعدادی مدار مختلف را در یک مدل بسیار بزرگ‌تر و بسیار پیچیده‌تر تجزیه و تحلیل کرده است، زیرا چندین کار را انجام می‌دهد. مرولو می‌گوید: «آنتروپیک در اعمال مقیاس برای یک مسئله بسیار تواناست.

ادن بیران که در دانشگاه تل آویو مدل های زبان بزرگ را مطالعه می کند، با این موضوع موافق است. او می‌گوید: «یافتن مدارها در یک مدل بزرگ و پیشرفته مانند کلود، یک شاهکار مهندسی بی‌اهمیت است. و این نشان می دهد که مدارها افزایش می یابند و ممکن است راه خوبی برای تفسیر مدل های زبان باشند.

مدارها بخش‌ها یا اجزای مختلف یک مدل را به هم متصل می‌کنند. سال گذشته، Anthropic اجزای خاصی را در داخل کلود شناسایی کرد که با مفاهیم دنیای واقعی مطابقت دارد. برخی خاص بودند، مانند «مایکل جردن» یا «سبز بودن». برخی دیگر مبهم‌تر بودند، مانند «تعارض بین افراد». به نظر می رسید که یک جزء نمایانگر پل گلدن گیت باشد. محققان Anthropic دریافتند که اگر صفحه کلید این مولفه را باز کنند، می‌توان کلود را نه به عنوان یک مدل زبان بزرگ، بلکه به عنوان پل فیزیکی خود شناسایی کرد.

 

 

 

آخرین کار بر اساس آن تحقیق و کار دیگران، از جمله Google DeepMind است تا برخی از ارتباطات بین اجزای جداگانه را آشکار کند. زنجیره‌های مولفه‌ها مسیرهایی هستند که بین کلمات وارد شده به کلود و کلماتی که بیرون می‌آیند، هستند.  

باتسون می گوید: "این چیزهای نوک کوه یخ است. شاید ما به چند درصد از آنچه در حال وقوع است نگاه می کنیم." اما این برای دیدن ساختار باورنکردنی کافی است.

در حال رشد LLM

محققان Anthropic و جاهای دیگر در حال مطالعه مدل‌های زبانی بزرگ هستند که گویی پدیده‌های طبیعی هستند نه نرم‌افزارهای ساخته‌شده توسط انسان. دلیلش این است که مدل ها آموزش دیده اند، نه برنامه ریزی شده.

باتسون می گوید: «آنها تقریباً به صورت ارگانیک رشد می کنند. "آنها کاملاً تصادفی شروع می کنند. سپس شما آنها را بر روی همه این داده ها آموزش می دهید و آنها از تولید چرندیات به توانایی صحبت به زبان های مختلف و نوشتن نرم افزار و تا کردن پروتئین می رسند. چیزهای دیوانه کننده ای وجود دارد که این مدل ها یاد می گیرند که انجام دهند، اما ما نمی دانیم چگونه این اتفاق افتاد زیرا ما به آنجا نرفتیم و دستگیره ها را تنظیم نکردیم."

البته، همه چیز ریاضی است. اما این ریاضی نیست که بتوانیم دنبال کنیم. باتسون می‌گوید: «یک مدل زبان بزرگ را باز کنید و تنها چیزی که خواهید دید میلیاردها عدد است - پارامترها. "روشن کننده نیست."

آنتروپیک می‌گوید از تکنیک‌های اسکن مغزی استفاده شده در علوم اعصاب برای ساخت چیزی که شرکت به عنوان نوعی میکروسکوپ توصیف می‌کند الهام گرفته شده است که می‌تواند در حین کار به قسمت‌های مختلف یک مدل اشاره شود. این تکنیک اجزایی را که در زمان های مختلف فعال هستند برجسته می کند. سپس محققان می‌توانند روی اجزای مختلف زوم کرده و زمانی که فعال هستند یا نیستند را ضبط کنند.

جزء مربوط به پل گلدن گیت را در نظر بگیرید. وقتی متنی به کلود نشان داده می‌شود که پل را نام‌گذاری یا توصیف می‌کند یا حتی متن مربوط به پل، مانند «سان فرانسیسکو» یا «آلکاتراز» را نشان می‌دهد. در غیر این صورت خاموش است.

با این حال، مؤلفه دیگری نیز ممکن است با ایده «کوچک بودن» مطابقت داشته باشد: «ما ده‌ها میلیون متن را بررسی می‌کنیم و می‌بینیم که برای کلمه «کوچک» روشن است، برای کلمه «کوچک» روشن است، برای کلمه فرانسوی «کوچک» روشن است، برای کلمات مربوط به کوچکی، چیزهایی که کمی ریز هستند، مانند می‌گوید، کوچک‌تر، روشن است.

پس از شناسایی اجزای منفرد، آنتروپیک مسیر داخل مدل را دنبال می کند، زیرا اجزای مختلف به هم زنجیر می شوند. محققان در پایان کار را با مؤلفه یا مؤلفه‌هایی شروع می‌کنند که منجر به پاسخ نهایی کلود به یک سؤال می‌شود. سپس باتسون و تیمش آن زنجیره را به سمت عقب ردیابی می کنند.

رفتار عجیب

پس: چه چیزی پیدا کردند؟ آنتروپیک به 10 رفتار مختلف در کلود نگاه کرد. یکی شامل استفاده از زبان های مختلف بود. آیا کلود قسمتی دارد که فرانسوی صحبت می کند و قسمت دیگر چینی و غیره؟

تیم متوجه شد که کلود از اجزای مستقل از هر زبانی برای پاسخ دادن به یک سوال یا حل یک مشکل استفاده می‌کند و پس از پاسخ دادن، زبان خاصی را انتخاب می‌کند. از آن بپرسید "مخالف کوچک چیست؟" در زبان های انگلیسی، فرانسوی و چینی و کلود ابتدا از مولفه های خنثی زبان مربوط به «کوچک بودن» و «متضادها» برای رسیدن به پاسخ استفاده می کند. تنها در این صورت است که زبان خاصی را انتخاب می کند که به آن پاسخ دهد. این نشان می‌دهد که مدل‌های زبان بزرگ می‌توانند چیزها را به یک زبان یاد بگیرند و آن‌ها را در زبان‌های دیگر به کار ببرند.

آنتروپیک همچنین به چگونگی حل مسائل ریاضی ساده توسط کلود نگاه کرد. تیم دریافت که به نظر می‌رسد این مدل استراتژی‌های داخلی خود را توسعه داده است که بر خلاف آن‌هایی است که در داده‌های آموزشی خود دیده است. از کلود بخواهید 36 و 59 را اضافه کند و مدل یک سری مراحل فرد را طی خواهد کرد، از جمله ابتدا مجموعه ای از مقادیر تقریبی را اضافه می کند (افزودن 40ish و 60ish، اضافه کردن 57ish و 36ish). در پایان فرآیند خود، با مقدار 92ish می آید. در همین حال، دنباله دیگری از مراحل روی رقم های آخر یعنی 6 و 9 تمرکز می کند و مشخص می کند که پاسخ باید به 5 ختم شود. با قرار دادن آن در کنار 92ish، پاسخ صحیح 95 به دست می آید.

و با این حال، اگر از کلود بپرسید که چگونه این کار را انجام داد، چیزی شبیه این می‌گوید: «من آن‌ها را اضافه کردم (6+9=15)، 1 را حمل کردم، سپس 10ها را اضافه کردم (3+5+1=9)، و به 95 رسید. به عبارت دیگر، به شما یک رویکرد مشترک را می دهد که در همه جا آنلاین یافت می شود نه آنچه در واقع انجام می دهد. بله! LLM ها عجیب هستند. (و قابل اعتماد نیست.)

مراحلی که کلود 3.5 هایکو برای حل یک مسئله ریاضی ساده استفاده کرد، آن‌طور که آنتروپیک انتظار داشت، نبود - و این مراحلی هم نیستند که کلود ادعا کرد.

آنتروپیک

این شواهد روشنی است که نشان می‌دهد مدل‌های زبانی بزرگ دلایلی را برای کاری که انجام می‌دهند ارائه می‌کنند که لزوماً منعکس‌کننده آن چیزی نیست که واقعاً انجام داده‌اند. باتسون می‌گوید، اما این برای مردم نیز صادق است: "شما از کسی می‌پرسید، "چرا این کار را کردی؟" و آنها می‌گویند، "اوم، حدس می‌زنم به این دلیل است که من بودم..." می دانید، شاید نه، شاید آنها فقط گرسنه بودند و به همین دلیل این کار را کردند.

بیران فکر می کند این یافته به ویژه جالب است. بسیاری از محققان رفتار مدل های زبان بزرگ را با درخواست از آنها برای توضیح اقدامات خود مطالعه می کنند. اما او می‌گوید: «از آنجایی که مدل‌ها به قوی‌تر شدن ادامه می‌دهند، باید به نرده‌های محافظ بهتری مجهز شوند. من معتقدم - و این کار همچنین نشان می‌دهد - که تنها تکیه بر خروجی‌های مدل کافی نیست

سومین وظیفه ای که آنتروپیک مطالعه کرد، نوشتن شعر بود. محققان می‌خواستند بدانند که آیا این مدل واقعاً فقط یک کلمه را در یک زمان پیش‌بینی می‌کند یا خیر. در عوض آنها متوجه شدند که کلود به نحوی به جلو نگاه می کند و کلمه ای را که در انتهای سطر بعدی قرار دارد چند کلمه از قبل انتخاب کرده است.  

به عنوان مثال، وقتی به کلود دستور داده شد «یک دوبیتی قافیه: او هویج را دید و مجبور شد آن را بگیرد»، مدل پاسخ داد: «گرسنگی او مانند یک خرگوش گرسنه بود». اما با استفاده از میکروسکوپ خود، آنها دیدند که کلود قبلاً کلمه "خرگوش" را هنگام پردازش "آن را بگیر". سپس به نظر می رسید که خط بعدی را با پایانی که قبلاً در جای خود قرار داده بود، می نوشت.

این ممکن است مانند یک جزئیات کوچک به نظر برسد. اما برخلاف این فرض رایج است که مدل‌های زبان بزرگ همیشه با انتخاب یک کلمه در یک زمان به ترتیب کار می‌کنند. باتسون می‌گوید: «موضوع برنامه‌ریزی در اشعار مرا غافلگیر کرد. "به جای اینکه در آخرین لحظه تلاش کند قافیه را معنی دار کند، می داند به کجا می رود."

مرولو می‌گوید: «فکر می‌کردم جالب بود. یکی از لذت‌های کار در این زمینه، لحظاتی از این دست است. شاید شواهد کوچکی وجود داشته باشد که به توانایی مدل‌ها برای برنامه‌ریزی از قبل اشاره می‌کند، اما این یک سوال بزرگ است که آنها تا چه حد این کار را انجام می‌دهند

سپس Anthropic مشاهده خود را با خاموش کردن مولفه نگهدارنده مکان برای "خرگوش" تأیید کرد. کلود پاسخ داد: "گرسنگی او یک عادت قدرتمند بود." و وقتی تیم "خرگوش" را با "سبز بودن" جایگزین کرد، کلود با "آزاد کردن آن از فضای سبز باغ" پاسخ داد.

آنتروپیک همچنین بررسی کرد که چرا کلود گاهی اوقات چیزهایی می سازد، پدیده ای که به عنوان توهم شناخته می شود. باتسون می‌گوید: «توهم طبیعی‌ترین چیز در جهان برای این مدل‌ها است، با توجه به اینکه چگونه آن‌ها برای تکمیل‌های احتمالی آموزش دیده‌اند. سوال واقعی این است که چگونه به نام خدا می توانید کاری نکنید که این کار را انجام ندهد؟

آخرین نسل از مدل‌های زبان بزرگ، مانند Claude 3.5 و Gemini و GPT-4o، به لطف آموزش گسترده پس از آموزش، بسیار کمتر از نسخه‌های قبلی توهم ایجاد می‌کنند (مراحلی که یک LLM آموزش‌دیده بر روی متن‌های خراشیده شده از بیشتر اینترنت را انجام می‌دهد و آن را به یک ربات چت قابل استفاده تبدیل می‌کند). اما تیم باتسون وقتی متوجه شد که این پس از تمرین به نظر می رسد کلود را مجبور کرده است از حدس و گمان به عنوان یک رفتار پیش فرض خودداری کند، شگفت زده شدند. هنگامی که با اطلاعات نادرست پاسخ داد، به این دلیل بود که برخی از مؤلفه‌های دیگر مؤلفه «گمان نکن» را لغو کرده بود.

به نظر می‌رسید که این اغلب زمانی اتفاق می‌افتد که گمانه‌زنی‌ها مربوط به یک فرد مشهور یا سایر افراد شناخته شده باشد. گویی حجم اطلاعات موجود در مورد یک موضوع، علیرغم تنظیمات پیش‌فرض، گمانه‌زنی‌ها را از بین برده است. هنگامی که آنتروپیک برای آزمایش این موضوع، مؤلفه «گمان نکن» را زیر پا گذاشت، کلود اظهارات نادرست زیادی درباره افراد ارائه کرد، از جمله ادعا کرد که باتسون به دلیل اختراع اصل بتسون مشهور است (او نیست).

هنوز مشخص نیست

از آنجایی که ما اطلاعات کمی در مورد مدل های زبان بزرگ داریم، هر بینش جدیدی گام بزرگی به جلو است. بیران می‌گوید: «درک عمیق از نحوه عملکرد این مدل‌ها در زیر کاپوت به ما امکان می‌دهد مدل‌هایی را طراحی و آموزش دهیم که بسیار بهتر و قوی‌تر هستند».

اما باتسون خاطرنشان می کند که هنوز محدودیت های جدی وجود دارد. او می‌گوید: «این یک تصور اشتباه است که ما تمام اجزای مدل یا، مانند یک نمای چشم خدا را پیدا کرده‌ایم. "برخی چیزها در کانون توجه هستند، اما چیزهای دیگر هنوز نامشخص هستند - اعوجاج میکروسکوپ."

و چندین ساعت طول می‌کشد تا یک محقق انسانی پاسخ‌ها را حتی به درخواست‌های بسیار کوتاه ردیابی کند. علاوه بر این، این مدل ها می توانند تعداد قابل توجهی از کارهای مختلف را انجام دهند و آنتروپیک تاکنون تنها به 10 مورد از آنها نگاه کرده است.

باتسون همچنین می گوید سوالات بزرگی وجود دارد که این رویکرد به آنها پاسخی نخواهد داد. از ردیابی مدار می توان برای بررسی ساختارهای داخل یک مدل زبان بزرگ استفاده کرد، اما به شما نمی گوید که چگونه و چرا این ساختارها در طول آموزش شکل گرفته اند. او می‌گوید: «این یک سؤال عمیق است که ما اصلاً در این کار به آن نمی‌پردازیم».

اما باتسون این را آغاز دوران جدیدی می‌داند که در آن می‌توان در نهایت شواهدی واقعی برای نحوه کارکرد این مدل‌ها یافت: "نیازی نیست مانند: "آیا آنها فکر می‌کنند؟ آیا آنها استدلال می‌کنند؟ آیا آنها رویا می‌بینند؟ آیا حفظ می‌کنند؟ اینها همه قیاس هستند، اما اگر بتوانیم به معنای واقعی کلمه ببینیم که یک مدل چه کاری انجام می دهد، شاید اکنون نیازی به قیاس نداشته باشیم.

MIT Technology Review

  

Comments