Known Public Domain

DeepSeek R1

جامعه هوش مصنوعی درباره DeepSeek R1، یک مدل استدلال منبع باز جدید، سر و صدا می کند.

این مدل که توسط استارت‌آپ چینی هوش مصنوعی DeepSeek توسعه یافته است، ادعا می‌کند که R1 در چندین معیار کلیدی با ChatGPT o1 OpenAI مطابقت دارد یا حتی از آن پیشی می‌گیرد، اما با کسری از هزینه کار می‌کند.

هانچنگ کائو، استادیار سیستم‌های اطلاعاتی در دانشگاه اموری، می‌گوید: «این می‌تواند یک اکولایزر واقعی باشد که برای محققان و توسعه‌دهندگان با منابع محدود، به‌ویژه کسانی که از جنوب جهانی هستند، عالی خواهد بود.

موفقیت DeepSeek با توجه به محدودیت‌هایی که شرکت‌های چینی هوش مصنوعی در قالب افزایش کنترل‌های صادراتی ایالات متحده بر روی تراشه‌های پیشرفته با آن روبرو هستند، قابل توجه‌تر است. اما شواهد اولیه نشان می دهد که این اقدامات آنطور که در نظر گرفته شده است کار نمی کنند. به‌نظر می‌رسد تحریم‌ها به جای فلج کردن قابلیت‌های هوش مصنوعی چین، استارت‌آپ‌هایی مانند DeepSeek را به نوآوری در راه‌هایی که کارایی، تجمیع منابع و همکاری را در اولویت قرار می‌دهند، سوق می‌دهد.

به گفته Zihan Wang، مدیر سابق DeepSeek و دانشجوی فعلی دکترای علوم کامپیوتر در دانشگاه نورث وسترن، برای ایجاد R1، DeepSeek مجبور شد در فرآیند آموزشی خود تجدید نظر کند تا فشار بر پردازنده‌های گرافیکی خود را کاهش دهد.

DeepSeek R1 توسط محققان به دلیل توانایی آن در مقابله با وظایف استدلالی پیچیده، به ویژه در ریاضیات و کدنویسی، تحسین شده است. این مدل از رویکرد "زنجیره ای فکر" مشابه آنچه توسط ChatGPT o1 استفاده می شود، استفاده می کند که به آن اجازه می دهد مشکلات را با پردازش گام به گام پرس و جوها حل کند.

دیمیتریس پاپالیوپولوس، محقق اصلی آزمایشگاه تحقیقاتی AI Frontiers مایکروسافت، می گوید آنچه او را در مورد R1 بیش از همه شگفت زده کرد، سادگی مهندسی آن است. او می‌گوید: «هدف DeepSeek ارائه پاسخ‌های دقیق به جای جزئیات هر مرحله منطقی و کاهش قابل‌توجه زمان محاسبات و در عین حال حفظ سطح بالایی از کارایی بود.»

این کشور اعلام کرده است که آماده است تا به روشی پاسخ دهد که می تواند درد اقتصادی جدی را بر بزرگترین رقیب اقتصادی خود وارد کند.

DeepSeek همچنین شش نسخه کوچکتر از R1 را منتشر کرده است که به اندازه کافی کوچک است که به صورت محلی روی لپ تاپ ها اجرا شود. این ادعا می کند که یکی از آنها حتی در معیارهای خاص از OpenAI's o1-mini بهتر عمل می کند. آراویند سرینیواس، مدیرعامل Perplexity در توییتی نوشت: "DeepSeek تا حد زیادی o1-mini را تکرار کرده و آن را منبع باز کرده است." DeepSeek به درخواست MIT Technology Review برای اظهار نظر پاسخ نداد.

با وجود هیاهویی که در اطراف R1 وجود دارد، DeepSeek نسبتا ناشناخته باقی مانده است. مستقر در هانگژو، چین، در ژوئیه 2023 توسط لیانگ ونفنگ، فارغ التحصیل دانشگاه ژجیانگ با پیشینه مهندسی اطلاعات و الکترونیک تاسیس شد. توسط High-Flyer، یک صندوق تامینی که لیانگ در سال 2015 تأسیس کرد، انکوبه شد. لیانگ مانند سام آلتمن از OpenAI، قصد دارد هوش مصنوعی (AGI) ایجاد کند، نوعی از هوش مصنوعی که می‌تواند در طیف گسترده‌ای از وظایف با انسان‌ها مطابقت داشته باشد یا حتی از آنها بهتر عمل کند. . .

آموزش مدل های زبان بزرگ (LLM) به تیمی از محققان بسیار آموزش دیده و قدرت محاسباتی قابل توجهی نیاز دارد. در مصاحبه اخیر با رسانه چینی LatePost، Kai-fu Li، یک کارآفرین کهنه کار و رئیس سابق گوگل چین، گفت که تنها «بازیکنان سطح یک» معمولاً در ساخت مدل‌های اولیه مانند ChatGPT دخالت می‌کنند، زیرا منابع بسیار محدود است.

این وضعیت با کنترل صادرات ایالات متحده بر روی نیمه هادی های پیشرفته پیچیده تر شده است. تصمیم High-Flyer برای ورود به هوش مصنوعی مستقیماً با این محدودیت ها مرتبط است. مدت‌ها قبل از تحریم‌های پیش‌بینی‌شده، لیانگ انبار قابل توجهی از تراشه‌های Nvidia A100 را به دست آورد، نوعی که اکنون صادرات آن به چین ممنوع است. شرکت چینی 36Kr تخمین می زند که این شرکت بیش از 10000 واحد در انبار دارد، اما دیلان پاتل، بنیانگذار شرکت مشاوره تحقیقاتی هوش مصنوعی SemiAnalysis، تخمین می زند که حداقل 50،000 دستگاه داشته باشد. شناخت پتانسیل این ذخیره برای آموزش هوش مصنوعی همان چیزی است که لیانگ DeepSeek را تأسیس کرد، که توانست از آنها در ترکیب با تراشه های کم مصرف برای توسعه مدل های خود استفاده کند.

غول‌های فناوری مانند علی‌بابا و بایت‌دنس، و همچنین تعداد کمی از استارت‌آپ‌ها با سرمایه‌گذاران با جیب‌های عمیق، بر فضای هوش مصنوعی چین تسلط دارند و رقابت شرکت‌های کوچک یا متوسط را دشوار می‌کنند. شرکتی مانند DeepSeek که هیچ برنامه ای برای افزایش سرمایه ندارد نادر است.

زیهان وانگ، کارمند سابق DeepSeek به MIT Technology Review گفت که به منابع محاسباتی عظیمی دسترسی داشته و در حین کار در DeepSeek به او آزادی آزمایش داده شده است، "تجملی که تعداد کمی از فارغ التحصیلان تازه وارد در هر شرکتی به آن دست می یابند." لیانگ در مصاحبه ای با رسانه چینی 36Kr در ژوئیه 2024 گفت که چالش دیگری که شرکت های چینی با آن روبرو هستند، علاوه بر تحریم تراشه، این است که تکنیک های مهندسی هوش مصنوعی آنها کارآمدتر است. ما [بیشتر شرکت های چینی] برای دستیابی به نتایج یکسان باید دو برابر بیشتر از توان محاسباتی مصرف کنیم. همراه با شکاف های کارایی داده، این می تواند تا چهار برابر قدرت محاسباتی بیشتری داشته باشد. هدف ما رفع مستمر این شکاف هاست.

اما DeepSeek راه‌هایی برای کاهش مصرف حافظه و سرعت بخشیدن به محاسبه بدون کاهش قابل توجهی در دقت پیدا کرد. وانگ می گوید: «تیم عاشق تبدیل چالش سخت افزاری به فرصتی برای نوآوری است.

لیانگ خود عمیقاً درگیر فرآیند تحقیقاتی DeepSeek است و آزمایش‌هایی را در کنار تیمش انجام می‌دهد. وانگ می‌گوید: «کل تیم یک فرهنگ مشترک و تعهد به تحقیقات سخت‌کوه دارند.

برای همه باز است

علاوه بر اولویت دادن به کارایی، شرکت های چینی به طور فزاینده ای از اصول منبع باز استقبال می کنند. Alibaba Cloud بیش از 100 مدل AI منبع باز جدید را منتشر کرده است که از 29 زبان پشتیبانی می کند و برنامه های مختلف از جمله برنامه نویسی و ریاضیات را ارائه می دهد. به طور مشابه، استارت آپ هایی مانند Minimax و 01.AI مدل های خود را منبع باز کرده اند.

بر اساس مقاله سفیدی که سال گذشته توسط آکادمی فناوری اطلاعات و ارتباطات چین، یک موسسه تحقیقاتی وابسته به دولت منتشر شد، تعداد مدل‌های زبان بزرگ هوش مصنوعی در سراسر جهان به 1328 مورد رسیده است که 36 درصد از آنها در چین منشا می‌گیرند. این امر چین را به عنوان دومین شرکت کننده بزرگ هوش مصنوعی پس از ایالات متحده قرار می دهد.

توماس کیتونگ کائو، استادیار سیاست فناوری در دانشگاه تافتس می‌گوید: «این نسل از محققان جوان چینی به شدت با فرهنگ منبع باز شناسایی می‌شوند، زیرا از آن سود زیادی می‌برند.

مت شیهان، محقق هوش مصنوعی در بنیاد کارنگی برای صلح بین‌المللی، می‌گوید: «کنترل صادرات ایالات متحده اساساً شرکت‌های چینی را به گوشه‌ای هدایت کرده است که باید با منابع محاسباتی محدود خود بسیار کارآمدتر عمل کنند. ما احتمالاً در آینده شاهد ادغام زیادی در رابطه با کمبود محاسبات خواهیم بود.»

این ممکن است از قبل شروع شده باشد. دو هفته پیش، Alibaba Cloud اعلام کرد که با استارتاپ 01.AI مستقر در پکن، که توسط Kai-Fu Lee تأسیس شده است، برای ادغام تیم های تحقیقاتی و ایجاد یک "آزمایشگاه مدل بزرگ صنعتی" شریک شده است.

کائو، پروفسور تافتز می‌گوید: ظهور نوعی تقسیم کار در صنعت هوش مصنوعی از نظر انرژی کارآمد و طبیعی است. تکامل سریع هوش مصنوعی نیازمند چابکی شرکت‌های چینی برای بقا است.

Known Public Domain - Bytes

Search This Blog

Comments

Post a Comment