این مدل که توسط
استارتآپ چینی هوش مصنوعی DeepSeek توسعه یافته است، ادعا میکند که R1 در چندین معیار کلیدی با ChatGPT o1 OpenAI مطابقت دارد یا حتی از آن پیشی میگیرد،
اما با کسری از هزینه کار میکند.
هانچنگ کائو،
استادیار سیستمهای اطلاعاتی در دانشگاه اموری، میگوید: «این میتواند یک اکولایزر
واقعی باشد که برای محققان و توسعهدهندگان با منابع محدود، بهویژه کسانی که از
جنوب جهانی هستند، عالی خواهد بود.
موفقیت DeepSeek با توجه به محدودیتهایی که شرکتهای چینی
هوش مصنوعی در قالب افزایش کنترلهای صادراتی ایالات متحده بر روی تراشههای پیشرفته
با آن روبرو هستند، قابل توجهتر است. اما شواهد اولیه نشان می دهد که این اقدامات
آنطور که در نظر گرفته شده است کار نمی کنند. بهنظر میرسد تحریمها به جای فلج
کردن قابلیتهای هوش مصنوعی چین، استارتآپهایی مانند DeepSeek را به نوآوری در راههایی که کارایی،
تجمیع منابع و همکاری را در اولویت قرار میدهند، سوق میدهد.
به گفته Zihan Wang، مدیر سابق DeepSeek و دانشجوی فعلی دکترای علوم کامپیوتر
در دانشگاه نورث وسترن، برای ایجاد R1،
DeepSeek مجبور شد در فرآیند آموزشی خود تجدید
نظر کند تا فشار بر پردازندههای گرافیکی خود را کاهش دهد.
DeepSeek R1 توسط محققان به دلیل توانایی آن در
مقابله با وظایف استدلالی پیچیده، به ویژه در ریاضیات و کدنویسی، تحسین شده است. این
مدل از رویکرد "زنجیره ای فکر" مشابه آنچه توسط ChatGPT o1 استفاده می شود، استفاده می کند که به
آن اجازه می دهد مشکلات را با پردازش گام به گام پرس و جوها حل کند.
دیمیتریس پاپالیوپولوس،
محقق اصلی آزمایشگاه تحقیقاتی AI Frontiers مایکروسافت، می گوید آنچه او را در مورد R1 بیش از همه شگفت زده کرد، سادگی مهندسی
آن است. او میگوید: «هدف DeepSeek ارائه پاسخهای دقیق به جای جزئیات هر مرحله منطقی و کاهش قابلتوجه
زمان محاسبات و در عین حال حفظ سطح بالایی از کارایی بود.»
این کشور اعلام
کرده است که آماده است تا به روشی پاسخ دهد که می تواند درد اقتصادی جدی را بر
بزرگترین رقیب اقتصادی خود وارد کند.
DeepSeek همچنین شش نسخه کوچکتر از R1 را منتشر کرده است که به اندازه کافی
کوچک است که به صورت محلی روی لپ تاپ ها اجرا شود. این ادعا می کند که یکی از آنها
حتی در معیارهای خاص از OpenAI's o1-mini بهتر عمل می کند. آراویند سرینیواس، مدیرعامل Perplexity در توییتی نوشت: "DeepSeek تا حد زیادی o1-mini را تکرار کرده و آن را منبع باز کرده
است."
DeepSeek به
درخواست
MIT Technology Review برای اظهار نظر پاسخ نداد.
با وجود هیاهویی
که در اطراف
R1 وجود دارد، DeepSeek نسبتا ناشناخته باقی مانده است. مستقر
در هانگژو، چین، در ژوئیه 2023 توسط لیانگ ونفنگ، فارغ التحصیل دانشگاه ژجیانگ با
پیشینه مهندسی اطلاعات و الکترونیک تاسیس شد. توسط High-Flyer، یک صندوق تامینی که لیانگ در سال 2015 تأسیس
کرد، انکوبه شد. لیانگ مانند سام آلتمن از OpenAI، قصد دارد هوش مصنوعی (AGI) ایجاد کند، نوعی از هوش مصنوعی که میتواند
در طیف گستردهای از وظایف با انسانها مطابقت داشته باشد یا حتی از آنها بهتر عمل
کند.
. .
آموزش مدل های
زبان بزرگ
(LLM) به
تیمی از محققان بسیار آموزش دیده و قدرت محاسباتی قابل توجهی نیاز دارد. در مصاحبه
اخیر با رسانه چینی LatePost،
Kai-fu Li، یک کارآفرین کهنه کار و
رئیس سابق گوگل چین، گفت که تنها «بازیکنان سطح یک» معمولاً در ساخت مدلهای اولیه
مانند
ChatGPT دخالت
میکنند، زیرا منابع بسیار محدود است.
این وضعیت با
کنترل صادرات ایالات متحده بر روی نیمه هادی های پیشرفته پیچیده تر شده است. تصمیم High-Flyer برای ورود به هوش مصنوعی مستقیماً با این
محدودیت ها مرتبط است. مدتها قبل از تحریمهای پیشبینیشده، لیانگ انبار قابل
توجهی از تراشههای Nvidia A100 را به دست آورد، نوعی که اکنون صادرات آن به چین ممنوع است. شرکت چینی
36Kr تخمین می زند که این شرکت بیش از 10000
واحد در انبار دارد، اما دیلان پاتل، بنیانگذار شرکت مشاوره تحقیقاتی هوش مصنوعی SemiAnalysis، تخمین می زند که حداقل
50،000 دستگاه داشته باشد. شناخت پتانسیل این ذخیره برای آموزش هوش مصنوعی همان چیزی
است که لیانگ
DeepSeek را
تأسیس کرد، که توانست از آنها در ترکیب با تراشه های کم مصرف برای توسعه مدل های
خود استفاده کند.
غولهای فناوری
مانند علیبابا و بایتدنس، و همچنین تعداد کمی از استارتآپها با سرمایهگذاران
با جیبهای عمیق، بر فضای هوش مصنوعی چین تسلط دارند و رقابت شرکتهای کوچک یا
متوسط را دشوار میکنند. شرکتی مانند DeepSeek که هیچ برنامه ای برای افزایش سرمایه ندارد نادر است.
زیهان وانگ،
کارمند سابق
DeepSeek به MIT Technology
Review گفت
که به منابع محاسباتی عظیمی دسترسی داشته و در حین کار در DeepSeek به او آزادی آزمایش داده شده است،
"تجملی که تعداد کمی از فارغ التحصیلان تازه وارد در هر شرکتی به آن دست می یابند."
لیانگ در مصاحبه ای با رسانه چینی 36Kr در ژوئیه 2024 گفت که چالش دیگری که شرکت های چینی با آن روبرو
هستند، علاوه بر تحریم تراشه، این است که تکنیک های مهندسی هوش مصنوعی آنها
کارآمدتر است. ما [بیشتر شرکت های چینی] برای دستیابی به نتایج یکسان باید دو
برابر بیشتر از توان محاسباتی مصرف کنیم. همراه با شکاف های کارایی داده، این می
تواند تا چهار برابر قدرت محاسباتی بیشتری داشته باشد. هدف ما رفع مستمر این شکاف
هاست.
اما DeepSeek راههایی برای کاهش مصرف حافظه و سرعت
بخشیدن به محاسبه بدون کاهش قابل توجهی در دقت پیدا کرد. وانگ می گوید: «تیم عاشق
تبدیل چالش سخت افزاری به فرصتی برای نوآوری است.
لیانگ خود عمیقاً
درگیر فرآیند تحقیقاتی DeepSeek است و آزمایشهایی را در کنار تیمش انجام میدهد. وانگ میگوید: «کل
تیم یک فرهنگ مشترک و تعهد به تحقیقات سختکوه دارند.
برای همه باز
است
علاوه بر اولویت
دادن به کارایی، شرکت های چینی به طور فزاینده ای از اصول منبع باز استقبال می
کنند.
Alibaba Cloud بیش
از 100 مدل
AI منبع باز جدید
را منتشر کرده است که از 29 زبان پشتیبانی می کند و برنامه های مختلف از جمله
برنامه نویسی و ریاضیات را ارائه می دهد. به طور مشابه، استارت آپ هایی مانند Minimax و 01.AI مدل های خود را منبع باز کرده اند.
بر اساس مقاله
سفیدی که سال گذشته توسط آکادمی فناوری اطلاعات و ارتباطات چین، یک موسسه تحقیقاتی
وابسته به دولت منتشر شد، تعداد مدلهای زبان بزرگ هوش مصنوعی در سراسر جهان به
1328 مورد رسیده است که 36 درصد از آنها در چین منشا میگیرند. این امر چین را به
عنوان دومین شرکت کننده بزرگ هوش مصنوعی پس از ایالات متحده قرار می دهد.
توماس کیتونگ
کائو، استادیار سیاست فناوری در دانشگاه تافتس میگوید: «این نسل از محققان جوان چینی
به شدت با فرهنگ منبع باز شناسایی میشوند، زیرا از آن سود زیادی میبرند.
مت شیهان، محقق
هوش مصنوعی در بنیاد کارنگی برای صلح بینالمللی، میگوید: «کنترل صادرات ایالات
متحده اساساً شرکتهای چینی را به گوشهای هدایت کرده است که باید با منابع
محاسباتی محدود خود بسیار کارآمدتر عمل کنند. ما احتمالاً در آینده شاهد ادغام زیادی
در رابطه با کمبود محاسبات خواهیم بود.»
این ممکن است از
قبل شروع شده باشد. دو هفته پیش، Alibaba Cloud اعلام کرد که با استارتاپ 01.AI مستقر در پکن، که توسط Kai-Fu Lee تأسیس شده است، برای ادغام تیم های تحقیقاتی
و ایجاد یک "آزمایشگاه مدل بزرگ صنعتی" شریک شده است.
کائو، پروفسور
تافتز میگوید: ظهور نوعی تقسیم کار در صنعت هوش مصنوعی از نظر انرژی کارآمد و طبیعی
است. تکامل سریع هوش مصنوعی نیازمند چابکی شرکتهای چینی برای بقا است.
Comments
Post a Comment