هلیکس

Figure AI سرانجام روز پنجشنبهپیشرفت بزرگ " را فاش کرد که باعث شد استارت‌آپ رباتیک پرهیاهو با یکی از سرمایه‌گذاران خود به نام OpenAI قطع شود: یک معماری جدید هوش مصنوعی با سیستم دوگانه که به روبات‌ها اجازه می‌دهد تا دستورات زبان طبیعی را تفسیر کنند و اشیایی را که قبلاً هرگز ندیده‌اند، دستکاری کنند - بدون نیاز به پیش‌آموزش یا برنامه‌نویسی خاص برای هر یک.

برخلاف روبات‌های معمولی که نیاز به برنامه‌ریزی یا نمایش گسترده برای هر کار جدید دارند، هلیکس یک سیستم استدلال سطح بالا را با کنترل موتور در زمان واقعی ترکیب می‌کند. دو سیستم آن به طور موثر شکاف بین درک معنایی (دانستن اینکه اشیاء چیست) و کنش یا کنترل حرکتی (دانستن نحوه دستکاری آن اشیا) را پر می کنند.

این امکان را برای ربات ها فراهم می کند تا در طول زمان بدون نیاز به به روز رسانی سیستم های خود یا آموزش داده های جدید، توانایی بیشتری پیدا کنند. برای نشان دادن نحوه کار، این شرکت ویدئویی منتشر کرد که در آن دو ربات فیگور با هم کار می‌کنند تا مواد غذایی را کنار بگذارند و یک ربات اقلامی را به دیگری می‌دهد و آنها را در کشوها و یخچال‌ها قرار می‌دهد.

فیگور ادعا کرد که هیچ یک از ربات‌ها از اقلامی که با آن‌ها سر و کار دارند نمی‌دانند، با این حال می‌توانند تشخیص دهند که کدام یک باید در یخچال قرار گیرند و کدام یک قرار است خشک نگهداری شوند.

ادکاک در توییتی نوشت: «Helix می‌تواند به هر وسیله خانگی تعمیم دهد. هلیکس مانند یک انسان، گفتار، دلایل مشکلات را درک می کند و می تواند هر شیئی را بدون نیاز به آموزش یا کد درک کند

.


https://youtu.be/Z3yQHYNXPws

چگونه جادو کار می کند

برای دستیابی به این قابلیت تعمیم، استارت‌آپ مستقر در سانی‌ویل، کالیفرنیا، همچنین مدلی را توسعه داد که آن را مدل Vision-Language-Action (VLA) می‌نامید که ادراک، درک زبان و کنترل آموخته‌شده را یکپارچه می‌کند، و این همان چیزی است که مدل‌هایش را قادر به تعمیم می‌کند.

شکل ادعا می کند که این مدل چندین اولین بار را در رباتیک نشان می دهد. این خروجی کنترل مداوم کل قسمت بالایی بدن انسان نما را با فرکانس 200 هرتز، از جمله حرکات تکی انگشتان، موقعیت های مچ دست، جهت گیری بالاتنه و جهت سر را ارائه می دهد. همچنین به دو ربات اجازه می دهد تا در انجام وظایف با اشیایی که قبلاً هرگز ندیده اند همکاری کنند

پیشرفت در Helix از معماری دو سیستمی آن ناشی می شود که بازتاب شناخت انسان است: یک پارامتر 7 میلیاردی "سیستم 2" مدل زبان بینایی (VLM) که درک سطح بالا را در 7-9 هرتز مدیریت می کند (وضعیت خود را 9 بار در ثانیه به روز می کند و به آهستگی برای کارهای ساختاری و پیچیده یا حرکت های 80 متری می اندیشد)، سیاست دیداری حرکتی که این دستورالعمل‌ها را به حرکات فیزیکی دقیق با فرکانس 200 هرتز (که اساساً وضعیت آن را 200 بار در ثانیه به‌روزرسانی می‌کند) برای تفکر سریع ترجمه می‌کند.

برخلاف رویکردهای قبلی، Helix از یک مجموعه واحد از وزن شبکه عصبی برای همه رفتارها بدون تنظیم دقیق کار خاص استفاده می کند. یکی از سیستم ها گفتار و داده های بصری را پردازش می کند تا تصمیم گیری های پیچیده را امکان پذیر کند، در حالی که دیگری این دستورالعمل ها را به اقدامات حرکتی دقیق برای پاسخگویی در زمان واقعی ترجمه می کند.

آدکاک در توییتی نوشت : "ما بیش از یک سال است که روی این پروژه کار می کنیم و هدف آن حل رباتیک عمومی است." "کدگذاری راه خود برای خروج از این مشکل کارساز نخواهد بود، ما فقط به یک تغییر مرحله ای در قابلیت ها نیاز داریم تا به سطح ربات میلیارد واحدی ارتقا پیدا کنیم."

هلیکس می‌گوید همه این‌ها راه را به روی یک قانون مقیاس‌پذیری جدید در رباتیک باز می‌کند، قانونی که به کدنویسی وابسته نیست و در عوض به تلاش جمعی متکی است که مدل‌ها را بدون هیچ‌گونه آموزش قبلی در مورد وظایف خاص توانمندتر می‌کند.

تصویر: تصویر هوش مصنوعی

Figure Helix را بر روی تقریباً 500 ساعت رفتار ربات از راه دور آموزش داد، سپس از یک فرآیند برچسب‌گذاری خودکار برای تولید دستورالعمل‌های زبان طبیعی برای هر نمایش استفاده کرد. کل سیستم بر روی پردازنده‌های گرافیکی تعبیه‌شده در داخل روبات‌ها اجرا می‌شود و بلافاصله برای استفاده تجاری آماده می‌شود.

بررسی Grok-3: چگونه هوش مصنوعی ایلان ماسک با ChatGPT، Claude، DeepSeek و Gemini مقایسه می شود

xAI ایلان ماسک به تازگی Grok-3 را رها کرده است، و در حال حاضر دنیای هوش مصنوعی را تکان می دهد، و سوار بر موج مسابقه تسلیحاتی است که با اولین حضور انفجاری DeepSeek در ژانویه آغاز شد. در مراسم رونمایی، خدمه xAI معیارهای دست‌چین شده و معتبری را به نمایش گذاشتند و قدرت استدلال Grok-3 را در برابر رقبای خود نشان دادند، به ویژه پس از اینکه اولین LLM بود که از 1400 امتیاز ELO در LLM Arena پیشی گرفت و خود را به عنوان بهترین LLM ترجیح داد. جسورانه؟ کاملا. اما وقتی مردی که کمک کرد دوباره...

Figure AI گفت که قبلاً با شرکت BMW Manufacturing و یک مشتری بزرگ آمریکایی که نامش فاش نشده است، قراردادهایی را تضمین کرده است. آدکاک گفت: این شرکت معتقد است که این مشارکت‌ها «مسیری به سوی ۱۰۰ هزار ربات در چهار سال آینده» ایجاد می‌کند.

این شرکت رباتیک انسان نما در اوایل سال جاری 675 میلیون دلار بودجه سری B از سرمایه گذارانی از جمله OpenAI، مایکروسافت، NVIDIA و جف بزوس به ارزش 2.6 میلیارد دلار دریافت کردطبق گزارش ها، در حال مذاکره برای جذب 1.5 میلیارد دلار دیگر است که ارزش شرکت را 39.5 میلیارد دلار می کند.

 

Comments