The inside story of how ChatGPT was built from the people who made it


When OpenAI launched ChatGPT, with zero fanfare, in late November 2022, the San Francisco–based artificial-intelligence company had few expectations. Certainly, nobody inside OpenAI was prepared for a viral mega-hit. The firm has been scrambling to catch up—and capitalize on its success—ever since.


It was viewed in-house as a “research preview,” says Sandhini Agarwal, who works on policy at OpenAI: a tease of a more polished version of a two-year-old technology and, more important, an attempt to iron out some of its flaws by collecting feedback from the public. “We didn’t want to oversell it as a big fundamental advance,” says Liam Fedus, a scientist at OpenAI who worked on ChatGPT. To get the inside story behind the chatbot—how it was made, how OpenAI has been updating it since release, and how its makers feel about its success—I talked to four people who helped build what has become one of the most popular internet apps ever. In addition to Agarwal and Fedus, I spoke to John Schulman, a cofounder of OpenAI, and Jan Leike, the leader of OpenAI’s alignment team, which works on the problem of making AI do what its users want it to do (and nothing more).


What I came away with was the sense that OpenAI is still bemused by the success of its research preview, but has grabbed the opportunity to push this technology forward, watching how millions of people are using it and trying to fix the worst problems as they come up.


Since November, OpenAI has already updated ChatGPT several times. The researchers are using a technique called adversarial training to stop ChatGPT from letting users trick it into behaving badly (known as jailbreaking). This work pits multiple chatbots against each other: one chatbot plays the adversary and attacks another chatbot by generating text to force it to buck its usual constraints and produce unwanted responses. Successful attacks are added to ChatGPT’s training data in the hope that it learns to ignore them.       


OpenAI has also signed a multibillion-dollar deal with Microsoft and announced an alliance with Bain, a global management consulting firm, which plans to use OpenAI’s generative AI models in marketing campaigns for its clients, including Coca-Cola. Outside OpenAI, the buzz about ChatGPT has set off yet another gold rush around large language models, with companies and investors worldwide getting into the action.


That’s a lot of hype in three short months. Where did ChatGPT come from? What steps did OpenAI take to ensure it was ready to release? And where are they going next?  


The following has been edited for length and clarity.


Jan Leike: It’s been overwhelming, honestly. We’ve been surprised, and we’ve been trying to catch up.


John Schulman: I was checking Twitter a lot in the days after release, and there was this crazy period where the feed was filling up with ChatGPT screenshots. I expected it to be intuitive for people, and I expected it to gain a following, but I didn’t expect it to reach this level of mainstream popularity.


Sandhini Agarwal: I think it was definitely a surprise for all of us how much people began using it. We work on these models so much, we forget how surprising they can be for the outside world sometimes.


Liam Fedus: We were definitely surprised how well it was received. There have been so many prior attempts at a general-purpose chatbot that I knew the odds were stacked against us. However, our private beta had given us confidence that we had something that people might really enjoy.


Jan Leike: I would love to understand better what’s driving all of this—what’s driving the virality. Like, honestly, we don’t understand. We don’t know.


Part of the team’s puzzlement comes from the fact that most of the technology inside ChatGPT isn’t new. ChatGPT is a fine-tuned version of GPT-3.5, a family of large language models that OpenAI released months before the chatbot. GPT-3.5 is itself an updated version of GPT-3, which appeared in 2020. The company makes these models available on its website as application programming interfaces, or APIs, which make it easy for other software developers to plug models into their own code. OpenAI also released a previous fine-tuned version of GPT-3.5, called InstructGPT, in January 2022. But none of these previous versions of the tech were pitched to the public. 

Liam Fedus: The ChatGPT model is fine-tuned from the same language model as InstructGPT, and we used a similar methodology for fine-tuning it. We had added some conversational data and tuned the training process a bit. So we didn’t want to oversell it as a big fundamental advance. As it turned out, the conversational data had a big positive impact on ChatGPT.


John Schulman: The raw technical capabilities, as assessed by standard benchmarks, don’t actually differ substantially between the models, but ChatGPT is more accessible and usable.


Jan Leike: In one sense you can understand ChatGPT as a version of an AI system that we’ve had for a while. It’s not a fundamentally more capable model than what we had previously. The same basic models had been available on the API for almost a year before ChatGPT came out. In another sense, we made it more aligned with what humans want to do with it. It talks to you in dialogue, it’s easily accessible in a chat interface, it tries to be helpful. That’s amazing progress, and I think that’s what people are realizing.


John Schulman: It more readily infers intent. And users can get to what they want by going back and forth.


ChatGPT was trained in a very similar way to InstructGPT, using a technique called reinforcement learning from human feedback (RLHF). This is ChatGPT’s secret sauce. The basic idea is to take a large language model with a tendency to spit out anything it wants—in this case, GPT-3.5—and tune it by teaching it what kinds of responses human users actually prefer.


Jan Leike: We had a large group of people read ChatGPT prompts and responses, and then say if one response was preferable to another response. All of this data then got merged into one training run. Much of it is the same kind of thing as what we did with InstructGPT. You want it to be helpful, you want it to be truthful, you want it to be—you know—nontoxic. And then there are things that are specific to producing dialogue and being an assistant: things like, if the user’s query isn’t clear, it should ask follow-up questions. It should also clarify that it’s an AI system. It should not assume an identity that it doesn’t have, it shouldn’t claim to have abilities that it doesn’t possess, and when a user asks it to do tasks that it’s not supposed to do, it has to write a refusal message. One of the lines that emerged in this training was “As a language model trained by OpenAI …” It wasn’t explicitly put in there, but it’s one of the things the human raters ranked highly.


Sandhini Agarwal: Yeah, I think that’s what happened. There was a list of various criteria that the human raters had to rank the model on, like truthfulness. But they also began preferring things that they considered good practice, like not pretending to be something that you’re not. 


Because ChatGPT had been built using the same techniques OpenAI had used before, the team did not do anything different when preparing to release this model to the public. They felt the bar they’d set for previous models was sufficient.       

 Sandhini Agarwal: When we were preparing for release, we didn’t think of this model as a completely new risk. GPT-3.5 has been out there in the world, and we know that it’s already safe enough. And through ChatGPT’s training on human preferences, the model just automatically learned refusal behavior, where it refuses a lot of requests.


Jan Leike: We did some additional “red-teaming” for ChatGPT, where everybody at OpenAI sat down and tried to break the model. And we had external groups doing the same kind of thing. We also had an early-access program with trusted users, who gave feedback. Sandhini Agarwal: We did find that it generated certain unwanted outputs, but they were all things that GPT-3.5 also generates. So in terms of risk, as a research preview—because that’s what it was initially intended to be—it felt fine.


John Schulman: You can’t wait until your system is perfect to release it. We had been beta-testing the earlier versions for a few months, and the beta testers had positive impressions of the product. Our biggest concern was around factuality, because the model likes to fabricate things. But InstructGPT and other large language models are already out there, so we thought that as long as ChatGPT is better than those in terms of factuality and other issues of safety, it should be good to go. Before launch we confirmed that the models did seem a bit more factual and safe than other models, according to our limited evaluations, so we decided to go ahead with the release.


OpenAI has been watching how people use ChatGPT since its launch, seeing for the first time how a large language model fares when put into the hands of tens of millions of users who may be looking to test its limits and find its flaws. The team has tried to jump on the most problematic examples of what ChatGPT can produce—from songs about God’s love for rapist priests to malware code that steals credit card numbers—and use them to rein in future versions of the model.   Sandhini Agarwal: We have a lot of next steps. I definitely think how viral ChatGPT has gotten has made a lot of issues that we knew existed really bubble up and become critical—things we want to solve as soon as possible. Like, we know the model is still very biased. And yes, ChatGPT is very good at refusing bad requests, but it’s also quite easy to write prompts that make it not refuse what we wanted it to refuse.


Liam Fedus: It’s been thrilling to watch the diverse and creative applications from users, but we’re always focused on areas to improve upon. We think that through an iterative process where we deploy, get feedback, and refine, we can produce the most aligned and capable technology. As our technology evolves, new issues inevitably emerge.


Sandhini Agarwal: In the weeks after launch, we looked at some of the most terrible examples that people had found, the worst things people were seeing in the wild. We kind of assessed each of them and talked about how we should fix it.


Jan Leike: Sometimes it’s something that’s gone viral on Twitter, but we have some people who actually reach out quietly.


Sandhini Agarwal: A lot of things that we found were jailbreaks, which is definitely a problem we need to fix. But because users have to try these convoluted methods to get the model to say something bad, it isn’t like this was something that we completely missed, or something that was very surprising for us. Still, that’s something we’re actively working on right now. When we find jailbreaks, we add them to our training and testing data. All of the data that we’re seeing feeds into a future model.


Jan Leike:  Every time we have a better model, we want to put it out and test it. We’re very optimistic that some targeted adversarial training can improve the situation with jailbreaking a lot. It’s not clear whether these problems will go away entirely, but we think we can make a lot of the jailbreaking a lot more difficult. Again, it’s not like we didn’t know that jailbreaking was possible before the release. I think it’s very difficult to really anticipate what the real safety problems are going to be with these systems once you’ve deployed them. So we are putting a lot of emphasis on monitoring what people are using the system for, seeing what happens, and then reacting to that. This is not to say that we shouldn’t proactively mitigate safety problems when we do anticipate them. But yeah, it is very hard to foresee everything that will actually happen when a system hits the real world.


In January, Microsoft revealed Bing Chat, a search chatbot that many assume to be a version of OpenAI’s officially unannounced GPT-4. (OpenAI says: “Bing is powered by one of our next-generation models that Microsoft customized specifically for search. It incorporates advancements from ChatGPT and GPT-3.5.”) The use of chatbots by tech giants with multibillion-dollar reputations to protect creates new challenges for those tasked with building the underlying models. Sandhini Agarwal: The stakes right now are definitely a lot higher than they were, say, six months ago, but they’re still lower than where they might be a year from now. One thing that obviously really matters with these models is the context they’re being used in. Like with Google and Microsoft, even one thing not being factual became such a big issue because they’re meant to be search engines. The required behavior of a large language model for something like search is very different than for something that’s just meant to be a playful chatbot. We need to figure out how we walk the line between all these different uses, creating something that’s useful for people across a range of contexts, where the desired behavior might really vary. That adds more pressure. Because we now know that we are building these models so that they can be turned into products. ChatGPT is a product now that we have the API. We’re building this general-purpose technology and we need to make sure that it works well across everything. That is one of the key challenges that we face right now.


John Schulman: I underestimated the extent to which people would probe and care about the politics of ChatGPT. We could have potentially made some better decisions when collecting training data, which would have lessened this issue. We’re working on it now.


Jan Leike: From my perspective, ChatGPT fails a lot—there’s so much stuff to do. It doesn’t feel like we’ve solved these problems. We all have to be very clear to ourselves—and to others—about the limitations of technology. I mean, language models have been around for a while now, but it’s still early days. We know about all the problems they have. I think we just have to be very up-front, and manage expectations, and make it clear this is not a finished product.


داستان درونی نحوه ساخت چتگپ از افرادی که آن را ساخته اند


هنگامی که Openai Chatgpt را با صفر فن ، در اواخر نوامبر 2022 راه اندازی کرد ، شرکت اطلاعاتی مصنوعی مبتنی بر سانفرانسیسکو انتظارات کمی داشت. مطمئناً ، هیچ کس در Openai برای یک مگا ویروسی آماده نشده بود. این شرکت در تلاش است تا از آن زمان تاکنون به دست آورد و از موفقیت خود سرمایه گذاری کند.


Sandhini Agarwal ، که در Openai کار می کند ، می گوید: این خانه به عنوان "پیش نمایش تحقیقاتی" مورد بررسی قرار گرفت: یک نسخه از یک نسخه صیقلی تر از یک فناوری دو ساله و مهمتر از آن ، تلاش برای آهن کردن برخی از نقص آن با جمع آوری بازخورد از مردم. لیام فدوس ، دانشمند OpenAI که در Chatgpt کار می کرد ، می گوید: "ما نمی خواهیم آن را به عنوان یک پیشرفت اساسی بزرگ ، از بین ببریم." برای به دست آوردن داستان درونی در پشت چت بابات - نحوه ساخت آن ، چگونه Openai از زمان انتشار آن را به روز کرده است ، و اینکه سازندگان آن نسبت به موفقیت آن چه احساسی دارند - من با چهار نفر صحبت کردم که به ساخت آنچه که به یکی از محبوب ترین برنامه های اینترنتی تبدیل شده است ، کمک کردم همیشه. علاوه بر آگاروال و فدرال ، من با جان شولمن ، بنیانگذار Openai و یان لیک ، رهبر تیم تراز اوپای صحبت کردم ، که بر روی مشکل ساخت هوش مصنوعی کار می کند آنچه کاربران آن می خواهند آن را انجام دهند (و هیچ چیز بیشتر) بشر


آنچه من از آن دور شدم این حس بود که Openai هنوز از موفقیت پیش نمایش تحقیق خود ناراحت است ، اما این فرصت را به دست آورده است تا این فناوری را به جلو سوق دهد ، و تماشا می کند که چگونه میلیون ها نفر از آن از آن استفاده می کنند و سعی می کنند بدترین مشکلات را برطرف کنند. بالا


از ماه نوامبر ، OpenAi قبلاً چندین بار Chatgpt را به روز کرده است. محققان از تکنیکی به نام آموزش دشمن استفاده می کنند تا جلوی چتپ را بگیرند که به کاربران اجازه دهد آن را به رفتار بد (معروف به فرار از زندان) برسانند. این کار چندین چت بابات را در برابر یکدیگر قرار می دهد: یک چت بابات بازیگر دشمن را بازی می کند و با تولید متن به یک چت بابات دیگر حمله می کند تا آن را مجبور به محدودیت های معمول خود کند و پاسخ های ناخواسته ایجاد کند. حملات موفقیت آمیز به داده های آموزشی Chatgpt اضافه می شود به این امید که یاد بگیرد که آنها را نادیده بگیرد.


OpenAI همچنین با مایکروسافت یک قرارداد چند میلیارد دلاری را امضا کرده و اتحاد با Bain ، یک شرکت مشاوره مدیریت جهانی را اعلام کرده است که قصد دارد از مدل های AI تولیدی OpenAI در کمپین های بازاریابی برای مشتریان خود ، از جمله Coca-Cola استفاده کند. در خارج از اوپای ، وزوز در مورد چتپپ دیگر عجله طلای دیگری را در مورد مدلهای بزرگ زبان آغاز کرده است ، که شرکت ها و سرمایه گذاران در سراسر جهان وارد این عمل می شوند.


این در سه ماه کوتاه اعتیاد به مواد مخدره است. Chatgpt از کجا آمده است؟ Openai برای اطمینان از آماده شدن برای آزادی چه اقداماتی انجام داد؟ و آنها به کجا می روند؟


موارد زیر برای طول و وضوح ویرایش شده است.


جان لیک: صادقانه ، بسیار زیاد بوده است. ما متعجب شده ایم ، و ما سعی کرده ایم تا به این نتیجه برسیم.


جان شولمن: من در روزهای بعد از انتشار ، توییتر زیادی را بررسی می کردم و این دوره دیوانه وار وجود داشت که فید با تصاویر چتپپ پر می شد. من انتظار داشتم که این امر برای مردم شهودی باشد و انتظار داشتم که این موارد زیر را بدست آورد ، اما انتظار نداشتم که به این سطح از محبوبیت اصلی برسد.


Sandhini Agarwal: من فکر می کنم قطعاً برای همه ما تعجب آور بود که مردم چقدر شروع به استفاده از آن کردند. ما خیلی روی این مدل ها کار می کنیم ، فراموش می کنیم که آنها گاهی اوقات می توانند برای دنیای خارج تعجب آور باشند.


لیام فدوس: ما قطعاً تعجب کردیم که چقدر خوب دریافت شده است. تلاش های قبلی زیادی در یک چت بابات با هدف کلی انجام شده است که می دانستم شانس علیه ما جمع شده است. با این حال ، بتا خصوصی ما به ما اطمینان داده بود که ما چیزی داشتیم که مردم واقعاً از آن لذت ببرند.


جان لیک: من دوست دارم بهتر بفهمم که همه اینها را هدایت می کند - چه چیزی باعث ویروسی می شود. مثل ، صادقانه ، ما نمی فهمیم. ما نمی دانیم


بخشی از معما تیم از این واقعیت ناشی می شود که بیشتر فناوری های موجود در Chatgpt چیز جدیدی نیست. Chatgpt یک نسخه زیبا از GPT-3.5 است ، خانواده ای از مدل های بزرگ زبان که OpenAI ماه ها قبل از چت باب منتشر شد. GPT-3.5 خود نسخه به روز شده GPT-3 است که در سال 2020 ظاهر شد. این شرکت این مدل ها را در وب سایت خود به عنوان رابط برنامه نویسی برنامه یا API در دسترس قرار می دهد ، که باعث می شود سایر توسعه دهندگان نرم افزار بتوانند مدل ها را به کد خود وصل کنند. بشر Openai همچنین نسخه قبلی تنظیم شده GPT-3.5 را به نام Arstrissgpt در ژانویه سال 2022 منتشر کرد. اما هیچ یک از این نسخه های قبلی این فناوری برای عموم مردم قرار نگرفت.

Liam Fedus: مدل ChatGPT از همان مدل زبان ArinctristGPT تنظیم شده است و ما از یک روش مشابه برای تنظیم دقیق آن استفاده کردیم. ما برخی از داده های مکالمه را اضافه کرده بودیم و روند آموزش را کمی تنظیم کرده بودیم. بنابراین ما نمی خواهیم آن را به عنوان یک پیشرفت اساسی بزرگ از آن استفاده کنیم. همانطور که معلوم شد ، داده های مکالمه تأثیر مثبت زیادی در ChatGPT داشتند.


جان شولمن: قابلیت های فنی خام ، همانطور که توسط معیارهای استاندارد ارزیابی می شود ، در واقع بین مدل ها تفاوت چندانی ندارند ، اما Chatgpt در دسترس تر و قابل استفاده تر است.


جان لیک: به یک معنا که می توانید آن را بشناسید

و به عنوان نسخه ای از سیستم هوش مصنوعی که مدتی داشتیم ، چت شده را چت کرد. این یک مدل اساساً توانمندتر از آنچه قبلاً داشتیم نیست. تقریباً یک سال قبل از بیرون آمدن چتگپ ، همان مدل های اساسی در API موجود بود. به تعبیری دیگر ، ما آن را با آنچه انسان می خواهد با آن انجام دهد ، هماهنگ تر کردیم. در گفتگو با شما صحبت می کند ، در یک رابط گپ به راحتی قابل دسترسی است ، سعی می کند مفید باشد. این پیشرفت شگفت انگیز است ، و من فکر می کنم این همان چیزی است که مردم متوجه می شوند.


جان شولمن: این امر به راحتی قصد دارد. و کاربران می توانند با رفتن به عقب و جلو به آنچه می خواهند برسند.


Chatgpt با استفاده از تکنیکی به نام تقویت یادگیری از بازخورد انسانی (RLHF) به روشی بسیار مشابه برای آموزش آموزش داده شد. این سس مخفی Chatgpt است. ایده اصلی این است که یک مدل زبان بزرگ را با تمایل به تف کردن هر چیزی که می خواهد-در این حالت ، GPT-5.5-تهیه کنید و آن را با آموزش آن تنظیم کنید که چه نوع پاسخ هایی را که کاربران انسانی در واقع ترجیح می دهند.


Jan Leike: ما گروه بزرگی از مردم را خوانده بودیم و پاسخ های چتپپ را خوانده و سپس می گویند که آیا یک پاسخ به پاسخ دیگر ارجح است. سپس تمام این داده ها در یک دوره آموزشی ادغام شدند. بخش اعظم آن همان نوع کارهایی است که ما با آموزش انجام دادیم. شما می خواهید که این مفید باشد ، می خواهید این حقیقت باشد ، می خواهید این - شما می دانید - غیر سمی است. و سپس مواردی وجود دارد که مخصوص تولید گفتگو و دستیار بودن است: مواردی مانند ، اگر پرس و جو کاربر مشخص نیست ، باید سؤالات پیگیری را مطرح کند. همچنین باید روشن کند که این یک سیستم هوش مصنوعی است. نباید هویتی را که ندارد فرض کند ، نباید ادعا کند که توانایی هایی را که در اختیار ندارد ، داشته باشد ، و وقتی کاربر از آن بخواهد وظایفی را انجام دهد که قرار نیست انجام دهد ، باید امتناع خود را بنویسد پیام یکی از خطوطی که در این آموزش پدیدار شد "به عنوان یک الگوی زبانی که توسط Openai آموزش داده شده بود ..." صریحاً در آنجا قرار نگرفت ، اما این یکی از مواردی است که رأی دهندگان بشر در رتبه بالایی قرار گرفتند.


Sandhini Agarwal: بله ، من فکر می کنم این همان اتفاقی است که افتاده است. لیستی از معیارهای مختلفی وجود داشت که رأی دهندگان بشر مجبور بودند مدل را مانند حقیقت ، رتبه بندی کنند. اما آنها همچنین ترجیح می دادند چیزهایی را که آنها عمل خوب می دانند ، ترجیح دهند ، مانند این که وانمود نمی کنند چیزی نیستید که شما نیستید.


از آنجا که ChatGPT با استفاده از همان تکنیک هایی که Openai قبلاً استفاده کرده بود ساخته شده بود ، تیم هنگام آماده سازی برای انتشار این مدل برای عموم ، هیچ کاری متفاوت انجام نداد. آنها احساس می کردند نوار تنظیم شده برای مدل های قبلی کافی است.

  Sandhini Agarwal: هنگامی که ما برای انتشار آماده می شدیم ، ما از این مدل به عنوان یک خطر کاملاً جدید فکر نمی کردیم. GPT-5.5 در جهان در آنجا بوده است ، و ما می دانیم که از قبل به اندازه کافی ایمن است. و از طریق آموزش Chatgpt در مورد ترجیحات انسانی ، این مدل فقط به طور خودکار رفتار امتناع را آموخته است ، جایی که از درخواست های زیادی امتناع می ورزد.


Jan Leike: ما برای چتگپ ، جایی که همه در Openai نشستند و سعی کردند مدل را بشکنند ، "تیم قرمز" اضافی را انجام دادیم. و ما گروه های خارجی داشتیم که همان کار را انجام می دادند. ما همچنین با کاربران قابل اعتماد یک برنامه دسترسی زودهنگام داشتیم که بازخورد می دادند. Sandhini Agarwal: ما متوجه شدیم که این کشور خروجی های ناخواسته خاصی ایجاد کرده است ، اما آنها همه چیزهایی بودند که GPT-5.5 نیز تولید می کند. بنابراین از نظر خطر ، به عنوان یک پیش نمایش تحقیق - زیرا این همان چیزی است که در ابتدا قرار بود در نظر گرفته شود - احساس خوبی داشت.


جان شولمن: شما نمی توانید صبر کنید تا سیستم شما مناسب برای انتشار آن باشد. ما چند ماه است که نسخه های قبلی را در نسخه های قبلی آزمایش کرده بودیم و آزمایش کنندگان بتا برداشت های مثبتی از محصول داشتند. بزرگترین نگرانی ما پیرامون واقعی بودن بود ، زیرا این مدل دوست دارد چیزها را بسازد. اما آموزش و سایر مدل های بزرگ زبان در حال حاضر در آنجا وجود دارد ، بنابراین ما فکر کردیم که تا زمانی که Chatgpt از نظر واقعی بودن و سایر موارد ایمنی بهتر از مواردی باشد ، باید خوب باشد. قبل از راه اندازی ، ما تأیید کردیم که مدل ها با توجه به ارزیابی های محدود ما ، کمی واقعی تر و ایمن تر از سایر مدل ها به نظر می رسند ، بنابراین تصمیم گرفتیم با انتشار پیش برویم.


Openai در حال تماشای چگونگی استفاده از Chatgpt از زمان راه اندازی آن است ، برای اولین بار می بینید که چگونه یک مدل زبان بزرگ هنگام قرار دادن ده ها میلیون کاربر که ممکن است به دنبال آزمایش محدودیت های خود باشند و نقص های آن را پیدا کنند ، می پردازد. این تیم سعی کرده است تا روی مشکل ساز ترین نمونه های آنچه که چتپت می تواند تولید کند - از آهنگ های مربوط به عشق خدا به کاهنان تجاوز به کدهای بدافزار که شماره کارت های اعتباری را سرقت می کند - پرش کند و از آنها برای استفاده مجدد در نسخه های آینده مدل استفاده کند. Sandhini Agarwal: ما مراحل بعدی زیادی داریم. من قطعاً فکر می کنم که چتپپ ویروسی چگونه مسائل زیادی را به دست آورده است که می دانستیم وجود دارد واقعاً حباب شده و بحرانی می شود - چیزهایی که می خواهیم در اسرع وقت حل کنیم. مانند ، ما می دانیم که این مدل هنوز بسیار مغرضانه است. و بله ، Chatgpt در امتناع از درخواست های بد بسیار خوب است ، اما نوشتن مطالب بسیار آسان است که باعث می شود از آنچه می خواستیم امتناع کنیم ، امتناع ورزید.


LIAM FEDUS: تماشای برنامه های متنوع و خلاق از کاربران بسیار هیجان زده است ، اما ما همیشه متمرکز هستیم

در مناطقی که باید برطرف شوند. ما فکر می کنیم که از طریق یک فرآیند تکراری که در آن مستقر می شویم ، بازخورد می گیریم و پالایش می کنیم ، می توانیم بیشترین و توانمندترین فناوری را تولید کنیم. با تکامل فناوری ما ، موضوعات جدید به ناچار پدیدار می شود.


Sandhini Agarwal: در هفته های پس از راه اندازی ، ما به برخی از وحشتناک ترین نمونه هایی که مردم پیدا کرده بودند ، نگاه کردیم ، بدترین چیزهایی که مردم در طبیعت می دیدند. ما هر یک از آنها را ارزیابی کردیم و در مورد چگونگی اصلاح آن صحبت کردیم.


جان لیک: گاهی اوقات این چیزی است که در توییتر ویروسی شده است ، اما ما برخی از افراد داریم که در واقع بی سر و صدا به دست می آیند.


Sandhini Agarwal: بسیاری از مواردی که پیدا کردیم فرار از زندان است که قطعاً مشکلی است که ما باید آن را برطرف کنیم. اما از آنجا که کاربران مجبورند این روشهای پیچیده را امتحان کنند تا مدل را بدل کند ، اینگونه نیست که این چیزی بود که ما کاملاً از دست دادیم ، یا چیزی که برای ما بسیار تعجب آور بود. با این حال ، این چیزی است که ما در حال حاضر به طور جدی روی آن کار می کنیم. وقتی فرار از زندان را پیدا می کنیم ، آنها را به داده های آموزش و آزمایش خود اضافه می کنیم. تمام داده هایی که ما می بینیم فیدها را در یک مدل آینده مشاهده می کنیم.


جان لیک: هر بار که مدل بهتری داریم ، می خواهیم آن را کنار بگذاریم و آن را آزمایش کنیم. ما بسیار خوش بین هستیم که برخی از آموزش های مخالف هدفمند می توانند با فرار از زندان ، اوضاع را بهبود بخشند. هنوز مشخص نیست که آیا این مشکلات کاملاً از بین می روند ، اما فکر می کنیم می توانیم فرار از زندان را بسیار دشوارتر کنیم. باز هم ، اینگونه نیست که ما نمی دانستیم که فرار از زندان قبل از انتشار امکان پذیر است. من فکر می کنم پس از استقرار آنها ، واقعاً پیش بینی می کنم مشکلات ایمنی واقعی با این سیستم ها چه باشد. بنابراین ما تأکید زیادی بر نظارت بر آنچه مردم از سیستم استفاده می کنند ، می بینیم که چه اتفاقی می افتد ، و سپس به آن واکنش نشان می دهیم. این بدان معنا نیست که وقتی پیش بینی می کنیم ، نباید مشکلات ایمنی را کاهش دهیم. اما بله ، پیش بینی هر آنچه که در واقع اتفاق می افتد وقتی یک سیستم به دنیای واقعی برخورد می کند ، بسیار سخت است.


در ماه ژانویه ، مایکروسافت بینگ چت را فاش کرد ، chatbot جستجو که بسیاری از آنها تصور می کنند نسخه ای از Openai رسماً بدون اعلام GPT-4 است. (Openai می گوید: "بینگ از یکی از مدل های نسل بعدی ما استفاده می شود که مایکروسافت به طور خاص برای جستجو سفارشی شده است. این پیشرفت از ChatGPT و GPT-3.5 را شامل می شود.") استفاده از چت های توسط غول های فنی با اعتبار چند میلیارد دلاری برای محافظت چالش های جدید برای کسانی که وظیفه ساخت مدل های اساسی را دارند. Sandhini Agarwal: Stakes در حال حاضر قطعاً بسیار بالاتر از آنچه که گفته می شود ، شش ماه پیش است ، اما آنها هنوز هم پایین تر از جایی هستند که ممکن است یک سال دیگر باشند. نکته ای که بدیهی است که واقعاً با این مدل ها مهم است ، زمینه ای است که از آنها استفاده می شود. مانند Google و Microsoft ، حتی یک چیز واقعی بودن به چنین مسئله بزرگی تبدیل شده است زیرا منظور آنها موتورهای جستجو هستند. رفتار مورد نیاز یک مدل زبان بزرگ برای چیزی مانند جستجو بسیار متفاوت از چیزی است که فقط به معنای یک چت بابات بازیگوش است. ما باید بفهمیم که چگونه بین این همه کاربردهای مختلف خط را طی می کنیم ، چیزی را ایجاد می کنیم که برای افراد در طیف وسیعی از زمینه ها مفید است ، جایی که ممکن است رفتار مورد نظر متفاوت باشد. این فشار بیشتری می بخشد. از آنجا که ما اکنون می دانیم که ما در حال ساختن این مدل ها هستیم تا آنها به محصولات تبدیل شوند. Chatgpt اکنون محصولی است که API داریم. ما در حال ساختن این فناوری با هدف کلی هستیم و باید اطمینان حاصل کنیم که در همه چیز خوب کار می کند. این یکی از مهمترین چالش هایی است که اکنون با آن روبرو هستیم.


جان شولمن: من دست کم گرفتم که مردم تا چه اندازه در مورد سیاست چتگپ تحقیق و مراقبت می کنند. ما می توانستیم هنگام جمع آوری داده های آموزشی تصمیمات بهتری بگیریم ، که این مسئله را کاهش می داد. ما اکنون روی آن کار می کنیم.


Jan Leike: از دیدگاه من ، چتپ خیلی ناکام است - کارهای زیادی وجود دارد. به نظر نمی رسد که ما این مشکلات را حل کرده ایم. همه ما باید در مورد محدودیت های فناوری برای خودمان و دیگران کاملاً واضح باشیم. منظور من این است که مدلهای زبانی مدتی است که وجود دارد ، اما هنوز روزهای اولیه است. ما در مورد تمام مشکلات آنها می دانیم. من فکر می کنم ما فقط باید بسیار جلو باشیم و انتظارات را مدیریت کنیم و این را روشن کنیم که این یک محصول نهایی نیست.


Comments

Popular Posts