AgentKit مجموعهای کامل از ابزارها برای توسعهدهندگان و سازمانها است که امکان ساخت، استقرار و بهینهسازی عاملها (Agents) را فراهم میکند.
تا پیشازاین، ساخت عاملها به معنای کار با ابزارهای پراکنده بود: ارکستراسیون پیچیده بدون نسخهبندی، اتصالدهندههای سفارشی، فرایندهای دستی ارزیابی، تنظیم پرامپتها و هفتهها زمان برای پیادهسازی رابط کاربری پیش از انتشار.
با AgentKit، توسعهدهندگان اکنون میتوانند جریانهای کاری را بهصورت بصری طراحی کنند و رابطهای کاربری عاملمحور را سریعتر در محصولات خود پیادهسازی کنند؛ از جمله:
Agent Builder: یک بوم بصری برای ساخت و نسخهبندی جریانهای چند عامله
Connector Registry: مرکزی متمرکز برای مدیریت نحوهی اتصال دادهها و ابزارها در محصولات OpenAI
ChatKit: جعبهابزاری برای افزودن تجربهی گفتوگومحورِ قابل سفارشیسازی در محصولات
همچنین قابلیتهای ارزیابی با ویژگیهای جدید گسترش پیدا کرده است، ازجمله مجموعه دادهها (Datasets)، ارزیابی مسیرها (Trace Grading)، بهینهسازی خودکار پرامپتها، و پشتیبانی از مدلهای شخص ثالث برای اندازهگیری و بهبود عملکرد عاملها.
از زمان انتشار Responses API و Agents SDK، شاهد ساخت جریانهای کاری کامل عاملمحور توسط توسعهدهندگان و سازمانها برای پژوهش عمیق، پشتیبانی مشتری و موارد دیگر بودهایم.
بهعنوان نمونه، شرکت Klarna عاملی ساخته که دو سوم درخواستهای پشتیبانی را به طور خودکار پاسخ میدهد، و شرکت Clay با عامل فروش خود رشد دهبرابری تجربه کرده است.
AgentKit بر پایهی Responses API ساخته شده تا توسعهی عاملها را کارآمدتر و مطمئنتر کند.
طراحی جریانهای کاری با Agent Builder
با پیچیدهتر شدن جریانهای عاملها، توسعهدهندگان به دید شفافتری از نحوهی عملکردشان نیاز دارند.
Agent Builder یک بوم بصری در اختیار شما میگذارد که امکان ساخت منطق با نودهای کشیدنی (Drag & Drop)، اتصال ابزارها و پیکربندی گاردریلهای سفارشی را فراهم میکند. این ابزار از اجرای آزمایشی، تنظیم ارزیابی درونخطی، و نسخهبندی کامل پشتیبانی میکند و برای تکرار سریع ایدهآل است.

در شرکت Ramp، تیم توسعه توانست فقط طی چند ساعت از یک بوم خالی به یک عامل خرید کامل برسد:
«Agent Builder کاری را که قبلاً ماهها ارکستراسیون پیچیده، کدنویسی سفارشی و بهینهسازیهای دستی میطلبید، به چند ساعت کاهش داد. بوم بصری این ابزار باعث شد تیمهای محصول، حقوقی و فنی همگی در یک مسیر مشترک حرکت کنند، چرخههای تکرار را تا ۷۰٪ کاهش دهند و بهجای دو فصل کاری، عامل را تنها در دو اسپرینت به مرحلهٔ اجرا برسانند.»
بهطور مشابه، شرکت LY Corporation (از پیشروان فناوری و خدمات اینترنتی ژاپن) در کمتر از دو ساعت با استفاده از Agent Builder یک عامل دستیار کاری ساخت:
«Agent Builder به ما امکان داد عاملها را به شیوهای کاملاً جدید ارکستره کنیم؛ بهطوری که مهندسان و متخصصان حوزه در یک رابط واحد با هم همکاری میکردند. ما نخستین گردش کار چند عاملهٔ خود را ساختیم و در کمتر از دو ساعت آن را اجرا کردیم؛ کاری که زمان ساخت و استقرار عاملها را به شکل چشمگیری کاهش داد.»
همچنین، Connector Registry را معرفی میکنیم که ابزاری برای سازمانها جهت مدیریت و حفظ دادهها در چند محیط کاری است. Connector Registry همهی منابع داده را در یک صفحهی مدیریتی واحد برای ChatGPT و API یکپارچه میکند.
این رجیستری شامل همهی اتصالدهندههای ازپیشساختهشده مانند Dropbox، Google Drive، SharePoint، Microsoft Teams است و همچنین از MCPهای شخص ثالث پشتیبانی میکند.
توسعهدهندگان همچنین میتوانند Guardrails (لایهی ایمنی متنباز و ماژولار) را در Agent Builder فعال کنند تا از رفتار ناخواسته یا مخرب عاملها جلوگیری شود.
میتواند اطلاعات شخصی (PII) را پنهان یا علامتگذاری کند، تلاشهای Jailbreak را تشخیص دهد و محافظتهای دیگری اعمال کند. این قابلیت امکان ساخت و استقرار عاملهایی ایمن و قابلاعتماد را سادهتر میکند و میتواند بهصورت مستقل یا از طریق کتابخانهٔ Guardrails برای Python و JavaScript استفاده شود.
افزودن تجربهی عاملهای گفتوگومحور با ChatKit
راهاندازی رابطهای گفتوگویی برای عاملها اغلب پیچیده است. از مدیریت پاسخهای زنده و نمایش تفکر مدل گرفته تا طراحی تجربهی گفتوگو.
ChatKit این فرایند را ساده میکند: میتوانید عاملهای گفتوگومحور را که با محصول شما یکپارچه و هماهنگاند بهراحتی در برنامهها یا وبسایتها اضافه کنید و ظاهرشان را با سبک یا برند خود تنظیم نمایید.

ChatKit در حال حاضر در موارد گوناگونی به کار میرود - از دستیارهای دانشی داخلی و راهنماهای ورود کارکنان گرفته تا عاملهای پشتیبانی مشتری و پژوهشگرهای هوش مصنوعی. عامل پشتیبانی مشتری HubSpot یکی از نمونههای آن است.
ارزیابی عملکرد عاملها با قابلیتهای جدید Evals
ساخت عاملهای قابلاعتماد برای محیطهای واقعی نیازمند ارزیابی دقیق عملکرد است. سال گذشته، ابزار Evals برای آزمودن پرامپتها و سنجش رفتار مدل معرفی شده است.
اکنون چهار قابلیت جدید به آن اضافه شده تا ارزیابیها آسانتر و دقیقتر شوند:
Datasets: امکان ساخت سریع مجموعه ارزیابیهای عامل محور و گسترش تدریجی آنها با استفاده از ارزیابهای خودکار و یادداشتهای انسانی.
Trace grading: اجرای ارزیابیهای کامل بر جریانهای عاملمحور و تشخیص خودکار نقاط ضعف.
Automated prompt optimization (بهینه سازی خودکار پرامپتها): تولید پرامپتهای بهینهشده بر پایهی بازخورد انسانی و نتایج ارزیابها
Third-party model support (پشتیبانی از مدلهای شخص ثالث): امکان ارزیابی مدلهای ارائهدهندگان دیگر در بستر OpenAI Evals
پیش از این نیز شاهد بهبودهای قابلتوجهی در عملکرد عاملها از سوی مشتریانی بودهایم که از Evals استفاده کردهاند.
شرکت Carlyle:
«پلتفرم ارزیابی، زمان توسعهی چارچوب چندعاملی بررسی صلاحیت ما را بیش از ۵۰٪ کاهش داد و دقت عامل را ۳۰٪ افزایش داد.»
افزایش عملکرد عاملها با (Reinforcement Fine-Tuning) RFT
RFT به توسعهدهندگان اجازه میدهد مدلهای استدلالی را برای نیازهای خود سفارشی کنند. این قابلیت اکنون برای OpenAI o4-mini در دسترس عموم است و برای GPT-5 در نسخهی آزمایشی خصوصی قرار دارد.
امروز، دو ویژگی جدید در نسخهٔ بتای RFT معرفی میکنیم که عملکرد عاملها را بیش از پیش تقویت میکند:
فراخوانی ابزارهای سفارشی (Custom tool calls): آموزش مدلها برای فراخوانی ابزار مناسب در زمان مناسب، جهت بهبود استدلال
ابزارهای سفارشی (Custom graders): تعریف معیارهای ارزیابی سفارشی بر اساس نیازهای خاص هر کاربر.
قیمتگذاری و دسترسی
ChatKit و قابلیتهای جدید Evals برای همهی توسعهدهندگان در دسترس عموم هستند.
Agent Builder در نسخه بتا ارائه شده و Connector Registry نیز به تدریج برای برخی از مشتریان API، ChatGPT Enterprise و Edu با Global Admin Console در حال عرضه است (جایی که مالکان جهانی میتوانند دامنهها، SSO و چند سازمان API را مدیریت کنند). کنسول مدیریت جهانی پیشنیاز فعالسازی Connector Registry است. تمام این ابزارها با قیمتهای استاندارد مدلهای API ارائه میشوند.











