فناوری

توانایی‌های نویدبخش مدل هوش مصنوعی «GPT 5.2»

شرکت «اوپن‌ای‌آی» روز پنجشنبه از عرضه مدل هوش مصنوعی «GPT 5.2» خبر داد و خاطرنشان کرد که این مدل دارای توانایی‌های قابل توجهی در بسیاری از زمینه‌ها خواهد بود.

به گزارش ایران مگ، در بحبوحه رقابت شدید با شرکت‌هایی مانند «گوگل»، «سم آلتمن»(Sam Altman)، مدیرعامل شرکت «اوپن‌ای‌آی»(OpenAI) در تلاش همه‌جانبه برای تسریع عرضه یک مدل جدید، «کد قرمز» صادر کرد. اکنون مدل هوش مصنوعی GPT 5.2 رسماً عرضه شده است و افراد کنجکاو در حال بررسی توانایی‌های آن برای به‌روزرسانی طراحی مدل‌های پیشرفته و کارهایی هستند که مدل‌های زبانی بزرگ می‌توانند برای ما انجام دهند.

به نقل از فوربس، سخنگوی اوپن‌ای‌آی در اطلاعیه رسمی این مدل که روز پنجشنبه منتشر شد، با اشاره به عملکرد نسخه 5.2 در معیارهای SWE-Bench و آزمایش‌های ARC توضیح داد: این مدل در ایجاد صفحات گسترده، ساخت ارائه‌ها، نوشتن کد، درک تصاویر، درک متن‌های طولانی، استفاده از ابزارها و مدیریت پروژه‌های پیچیده و چندمرحله‌ای بهتر عمل می‌کند.

اوپن‌ای‌آی در قسمتی از این اطلاعیه اظهار کرد که پلتفرم‌های هوش مصنوعی «نوشن»(Notion)، «باکس»(Box)، «شاپیفای»(Shopify)، «هاروی»(Harvey) و «زوم»(Zoom) شاهد برتری GPT 5.2 در عملکرد پیشرفته استدلال بلندمدت بوده‌اند، «دیتابریکس»(Databricks)، «هکس»(Hex) و «تریپل ویل»(Triple Whale) از کار ماهرانه آن در علوم داده عاملی و وظایف تحلیل اسناد خوششان آمده است و «کاگنیشن»(Cognition)، «رپ»(Warp)، «چارلی لبز»(Charlie Labs)، «جت‌برینز»(JetBrains) و «اوگمنت کد»(Augment Code) شاهد عملکرد عالی این مدل در کدنویسی عاملی بوده‌اند.

اعضای اوپن‌ای‌آی توضیح دادند که نسخه 5.2 را به منظور کمک به وظایف حرفه‌ای رایج و فراهم کردن ارزش اقتصادی بیشتر برای کاربران ایجاد کرده‌اند. با آنچه یکی از منتقدان انتزاع قوی‌تر، تعادل و پاسخ‌های راهبردی واضح‌تر و واقع‌گرایانه‌تر و اطلاعات مفهومی عمیق‌تر نامیده است، این مدل می‌تواند روی وظایفی مانند جداول سرمایه و برنامه‌ریزی نیروی کار تمرکز کند. این منتقد خاطرنشان کرد نسخه 5.2 برای وظایفی که نیاز به درجه بالایی از قابلیت‌های تحلیلی یا استدلال ریاضی دارند، عالی است.

از نظر ارزش، یک نظرسنجی سازمانی روی GPT اوپن‌ای‌آی نشان داد که مدل‌های پیشین چیزی حدود ۴۰ تا ۶۰ دقیقه در روز برای کاربران حرفه‌ای صرفه‌جویی می‌کنند و انتظار می‌رود صرفه‌جویی 5.2 در زمان از این مقدار هم بیشتر باشد.

علاوه بر آزمون‌های SWE و ARC، روش‌های مشخص دیگری نیز برای بررسی تکامل مدل وجود دارد. اوپن‌ای‌آی در اوایل سال جاری، مفهوم GDPVal را برجسته کرد و از ایده تولید ناخالص داخلی برای توضیح نقش مدل‌های زبانی بزرگ در کسب‌وکار بهره برد. این شرکت اظهار کرد: ارزیابی‌های پیشین هوش مصنوعی مانند آزمون‌های دانشگاهی چالش‌برانگیز و چالش‌های رقابتی کدنویسی در پیشبرد مرزهای قابلیت‌ استدلال مدل ضروری بوده‌اند، اما اغلب در نوع وظایفی که بسیاری از افراد در کار روزمره خود انجام می‌دهند، کم می‌آورند. ما برای پر کردن این شکاف، در حال توسعه ارزیابی‌هایی هستیم که قابلیت‌های واقع‌بینانه‌تر و مرتبط با اقتصاد را بررسی می‌کنند.

تقریباً به نظر می‌رسد که این کد به ‌طور ویژه برای ChatGPT 5.2 نوشته شده و این همان چیزی است که اعضای شرکت درباره قدرت این مدل تبلیغ می‌کنند. این کد، دامنه کاربرد مشخصی دارد. GDPVal مجموعه‌ای از ۴۴ شغل در ۹ صنعت برتر مؤثر در تولید ناخالص داخلی آمریکا را به همراه ۱۳۲۰ وظیفه تخصصی پوشش می‌دهد.

بخش دیگری از آنچه اوپن‌ای‌آی درباره بررسی گسترده معیارهای GDPVal و کاربردی بودن آن در مقایسه با سایر معیارها می‌گوید، به این شرح است: GDPval هم از نظر واقع‌گرایی و هم از نظر تنوع وظایف مورد ارزیابی، متمایز است. برخلاف سایر ارزیابی‌های مرتبط با ارزش اقتصادی که بر حوزه‌های ویژه تمرکز دارند، GDPval وظایف و مشاغل زیادی را پوشش می‌دهد و برخلاف معیارهایی که شامل ایجاد مصنوعی وظایف به سبک یک امتحان یا آزمون دانشگاهی هستند، GDPval بر وظایف مبتنی بر نتایج قابل تحویل تمرکز می‌کند که یک کار یا محصول واقعی هستند یا یک محصول کاری مشابه به شمار می‌روند.

یکی دیگر از پیشرفت‌هایی که کاربران درباره نسخه 5.2 به آن اشاره می‌کنند، مربوط به یادگیری ماشینی کلاسیک است که مهندسان در آن توانایی یک برنامه را برای هم‌گرایی یا ادغام اطلاعات به روشی هدفمند بررسی کردند. روش‌های بسیاری برای فکر کردن درباره این موضوع وجود دارد؛ از تحلیل چگونگی درک داده‌های بصری توسط یک ارگانیسم بیولوژیکی گرفته تا توجه به این که چگونه تغییرات ابعادی بر نتیجه توجه یک شبکه عصبی تأثیر می‌گذارند، اما برخی از کاربران اولیه ادعا می‌کنند نسخه 5.2 در هم‌گرایی، انسجام و هدف قرار دادن نتیجه‌ای که منطقی است، بهتر عمل می‌کند. برخی از انسان‌ها نیز در این زمینه بهتر از دیگران هستند.

این موارد تنها بخشی از نکات شنیده‌شده درباره GPT 5.2 هستند و مطمئنا به‌روزرسانی‌های بسیاری برای آن ارائه خواهد شد.

irannmag.ir

Source link

تیم تحریریه ایران مگ

تیم تحریریه irannmag.ir مجموعه‌ای از نویسندگان، پژوهشگران و تولیدکنندگان محتواست که با رویکردی حرفه‌ای، تلاش می‌کنند جدیدترین و دقیق‌ترین اطلاعات را در حوزه‌های مختلف در اختیار مخاطبان قرار دهند. ما با تکیه بر اصول شفافیت، دقت و آگاهی‌رسانی، محتوایی قابل اعتماد و خواندنی تولید می‌کنیم تا تجربه‌ای ارزشمند برای همراهان ایران‌مگ رقم بزنیم.

نوشته های مشابه

دکمه بازگشت به بالا