نسخه‌ای جدید و پیشرفته از مدل زبانی جِمِنای

با خطرناک‌ترین هوش‌مصنوعی جهان آشنا شوید

«دیپ‌تینک» گوگل اخیرا رونمایی شده است؛ مدلی که به‌عنوان نقطه عطفی در نزدیک‌شدن هوش‌مصنوعی به مدل تصمیم‌گیری ذهن انسان محسوب می‌شود.

به گزارش بانک اول شرکت گوگل اخیرا از نسخه‌ای جدید و پیشرفته از مدل زبانی جِمِنای (Gemini) رونمایی کرد که با عنوان «دیپ‌تینک» (Deep Think به معنای تفکر عمیق) شناخته می‌شود.

این نسخه که بر بستر جِمِنای ۲.۵ ساخته شده، به‌عنوان یکی از پیشرفته‌ترین دستاوردهای گوگل در حوزه هوش مصنوعی مولد معرفی شده و در حال حاضر، تنها در اختیار کاربران اشتراک پیشرفته «گوگل اِی‌آی آلترا» (Google AI Ultra) قرار دارد.

هدف اصلی از توسعه دیپ‌تینک، عبور از مرزهای پاسخ‌گویی ساده و ورود به عرصه‌ی «تفکر چندمسیره» و استدلال عمیق در حل مسائل پیچیده است.

ویژگی برجسته: تفکر موازی و چندمسیره؛ شبیه به انسان

دیپ‌تینک برخلاف نسخه‌های معمولی مدل‌های زبانی که روند استدلالی آن‌ها خطی و مرحله‌به‌مرحله است، از معماری جدیدی بهره می‌برد که امکان «تفکر موازی» را فراهم می‌سازد. این ویژگی به مدل اجازه می‌دهد چند مسیر تحلیلی را به‌طور هم‌زمان دنبال کند، فرضیات مختلف را مقایسه و ارزیابی نماید، و در نهایت، با ترکیب اطلاعات متنوع، به پاسخ بهینه‌تری برسد. چنین روندی بسیار شبیه به روش‌های حل مسئله در ذهن انسان است، خصوصاً در مسائل تحلیلی و چندمرحله‌ای مانند ریاضیات، برنامه‌نویسی و منطق.

برای درک بهتر مفهوم «تفکر موازی و چندمسیره»، مدل تصمیم‌گیری انسان را در نظر بگیرید. مثلاً وقتی می‌خواهیم یک لپ‌تاپ بخریم، معمولاً به‌جای آن‌که فقط یک معیار مانند قیمت را بررسی کنیم، هم‌زمان چند عامل را در نظر می‌گیریم: قدرت پردازنده، عمر باتری، وزن، برند، و حتی زیبایی ظاهری. ذهن ما چند مسیر تصمیم‌گیری را به‌طور هم‌زمان طی می‌کند، آن‌ها را با هم مقایسه می‌کند و در نهایت بهترین گزینه را انتخاب می‌کند. این همان چیزی است که در دیپ‌تینک نیز رخ می‌دهد: مدل هوش مصنوعی می‌تواند هم‌زمان چند فرضیه، سناریو یا مسیر تحلیل را در نظر بگیرد، سپس آن‌ها را غربال کند تا به دقیق‌ترین پاسخ برسد.

برای مثال، اگر از این مدل بپرسید «افزایش نرخ دلار چه اثری بر بازار مسکن دارد؟»، یک مدل ساده ممکن است فقط یک مسیر تحلیلی را دنبال کند؛ مثلاً «دلار گران شد، مصالح وارداتی گران شد، ساخت‌وساز گران شد، پس مسکن گران می‌شود». اما دیپ‌تینک می‌تواند چند مسیر موازی را تحلیل کند: اثر تورمی دلار، تغییر رفتار سرمایه‌گذاران، کاهش قدرت خرید مردم، یا سیاست‌های بانکی مرتبط—همگی در یک لحظه. این قابلیت باعث می‌شود خروجی مدل نه‌تنها دقیق‌تر، بلکه متعادل‌تر و قابل‌اتکاتر باشد.

درک هم‌زمان متن، تصویر، صدا و ویدیو در ابعادی بی‌سابقه

یکی از ویژگی‌های خیره‌کننده مدل دیپ‌تینک، توانایی آن در دریافت و پردازش هم‌زمان داده‌های گوناگون است؛ داده‌هایی که می‌توانند متنی، تصویری، صوتی یا حتی ویدیویی باشند. این همان چیزی است که به آن «چندوجهی بودن» یا Multimodal Input می‌گویند. بسیاری از مدل‌های هوش مصنوعی فعلی، مثلاً نسخه‌های قبلی جمنای یا جی‌پی‌تی، در پردازش داده‌های غیرمتنی نیازمند تبدیل آن‌ها به متن یا تحلیل در گام‌های جداگانه بودند. اما دیپ‌تینک می‌تواند همه این نوع داده‌ها را به‌صورت یک‌جا، یکپارچه و هم‌زمان پردازش کند؛ آن‌هم در ابعادی بسیار گسترده.

بر اساس اسناد رسمی منتشرشده توسط گوگل دیپ‌مایند، دیپ‌تینک قادر است تا یک میلیون توکن از داده‌های مختلف را به‌عنوان ورودی دریافت کند. این عدد، به‌زبان ساده، معادل هزاران صفحه متن، یک فیلم سینمایی کامل یا مجموعه‌ای از فایل‌های صوتی، تصویری و نوشتاری است که همگی در یک مرحله توسط مدل تحلیل می‌شوند. برای مقایسه، بسیاری از مدل‌های زبانی فعلی مثل جی‌پی‌تی-4 فقط توان پردازش ۱۲۸ هزار توکن را دارند.

این قابلیت، کاربردهای بسیار متنوعی دارد. مثلاً یک خبرنگار می‌تواند فایل صوتی یک مصاحبه، متن پیام‌های رد و بدل‌شده، عکس‌های صحنه، و حتی ویدیوی کامل گفت‌وگو را به‌صورت یک‌جا به دیپ‌تینک بدهد و از آن بخواهد گزارش کاملی تولید کند. یا یک پزشک می‌تواند هم‌زمان اسکن مغزی، متن پرونده پزشکی، و گزارش آزمایش‌ها را به مدل بدهد تا تحلیلی ترکیبی ارائه دهد.

از سوی دیگر، خروجی دیپ‌تینک نیز کم‌نظیر است: تا ۱۹۲ هزار توکن می‌تواند پاسخ تولید کند، یعنی متنی به اندازه چندین فصل از یک کتاب. این ویژگی، آن را به یکی از قدرتمندترین ابزارهای تولید محتوای متنی، گزارش‌های تحلیلی، داستان‌نویسی پیشرفته یا حتی فیلمنامه‌نویسی خودکار تبدیل می‌کند.

بنابراین، قدرت پردازش هم‌زمان ورودی‌های چندرسانه‌ای در مقیاسی این‌چنین بزرگ، نه‌تنها آن را از سایر مدل‌های هوش مصنوعی متمایز می‌کند، بلکه کاربرد آن را در حوزه‌هایی مانند روزنامه‌نگاری، پزشکی، حقوق، امنیت سایبری و تولید محتوای دیجیتال به‌شدت افزایش می‌دهد.

از چت‌بات به دستیار فکری: عبور از پاسخ‌های ساده به پروژه‌های پیچیده

مدل دیپ‌تینک برخلاف بسیاری از مدل‌های زبانی پیشین، صرفاً برای پاسخ‌گویی به پرسش‌های کوتاه یا تولید متن‌های ساده طراحی نشده است. این مدل با هدف ایفای نقش به‌عنوان «دستیار فکری چندمنظوره» برای انسان توسعه داده شده؛ ابزاری که نه‌تنها به کاربر پاسخ می‌دهد، بلکه می‌تواند در انجام پروژه‌های بزرگ و سنگین، همکاری بلندمدت و حتی مشارکت در تفکر انتقادی و خلاق نقش ایفا کند.

بر اساس اطلاعات رسمی منتشرشده توسط گوگل دیپ‌مایند، دیپ‌تینک از ابتدا با این فرض طراحی شده که کاربران، به‌جای پرسیدن سؤالات ساده، بخواهند فرایندهای پیچیده‌ای مانند طراحی محصول، توسعه نرم‌افزار، نگارش پایان‌نامه، تحلیل پرونده حقوقی یا حل مسائل ترکیبی علمی را با کمک آن انجام دهند. به بیان دیگر، تمرکز این مدل نه صرفاً بر «تولید متن»، بلکه بر «تفکر مسئله‌محور» در همکاری مستمر با انسان است.

برای مثال، کاربری را در نظر بگیرید که قصد نگارش مقاله‌ای علمی در حوزه اقتصاد دارد. او می‌تواند داده‌های آماری، گزارش‌های PDF، جداول اکسل، و حتی صدا یا تصویر را به مدل بدهد و از آن بخواهد ساختار مقاله، فرضیه‌ها، منابع، و نتیجه‌گیری را در چند مرحله پیشنهاد دهد. یا یک تیم مهندسی را تصور کنید که قصد طراحی یک ربات صنعتی دارند: آن‌ها می‌توانند نقشه‌ها، توضیحات عملکردی، محدودیت‌های محیطی، و قطعات استاندارد را وارد مدل کنند و طی چندین روز، با مدل در تعامل بمانند تا به طرح نهایی برسند.

در مجموع، دیپ‌تینک را می‌توان گامی فراتر از چت‌بات‌های کلاسیک دانست؛ مدلی که نه‌تنها پاسخ می‌دهد، بلکه همراهی می‌کند، ایده می‌دهد، ساختار پیشنهاد می‌کند، و مهم‌تر از همه، در پروژه‌هایی با لایه‌های پیچیده و متنوع، از ابتدا تا انتها می‌تواند حضور داشته باشد. این تغییر رویکرد از «پاسخ‌گویی به سؤال» به «مشارکت در مسئله»، نقطه تمایز اصلی نسل جدید مدل‌های هوش مصنوعی است.

خطرناک‌ترین هوش‌مصنوعی جهان با قابلیت ساخت سلاح

با توجه به قدرت پردازشی بالا و کاربردهای احتمالی خطرناک، دیپ‌تینک تحت ارزیابی‌های ایمنی و چارچوب‌های اخلاقی شدید قرار گرفته است. گوگل اعلام کرده که این مدل تحت «چارچوب ایمنی مدل‌های پیشرو» ارزیابی شده و مکانیسم‌های کنترلی خاصی برای جلوگیری از سوءاستفاده در حوزه‌هایی نظیر سلاح‌های شیمیایی، حملات سایبری، یا جعل محتوای حساس در آن تعبیه شده‌اند. این چارچوب ایمینی شامل ارزیابی مداوم درباره سطوح قابلیت‌های بحرانی (CCL) است؛ یعنی قابلیتی که اگر بدون کنترل رها شود، ممکن است به ایجاد خطرات جدی مانند کاربرد در سلاح‌های شیمیایی، بیولوژیک، تهدیدات امنیت سایبری یا سوء استفاده در تحقیقات علوم ماشینی منجر شود.

همچنین احتمال «امتناع مدل از پاسخ‌گویی به درخواست‌های مشکوک یا مبهم» در این نسخه افزایش یافته است.

فعلا دسترسی با حدود 500 دلار!

دیپ‌تینک با اپلیکیشن جمنای تلفیق شده است؛ در این اپلیکیشن، کاربران می‌توانند با فعال‌سازی گزینه‌ای به نام «حالت تفکر عمیق»، از حداکثر ظرفیت‌های دیپ‌تینک استفاده کنند. این حالت برای پروژه‌های طولانی‌مدت طراحی شده که در آن‌ها مدل باید اطلاعات متنوع را دریافت کند، آن‌ها را تحلیل کند، استدلال چندمرحله‌ای انجام دهد، و در طول تعاملات متعدد، حافظه و انسجام موضوعی را حفظ کند.

اما دسترسی کامل به این توانمندی، در حال حاضر منوط به خرید اشتراک پیشرفته جمنای با سطح اولترا است؛ اشتراکی با قیمت حدود ۲۴۹.۹۹ دلار در ماه که نقطه‌ی دسترسی به پیشرفته‌ترین امکانات هوش مصنوعی گوگل است.

چرا دیپ‌تینک فقط برای کاربران اولترا است؟ شیوه‌ عملکرد این مدل مبتنی بر معماری چندعاملی است که چندین «عامل هوش مصنوعی کوچک» را به‌صورت هم‌زمان برای تحلیل مسئله به‌کار می‌گیرد: این یعنی مصرف محاسباتی بالا، زمان استدلال طولانی‌تر و نیاز به زیرساخت سرور پیشرفته‌تر نسبت به نسخه پیشرفته معمولی.

در نتیجه، گوگل این مدل را ابتدا فقط در اختیار کاربران اولترا با منابع مالی بیشتر قرار داده است تا فشار سخت‌افزاری و امنیتی قابل مدیریت باشد.

اگر دیپ‌تینک پس از فاز آزمایشی به‌خوبی عمل کند و پایدار باشد، احتمال دارد گوگل آن را برای کاربران اشتراک پیشرفته یا حتی حساب کاربری رایگان نیز عرضه کند—همان‌طور پیش‌تر برای قابلیت‌های پیشرفته دیگر جمنای و ویژگی‌های تولید تصویر دیده شده است.