گوگل اخیراً از پروژهای به نام Project Astra رونمایی کرده است که چشمانداز آیندهی دستیارهای هوش مصنوعی را به کلی تغییر میدهد. تا پیش از این، ما با هوش مصنوعی چت میکردیم (متن) یا صحبت میکردیم (صوت)، اما حالا هوش مصنوعی «میبیند» و «به یاد میآورد».
چرا این خبر برای عموم جذاب است؟
تصور کنید عینک هوشمندی به چشم دارید یا دوربین گوشی خود را روشن میکنید و هوش مصنوعی دقیقاً مثل یک انسان که کنار شما ایستاده، محیط را درک میکند.
ویژگیهای حیرتانگیز این مدل:
حافظه دیداری (Visual Memory):
شاید برایتان پیش آمده باشد که کلیدهای خود یا عینکتان را گم کرده باشید. در دموهای این پروژه، کاربر دوربین گوشی را در اتاق میچرخاند و مدتی بعد از هوش مصنوعی میپرسد: «عینک من را کجا دیدی؟» هوش مصنوعی با یادآوری تصاویری که چند دقیقه پیش دیده بود، دقیقاً میگوید: «عینک شما روی میز کنار سیب قرمز بود.»
درک بلادرنگ و سریع (Real-time Reasoning):
این مدل مکثهای طولانی ندارد. شما میتوانید دوربین را به سمت پنجره بگیرید و بپرسید «اینجا کجاست؟» و هوش مصنوعی با تحلیل ساختمانها و خیابانها (مثلاً محله کینگز کراس در لندن) فوراً پاسخ میدهد.
حل مسائل پیچیده با نگاه کردن:
کاربر میتواند دوربین را روی یک دیاگرام کدنویسی یا یک مسئله ریاضی روی تخته وایتبرد بگیرد و هوش مصنوعی بدون نیاز به تایپ کردن صورت مسئله، راه حل را توضیح میدهد یا کد را اصلاح میکند.
شخصیت و لحن طبیعی:
صدای این هوش مصنوعی دیگر رباتیک و خشک نیست. او میتواند با هیجان صحبت کند، لحن طنز داشته باشد و مکالمهای کاملاً طبیعی با شما برقرار کند.
این تکنولوژی چگونه زندگی روزمره را تغییر میدهد؟
کمک به نابینایان: این سیستم میتواند چشمان دوم افراد کمبینا یا نابینا باشد و مدام محیط را برایشان توصیف کند («الان داری به یک پله نزدیک میشی»، «چراغ راهنمایی قرمز شد»).
سفر و گردشگری: در یک کشور خارجی، کافیست دوربین را سمت منوی رستوران بگیرید تا هم ترجمه کند و هم بگوید کدام غذا تند است یا مواد تشکیلدهندهاش چیست.
تعمیرات خانگی: میتوانید دوربین را سمت موتور ماشین خراب بگیرید و بپرسید: «اون صدای عجیب از کجاست و چطور درستش کنم؟» و هوش مصنوعی مرحله به مرحله راهنماییتان کند.
این قابلیتها بخشی از مدل جدید Gemini 1.5 Pro گوگل هستند. البته شرکت OpenAI (سازنده ChatGPT) نیز همزمان مدل GPT-4o را معرفی کرد که قابلیتهای صوتی و تصویری بسیار مشابهی دارد و میتواند احساسات انسان را از روی چهره تشخیص دهد
.