
هوش مصنوعی AuidoPaLM گوگل چیست؟
هوش مصنوعی AudioPaLM گوگل به تازگی رونمایی شده است و توانایی شنیدن، صحبت و ترجمه را دارد.

به گزارش خبرنگار پایگاه خبری لوازم خانگی ایران «ال کا ایران»، در ماه گذشته هوش مصنوعی AudioPalm توسط شرکت گوگل رونمایی شد. AudioPalm گوگل با توانایی شنیدن، صحبت کردن و ترجمه کردن یکی از هوش مصنوعیهای اخیر این شرکت است.این مدل زبانی بزرگ از ترکیب PaLM-2 و AudioLM ساخته شده است.
محققان گوگل مدل زبانی بزرگی را با نام AudioPaLM معرفی کردند که قابلیت تبدیل متن به گفتار (TTS)، شناسایی خودکار گفتار (ASR) و ترجمه گفتار به گفتار (S2ST) با انتقال صدا را دارد. AudioPaLM بر اساس مدل زبانی بزرگ PaLM-2 ساخته شده و در بررسی های ترجمه، عملکرد بهتری نسبت به Whisper ساخته OpenAI را نشان داده است.
AudioPaLM چگونه کار میکند؟
AudioPaLM نام یک مدل هوش مصنوعی است که برای دو کاربرد اصلی طراحی شده است: ترجمه صوت به صوت (یعنی تبدیل گفتار یک زبان به زبان دیگر) و تشخیص خودکار گفتار (یعنی تبدیل گفتار به متن).
مدل AudioPaLM بر اساس مدل پیشآموزش داده شدهی PaLM-2 ساخته شده است. در AudioPaLM با ماتریس جاسازی (یک جدول خاص که هر توکن متنی را به یک نمایش عددی متناظر میکند) کار میکند. این توکنهای صوتی واحدهای کوچک صوتی هستند که میتوانند از آنها برای ساخت یک قطعه صوتی استفاده کنیم.
این ماتریس جاسازی به گونهای گسترش یافته است تا بتواند “توکنهای صوتی” را هم در بر گیرد. توکنهای صوتی واحدهای کوچک هستند، مانند حروف الفبا در کلمه. این توکنهای صوتی میتوانند با هم ترکیب شوند تا یک قطعه صوتی کامل بسازند، تقریباً مشابه حروفی که با هم ترکیب میشوند تا یک کلمه یا جمله بسازند.
با این تغییر، مدل میتواند هم توکنهای متنی و هم توکنهای صوتی را دریافت کند. سپس مدل میتواند این توکنها را “رمزگشایی” یا تبدیل کنند به یک خروجی متنی یا صوتی کند.
در نهایت، توکنهای صوتی رمزگشایی شده میتوانند با استفاده از مراحل بعدی مدل AudioLM به صوت خام تبدیل شوند. بنابراین، مدل AudioPaLM میتواند گفتار را به متن تبدیل کند، متن را به گفتار تبدیل کند، یا حتی گفتار را به گفتار دیگر تبدیل کند (مثلاً با تغییر لهجه یا صدای سخنگو). این عملکرد بسیار پیچیده است.
ترکیب هوش مصنوعیهای قدرتمند
مهندسان گوگل هوش مصنوعی AudioPaLM را به عنوان جدیدترین هوش مصنوعی شرکتشان معرفی کردند. همانطور که گفته شد از AudioPaLM از ترکیب دو مدل قدیمیتر گوگل یعنی AudioLM و PaLM-2 خلق شده است. حال مزیتهای این دو هوش مصنوعی را در اختیار خود دارد.
مدل AudioLM در تقلید صدا، حفظ لهجه و تن صدای موردنظر عمل میکند، حال با ترکیب هوش مصنوعی AudioPaLM گوگل خلق شده که برای درک بهتر متون و گفتارها از PaLM-2 استفاده میکند.
طبق گزارشات هوش مصنوعی AudioPaLM از تمام سیستمهای موجود در ترجمه گفتاری بهتر عمل خواهد کرد. این هوش مصنوعی توانایی باز تولید صدا دارد یعنی اینکه میتواند صداهای متفاوتی را از زبانهای گوناگون ذخیره و به زبان دیگری تولید کند.
نحوه استفاده از هوش مصنوعی گوگل
در حال حاضر این هوش مصنوعی فقط رونمایی شده و هنوز به طور رسمی راه اندازی نشده است، اما اگر نسخه نهایی منتشر شد مانند هوش مصنوعی bard میتوانید از سایت آن استفاده کنید.
صحبت با هوش مصنوعی گوگل یکی از سرگرم کنندهترین کارها است. شما در حال حاضر میتوانید از گوگل بارد هوش مصنوعی استفاده کنید، گوگل بارد یک هوش مصنوعی مانند ChatGPT مبتنی بر متن است.
انتهای پیام/