فناوری

هوش مصنوعی AuidoPaLM گوگل چیست؟

هوش مصنوعی AudioPaLM گوگل به تازگی رونمایی شده است و توانایی شنیدن، صحبت و ترجمه را دارد.

امیر علی وحیدی | 11 ماه قبل

به گزارش خبرنگار پایگاه خبری لوازم خانگی ایران «ال کا ایران»، در ماه گذشته هوش مصنوعی AudioPalm توسط شرکت گوگل رونمایی شد. AudioPalm گوگل با توانایی شنیدن، صحبت کردن و ترجمه کردن یکی از هوش مصنوعی‌های اخیر این شرکت است.این مدل زبانی بزرگ از ترکیب PaLM-2 و AudioLM ساخته شده است.

محققان گوگل مدل زبانی بزرگی را با نام AudioPaLM معرفی کردند که قابلیت تبدیل متن به گفتار (TTS)، شناسایی خودکار گفتار (ASR) و ترجمه گفتار به گفتار (S2ST) با انتقال صدا را دارد. AudioPaLM بر اساس مدل زبانی بزرگ PaLM-2 ساخته شده و در بررسی های ترجمه، عملکرد بهتری نسبت به Whisper ساخته OpenAI را نشان داده است.

AudioPaLM چگونه کار می‌کند؟

 

هوش مصنوعی AudioPaLM

 

AudioPaLM نام یک مدل هوش مصنوعی است که برای دو کاربرد اصلی طراحی شده است: ترجمه صوت به صوت (یعنی تبدیل گفتار یک زبان به زبان دیگر) و تشخیص خودکار گفتار (یعنی تبدیل گفتار به متن).

مدل AudioPaLM بر اساس مدل پیش‌آموزش داده شده‌ی PaLM-2 ساخته شده است. در AudioPaLM با ماتریس جاسازی (یک جدول خاص که هر توکن متنی را به یک نمایش عددی متناظر می‌کند) کار می‌کند. این توکن‌های صوتی واحدهای کوچک صوتی هستند که می‌توانند از آن‌ها برای ساخت یک قطعه صوتی استفاده کنیم.

این ماتریس جاسازی به گونه‌ای گسترش یافته است تا بتواند “توکن‌های صوتی” را هم در بر گیرد. توکن‌های صوتی واحدهای کوچک هستند، مانند حروف الفبا در کلمه. این توکن‌های صوتی میتوانند با هم ترکیب شوند تا یک قطعه صوتی کامل بسازند، تقریباً مشابه حروفی که با هم ترکیب می‌شوند تا یک کلمه یا جمله بسازند.

با این تغییر، مدل می‌تواند هم توکن‌های متنی و هم توکن‌های صوتی را دریافت کند. سپس مدل می‌تواند این توکن‌ها را “رمزگشایی” یا تبدیل کنند به یک خروجی متنی یا صوتی کند.

در نهایت، توکن‌های صوتی رمزگشایی شده می‌توانند با استفاده از مراحل بعدی مدل AudioLM به صوت خام تبدیل شوند. بنابراین، مدل AudioPaLM می‌تواند گفتار را به متن تبدیل کند، متن را به گفتار تبدیل کند، یا حتی گفتار را به گفتار دیگر تبدیل کند (مثلاً با تغییر لهجه یا صدای سخنگو). این عملکرد بسیار پیچیده است.

ترکیب هوش مصنوعی‌های قدرتمند

گوگل Ai

 

مهندسان گوگل هوش مصنوعی AudioPaLM را به عنوان جدیدترین هوش مصنوعی شرکتشان معرفی کردند. همانطور که گفته شد از AudioPaLM از ترکیب دو مدل قدیمی‌تر گوگل یعنی AudioLM و PaLM-2 خلق شده است. حال مزیت‌های این دو هوش مصنوعی را در اختیار خود دارد.

مدل AudioLM در تقلید صدا، حفظ لهجه و تن صدای موردنظر عمل می‌کند، حال با ترکیب هوش مصنوعی AudioPaLM گوگل خلق شده که برای درک بهتر متون و گفتارها از PaLM-2 استفاده می‌کند.

طبق گزارشات هوش مصنوعی AudioPaLM از تمام سیستم‌های موجود در ترجمه گفتاری بهتر عمل خواهد کرد. این هوش مصنوعی توانایی باز تولید صدا دارد یعنی اینکه می‌تواند صداهای متفاوتی را از زبان‌های گوناگون ذخیره و به زبان دیگری تولید کند.

نحوه استفاده از هوش مصنوعی گوگل

در حال حاضر این هوش مصنوعی فقط رونمایی شده و هنوز به طور رسمی راه اندازی نشده است، اما اگر نسخه نهایی منتشر شد مانند هوش مصنوعی bard می‌توانید از سایت آن استفاده کنید.

صحبت با هوش مصنوعی گوگل یکی از سرگرم کننده‌ترین کارها است. شما در حال حاضر می‌توانید از گوگل بارد هوش مصنوعی استفاده کنید، گوگل بارد یک هوش مصنوعی مانند ChatGPT مبتنی بر متن است.

انتهای پیام/

نظر شما چیست؟