مدل زبانی AudioPaLM گوگل از ترکیب PaLM- 2 و AudioLM خلق شده است و میتواند کاربردهای متنوعی داشته باشد.
محققان گوگل (Google) از یک مدل زبانی بزرگ جدید به نام AudioPaLM رونمایی کرده اند که توانایی شنیدن، حرف زدن و ترجمه دارد. این مدل که با دقت بالایی کار می کند، از ترکیب PaLM- 2 و AudioLM خلق شده است.
مدل AudioLM در حفظ اطلاعات زبان آوایی مانند هویت و لحن گوینده عملکرد بالایی دارد. با ترکیب AudioLM با PaLM- 2، مدل AudioPaLM میتواند از تخصص زبانی PaLM- 2 و حفظ اطلاعات زبان آوایی AudioLM استفاده کند تا به درک کامل تری از متن و گفتار دست یابد و بهتر بتواند آنها را خلق کند.
تولید متن و صدا با گوگل AudioPaLM
مدل AudioPaLM از کلمات مشترکی استفاده می کند که میتواند هم گفتار و هم متن را با تعداد محدودی از توکن های مجزا نشان دهد. این ویژگی به مدل زبانی جدید گوگل اجازه می دهد تا وظایفی مانند تشخیص گفتار، تبدیل متن به گفتار و ترجمه گفتار به گفتار را در یک معماری و فرایند آموزش یکپارچه و واحد قرار دهد.
مدل جدید گوگل به خاطر ترکیب دو مدل زبانی می تواند متن و گفتار را پردازش کند یا آنها را بسازد. این موضوع کاربردهای AudioPaLM را افزایش می دهد و میتوان از آن برای کارهایی مانند تشخیص صدا یا تبدیل صدا به متن استفاده کرد.
AudioPaLM ظاهراً در آزمایش ها، درزمینه ترجمه گفتار عملکرد بهتری نسبت به سایر سیستم ها داشته است. این مدل همچنین میتواند گفتار را به متن ترجمه کند و چنین کاری را برای ترکیب های زبانی جدید هم انجام دهد.
مدل زبانی جدید گوگل میتواند صداها را براساس اعلان های گفتاری کوتاه، بین زبان های مختلف جابجا کند. این مدل همچنین قادر است صداهای متفاوت را ضبط و آنها را در زبان های مختلف بازتولید کند.
- 14
- 5