به گزارش ایسنا و به نقل از تک تایمز، معمولا انسان ها قادرند تا یک صدا را حتی در میان شلوغی نیز تشخیص دهند اما تاکنون این توانایی در رایانه های موجود متدوال نبوده است.
کافی است در یک مهمانی یا یک مکان پراز سر و صدا با دستیار صوتی گوشی هوشمند خود صحبت کنید تا عدم توانایی گوشی برای تفکیک صدا را مشاهده کنید.
در همین راستا گوگل یک راه حل شگفت آور ارائه داده است و محققان آن یک سیستم عمیق یادگیری تولید کردهاند که میتواند با تماشای چهره مردم به هنگام صحبت کردن، صدای آن ها را تشخیص داده و بیاید.
این تیم تحقیقاتی در ابتدا مدل " شبکه عصبی " این فناوری را به نحوی طراحی کردند که بتواند افرادی که با خودشان در حال صحبت کردن هستند را تشخیص دهد، سپس این مدل را به یک "مهمانی مجازی" تغییر داده و در پیش زمینه آن صداهای گوناگونی را افزود.
هدف از ایجاد " مهمانی مجازی " این بود که به بخش "هوش مصنوعی" (AI) سیستمم آموزش داده شود که چگونه چند صدای مختلف را به آهنگ های صوتی مجزا مبدل سازد.
این سیستم به نحوی طراحی شده است که حتی اگر فرد با دستانش صورت خود را بپوشاند، باز هم بتواندصدای فرد را تشخیص دهد.
گوگل اخیرا به دنبال کاوش فرصت ها است تا بتواند از این سیستم در محصولات و فناوریهای خود استفاده کند.
به عنوان مثال این سیستم برای سرویس های "چت ویدئویی" یک امکان ایده آل محسوب می شود زیرا به کاربر این امکان را می دهد که حتی اگر با فردی که در یک اتاق شلوغ است، در حال گفت و گو است، بتواندبه راحتی صدای وی را تشخیص دهد.
این سیستم همچنین می تواند برای افزایش کیفیت صدا به هنگام ضبط ویدئو نیز مفید باشد.
- 17
- 5