کریس لوت، یکی از محققان هوش مصنوعی در کوالکام، در کنفرانس یادگیری عمیق در بوستون، نگاهی اجمالی به برنامه جدید تشخیص صدای کوالکام کرده است.
برنامهی تشخیص صدای کوالکام بهصورت کلی روی گوشی هوشمند اجرا میشود و شامل دو نوع شبکه عصبی است؛ یک شبکهی عصبی تکرارشونده (Recurrent Neural Network) که از حافظه داخلی برای پردازش ورودیهای دستگاه استفاده میکند و یک شبکه عصبی پیچیده که الگوی ارتباطی بین نورونهای مغز انسان را شبیهسازی میکند. به گفته لوت، این سیستم بهطور متوسط ۹۵ درصد توانایی تشخیص کلمات و عبارات را دارد.
او میگوید:این اپلیکیشن، الگوی استفاده کاربر از گوشی هوشمند را یاد میگیرد؛ بنابراین میتواند رفتار خود را بر اساس رفتار شما شخصیسازی کند و به شما ارائه دهد.
لوت توضیح داد که اکثر سیستمهای تشخیص صدای امروزی بیشتر پردازش خود را در فضای ابری انجام میدهند. این سیستمها شامل میکروفون و تراشه در گوشیها، اسپیکرهای هوشمند خانگی مانند گوگل هوم و آمازون اکو و رایانههای ویندوزی با دستیار کورتانا مایکروسافت برای گوش دادن به کلمات «از پیش تعریفشده مانند «OK Google» و «Hey Cortana» هستند که برای هر کدام از این کلمات، از قبل برنامهریزی شده است و هیچ گونه تجزیه و تحلیلی انجام نمیدهند و پردازش اصلی را به الگوریتمهای قابل اجرا روی سرورهای قدرتمند ابری میسپارند.
بعضی از کاربران نگران حریم خصوصی با انتشار صدای خود در محیط ابری هستند. هر دو سرویس الکسای آمازون و گوگل اسیستنت قبل از ارسال صدا برای تجزیه و تحلیل به فضای ابری، آن را به اجزای کوچکتر تقسیم میکنند و آن را تا زمانی که کاربر تصمیم به حذف بگیرد ذخیره میکنند. هر دو شرکت اعلام کردهاند که از دستورات صوتی استفاده میکنند تا خدمات خود را ارتقاء بدهند و پاسخهای شخصی بیشتری ارائه کنند.
اما در بعضی موارد، ضبط و ذخیرهسازی صدا در سرورهای ابری نگرانیهایی در خصوص حریم خصوصی برای کاربر به ارمغان میآورد. در سال ۲۰۱۶، کارآگاهان در آریزونا برای تحقیق در مورد یک قتل، به دنبال دسترسی به دادههای صوتی اکو آمازون بودند که در نهایت با اجازه متهم، دادههای صوتی به اشتراک گذاشته شدند.
لوت معتقد است علاوه بر حریم خصوصی، پردازش صوتی در دستگاه نیز مزایایی دارد. از آنجایی که لازم نیست دادهها را به محیط ابری بفرستد، فورا به فرمانها پاسخ میدهد و به این دلیل که اتصال به اینترنت نیازی ندارد، بسیار قابل اعتماد است. لوت در این خصوص میگوید: تلاشهای بسیاری در حال انجام است تا یک سیستم مبتنی بر شبکههای عصبی، در سمت کاربر قادر به انجام پردازش باشد. با استفاده از این روش میتوان تعامل با دستگاهها را بسیار طبیعیتر کرد.
سال ۲۰۱۶ گوگل یک سیستم تشخیص صدای آفلاین ایجاد کرد که در آن زمان ۷ برابر سریعتر از سیستم آنلاین بود. این مدل که تقریبا ۲۰۰۰ ساعت دادهی صوتی در بر دارد، دارای حجمی به اندازه ۲۰.۳ مگابایت دقت ۸۶.۵ درصد است که روی تلفن هوشمند مورد استفاده قرار میگیرد.
البته، تشخیص صدا در دستگاه دارای مجموعهای از محدودیتها است. الگوریتمهای طراحیشده برای کار کردن بهصورت آفلاین نمیتوانند به جستجوی پاسخ سؤالات در اینترنت بپردازند و پیشرفتهای سیستمهای مبتنی بر پردازش ابری با مجموعه دادههای متنوع را از دست میدهند.
اما لوت معتقد است که راهکار کوالکام، آینده را در اختیار دارد.او میگوید: بسیاری از موارد در فضای ابری اتفاق میافتد؛ اما ما فکر میکنیم که باید بهطور مستقیم روی دستگاه اتفاق بیفتد.
رامین کمالی
- 12
- 3