شنبه ۲۹ دی ۱۴۰۳
۰۸:۴۲ - ۲۶ اردیبهشت ۱۳۹۶ کد خبر: ۹۶۰۲۰۶۱۴۲
فناوری اطلاعات و ارتباطات

تماشا کردن از نگاه کامپیوتر

سیستم تشخیص چهره چگونه کار می‏کند؟

اخبار دیجیتال,خبرهای دیجیتال,اخبار فناوری اطلاعات,بینایی کامپیوترها

درک دنیای بصری برای انسان‏ها آنقدر ساده است که تقریبا تمامی عکس‏العمل‏های ما نسبت به محیط بصری اطراف به‏صورت ناخودآگاه انجام می‏گیرد. وقتی چیزی را می‏بینیم، اغلب اوقات برای تشخیص آن نیازی به مطالعه (ذهنی) نداریم. اما این مساله در مورد کامپیوترها بسیار پیچیده است. تشخیص چهره انسان از دیگر اجسام و موجودات محیط، برای کامپیوترها یک مشکل بسیار بزرگ محسوب می‏شود.

 

علاوه‌بر این، حل این مساله نیز نیازمند تلاش و هزینه بسیار بالایی خواهد بود. امروزه تکنولوژی تشخیص چهره و بینایی کامپیوتر از اصلی‏ترین نیازهای علم و صنعت به‏شمار می‏آیند. پیشرفت بسیاری از تکنولوژی‏های امروزی از جمله خودروهای بدون راننده، نرم‏افزارهای تشخیص چهره، کارخانه‏های هوشمند که بتوانند وجود خطا و ناهماهنگی در خط تولید را تشخیص دهند و نرم‏افزارهایی که به شرکت‌های بیمه امکان پردازش و دسته‏بندی اتوماتیک اسناد را بدهند، همگی به پیشرفت سیستم تشخیص تصویر و بینایی کامپیوتر بستگی دارند.

 

تعلیم بینایی به کامپیوتر سخت و پرهزینه است

یکی از راه‏های موثر برای حل این مشکل به‏کارگیری فراداده‏ها برای دیتاهای بدون ساختار است. شاید استخدام یک متخصص برای طبقه‏بندی و جداسازی آرشیو فیلم‏ها از آرشیو موسیقی کمی سخت به‏نظر برسد اما به‏کارگیری همین افراد متخصص برای آموزش سیستم مسیریابی یک خودروی بدون راننده جهت تشخیص عابرین پیاده از دیگر خودروها یا شناسایی، دسته‏بندی و فیلترکردن تصاویر روزانه میلیون‏ها کاربر شبکه‏های اجتماعی تقریبا غیرممکن است.

 

بنابراین اولین راه‏حل این مشکل استفاده از شبکه‏ های عصبی است. با اینکه از لحاظ تئوریک استفاده از شبکه‏ های نورونی مرسوم جهت تحلیل تصاویر ممکن است، اما از لحاظ عملی و محاسباتی بسیار پرهزینه خواهد بود. برای مثال تحلیل یک تصویر نسبتا کوچک (۵۰ × ۵۰ پیکسل) نیازمند ۹۰۰ داده ورودی و بیش از نیم میلیون پارامتر خواهد بود. شاید انجام این کار برای ماشین‏های محاسباتی امکان‏پذیر باشد اما زمانی که بخواهیم تصاویر بزرگ‌تر (۵۰۰ × ۵۰۰ پیکسل) را تحلیل و پردازش کنیم، تعداد ورودی و شبکه ‏های نورونی مورد نیاز برای انجام این کار تقریبا غیرقابل شمارش خواهد بود.

 

چاره چیست؟

خوشبختانه با اعمال یکسری تغییرات در ساختار شبکه‏ های عصبی، می‏توان تصاویر بزرگ‌تر را نیز پردازش کرد. این نوع شبکه‏های عصبی تغییر یافته را «شبکه‏ های عصبی پیچیده» (CNNs) می‏نامند. یکی از مزایای شبکه‏های عصبی، کاربردپذیری آنها در مصارف مختلف است؛ اما پس از به‏کارگیری آنها در پردازش تصاویر می‏بینیم که این مزیت به یک مشقت تبدیل می‏شود. اما با طراحی شبکه‏های عصبی مختص پردازش تصاویر، می‏توانیم این ماموریت غیرممکن را تا حدی ممکن بسازیم.

 

یکی از مزیت‏های شبکه‏های عصبی پیچیده، تشخیص دو پیکسل مجاور یکدیگر به‌عنوان دو پیکسل مرتبط است به همین دلیل برای پردازش پیکسل‏های مجاور از یک سلول عصبی استفاده می‏شود. به بیان فنی‏تر، شبکه‏ های عصبی پیچیده با فیلتر و تلفیق پیکسل‏های مجاور در تصاویر، پردازش تصاویر از لحاظ حجم محاسباتی را تا حد زیادی کاهش می‏دهند.

 

این در حالی است که در شبکه‏های عصبی معمولی برای پردازش هر پیکسل از یک سلول عصبی استفاده می‏شود که همین مساله یکی از دلایل اصلی افزایش تعداد نورون‏های عصبی مورد نیاز برای پردازش تصویر خواهد بود. ناگفته نماند که افزایش تعداد نورون‏های عصبی موجب افزایش بار محاسباتی و درنتیجه کاهش دقت در محاسبات خواهد شد.

 

شبکه‏ های عصبی پیچیده به جای اتصال هر ورودی به یک نورون، با محدود کردن روابط بین پیکسل‏های تصاویر، هر نورون را مسوول پردازش یک دسته از پیکسل‏ها می‏کند (۳×۳ یا ۵×۵ پیکسل برای هر نورون). به این ترتیب، هر نورون مسوولیت پردازش بخش کوچکی از تصویر را به عهده می‏گیرد. این ساختار کم و بیش به ساختار عصبی نورون‏های مغز که در آن هر سلول عصبی مسوولیت پاسخگویی به بخش خاصی از بدن را به عهده می‏گیرند، شباهت‏هایی دارد.

 

ساختار درونی شبکه‏ های عصبی

فیلترینگ پیکسل‏ها چگونه انجام می‏گیرد؟ راز انجام این کار در اضافه شدن دو لایه جدید به این شبکه عصبی است: لایه‏های درهم پیچیده و لایه‏های ادغام کننده. در پایین مراحل پردازش را به‏طور کامل شرح داده‏ایم. این مراحل در اصل به یک شبکه عصبی طراحی شده برای تشخیص اینکه یک زن سالخورده در تصاویر وجود دارد یا خیر، مربوط می‏شود. قدم اول مربوط به لایه درهم پیچیده است که این قدم خود شامل چند مرحله مجزا می‏شود.

 

ابتدا تصویر یک پیرزن را به یکسری قطعات ۳×۳ پیکسلی تبدیل می‏کنیم. در قدم بعدی هریک از این قطعات را برای پردازش به درون یک نورون عصبی تک لایه می‌فرستیم. سپس مقادیر خروجی را به شکلی که از لحاظ عددی محتوای قسمت خاصی از تصاویر را معرفی می‏کنند، دسته‏بندی می‏کنیم. هر پیکسل وظیفه تعریف ارتفاع، طول و رنگ (سه بعد مختلف) را برعهده دارد. بنابراین در این مورد، هر قطعه تعریفی ۳×۳×۳ خواهد داشت. در ضمن برای پردازش ویدئوها، بُعد زمان نیز درنظر گرفته می‏شود.

 

حال نوبت به لایه ادغام‌کننده می‏رسد که این دسته‏های سه‏بعدی یا چهار بعدی را دریافت کرده سپس آنها را به دسته‏هایی با سایز و ابعاد کوچک‌تر تبدیل می‏کند. محصول به‏دست آمده، دسته‏های ادغام شده‏ای هستند که تنها شامل بخش‏های با اهمیت می‏شوند و بخش‏های مشابه به یکدیگر و کم‏اهمیت حذف شده‏اند. این مرحله موجب کاهش حجم محاسبات تا بیشترین حد ممکن خواهد شد.

 

در مرحله پایانی، دسته‏ های تغییر سایز یافته (کوچک شده) را به‌عنوان ورودی برای شبکه‏ های عصبی استفاده می‏کنیم. از آنجایی که سایز داده‏های ورودی در مرحله اول و دوم تاحد قابل‌توجهی کاهش داده شد، شبکه‏های عصبی معمولی هم می‏توانند بدون هیچ دردسری این داده‏ها را پردازش کنند. خروجی‏های به‏دست آمده از این مرحله پایانی نشاندهنده مقدار کارآیی سیستم در تشخیص تصاویر فرد سالخورده داخل تصاویر خواهد بود.

 

به‏ کارگیری شبکه‏ های عصبی

ساخت شبکه‏ های عصبی پیچیده ممکن است زمان‏بر و بسیار پرهزینه باشد. ناگفته نماند که اخیرا رابط‏های برنامه‏ نویسی مختلفی برای سازمان‏ها طراحی شده‏اند که به آنها امکان پردازش و تشخیص چهره را بدون نیاز به سیستم بینایی کامپیوتر شخصی یا تخصص در بخش یادگیری ماشینی می‏دهد. در پایین مهم‏ترین برنامه‏های کاربردی در این بخش را برایتان نام برده‏ایم.

 

Google Cloud Vision: این محصول شرکت گوگل که برپایه فریم‏ورک TensoFlow و رابط برنامه‏ نویسی REST عمل می‏کند، قادر است اشیا و چهره افراد را تشخیص دهد. این رابط می‏تواند با استفاده از موتور جست‌وجوی تصویری گوگل، تصویر مشابه به یکدیگر در سراسر وب را جست‌وجو و پیدا کند.

 

IBM Watson Visual Recognition: این برنامه که به‌عنوان بخشی از پروژه Watson Developer Cloud شناخته می‏شود، از امکانات پیش‏فرض خوب و کارآمدی برخوردار است. این برنامه نیز همچون رابط کاربری گوگل از سیستم OCR و تشخیص NSFW برخوردار است. Clarif.ai می‏گوید: این سرویس تازه‏ وارد به عرصه تشخیص تصاویر است که از رابط برنامه نویسی REST نیز پشتیبانی می‏کند. یکی از نکات جالب این برنامه، پشتیبانی از ماژول‏های مختلفی است که می‏توانند در ساخت الگوریتم‏هایی که قابلیت تشخیص شرایط مختلف از جمله جشن عروسی، مسافرت و غذا و رستوران را دارند، کمک کنند.

 

با اینکه این رابط‏های برنامه‏نویسی و طراحی برای کاربردهای عمومی مناسب هستند، اما برای انجام وظایف تخصصی احتمالا به تهیه تجهیزات و دستگاه‏های حرفه‏ای نیاز خواهد بود. خوشبختانه کتابخانه‏های الکترونیکی امروزی با ارائه دیتاها به‏صورت از پیش محاسبه و بهینه شده، کار را برای دانشمندان امروزی بسیار آسان کرده‏اند و متخصصان می‏توانند بدون نیاز به محاسبه و پردازش گام به گام داده‏ها، با خیال راحت روی آموزش مدل‏ها تمرکز کنند. بسیاری از این مراکز از جمله TensorFlow، DeepLearning4J، Torch و Theano سال‌ها است که با موفقیت و در زمینه‏های مختلف مورد استفاده قرار می‏گیرند.

 

 

 

donya-e-eqtesad.com
  • 17
  • 3
۵۰%
همه چیز درباره
نظر شما چیست؟
انتشار یافته: ۰
در انتظار بررسی:۰
غیر قابل انتشار: ۰
جدیدترین
قدیمی ترین
مشاهده کامنت های بیشتر
هیثم بن طارق آل سعید بیوگرافی هیثم بن طارق آل سعید؛ حاکم عمان

تاریخ تولد: ۱۱ اکتبر ۱۹۵۵ 

محل تولد: مسقط، مسقط و عمان

محل زندگی: مسقط

حرفه: سلطان و نخست وزیر کشور عمان

سلطنت: ۱۱ ژانویه ۲۰۲۰

پیشین: قابوس بن سعید

ادامه
بزرگمهر بختگان زندگینامه بزرگمهر بختگان حکیم بزرگ ساسانی

تاریخ تولد: ۱۸ دی ماه د ۵۱۱ سال پیش از میلاد

محل تولد: خروسان

لقب: بزرگمهر

حرفه: حکیم و وزیر

دوران زندگی: دوران ساسانیان، پادشاهی خسرو انوشیروان

ادامه
صبا آذرپیک بیوگرافی صبا آذرپیک روزنامه نگار سیاسی و ماجرای دستگیری وی

تاریخ تولد: ۱۳۶۰

ملیت: ایرانی

نام مستعار: صبا آذرپیک

حرفه: روزنامه نگار و خبرنگار گروه سیاسی روزنامه اعتماد

آغاز فعالیت: سال ۱۳۸۰ تاکنون

ادامه
یاشار سلطانی بیوگرافی روزنامه نگار سیاسی؛ یاشار سلطانی و حواشی وی

ملیت: ایرانی

حرفه: روزنامه نگار فرهنگی - سیاسی، مدیر مسئول وبگاه معماری نیوز

وبگاه: yasharsoltani.com

شغل های دولتی: کاندید انتخابات شورای شهر تهران سال ۱۳۹۶

حزب سیاسی: اصلاح طلب

ادامه
زندگینامه امام زاده صالح زندگینامه امامزاده صالح تهران و محل دفن ایشان

نام پدر: اما موسی کاظم (ع)

محل دفن: تهران، شهرستان شمیرانات، شهر تجریش

تاریخ تاسیس بارگاه: قرن پنجم هجری قمری

روز بزرگداشت: ۵ ذیقعده

خویشاوندان : فرزند موسی کاظم و برادر علی بن موسی الرضا و برادر فاطمه معصومه

ادامه
شاه نعمت الله ولی زندگینامه شاه نعمت الله ولی؛ عارف نامدار و شاعر پرآوازه

تاریخ تولد: ۷۳۰ تا ۷۳۱ هجری قمری

محل تولد: کوهبنان یا حلب سوریه

حرفه: شاعر و عارف ایرانی

دیگر نام ها: شاه نعمت‌الله، شاه نعمت‌الله ولی، رئیس‌السلسله

آثار: رساله‌های شاه نعمت‌الله ولی، شرح لمعات

درگذشت: ۸۳۲ تا ۸۳۴ هجری قمری

ادامه
نیلوفر اردلان بیوگرافی نیلوفر اردلان؛ سرمربی فوتسال و فوتبال بانوان ایران

تاریخ تولد: ۸ خرداد ۱۳۶۴

محل تولد: تهران 

حرفه: بازیکن سابق فوتبال و فوتسال، سرمربی تیم ملی فوتبال و فوتسال بانوان

سال های فعالیت: ۱۳۸۵ تاکنون

قد: ۱ متر و ۷۲ سانتی متر

تحصیلات: فوق لیسانس مدیریت ورزشی

ادامه
حمیدرضا آذرنگ بیوگرافی حمیدرضا آذرنگ؛ بازیگر سینما و تلویزیون ایران

تاریخ تولد: تهران

محل تولد: ۲ خرداد ۱۳۵۱ 

حرفه: بازیگر، نویسنده، کارگردان و صداپیشه

تحصیلات: روان‌شناسی بالینی از دانشگاه آزاد رودهن 

همسر: ساناز بیان

ادامه
محمدعلی جمال زاده بیوگرافی محمدعلی جمال زاده؛ پدر داستان های کوتاه فارسی

تاریخ تولد: ۲۳ دی ۱۲۷۰

محل تولد: اصفهان، ایران

حرفه: نویسنده و مترجم

سال های فعالیت: ۱۳۰۰ تا ۱۳۴۴

درگذشت: ۲۴ دی ۱۳۷۶

آرامگاه: قبرستان پتی ساکونه ژنو

ادامه
ویژه سرپوش