در ایتالیا ۱۲۰ دانش آموز دبیرستانی به حل مشکلی با قدمتی تاریخی کمک کردند: اینکه چگونه پژوهشگران به کتابخانههای مخفی واتیکان دسترسی پیدا کنند.
مجموعهی عظیمی از اسناد در واتیکان وجود دارد که جزئیات فعالیتهای واتیکان از قرن هشت به بعد را نشان میدهد. قفسههای کتابخانههای مخفی واتیکان دارای طولی حدود ۸۵ کیلومتر است و حاوی ۳۵۰۰۰ جلد کاتالوگ است. اما اسنادی که پژوهشگران اسکن و آپلود کردهاند کمتر از یک اینچ ضخامت دارد. در این جا از اسناد رونویسی شده قابل جستجو توسط کامپیوتر خبری نیست. علت آن است که بهنظر میرسد واتیکان تمایلی به اشتراک گذاری این اطلاعات نداشته است. البته آنها توانایی انجام چنین کاری را هم ندارند؛ حتی نرم افزار OCR (نرم افزار تشخیص نوری حروف) نیز نمیتواند بهسادگی از پس نامنظمیهای موجود در متون دست نویس برآید. بنابراین اگر پژوهشگران بخواهند این اسناد را ببینند، چارهای ندارند جز اینکه شخصا کتابخانهها را بازدید کنند (با فرض این که واتیکان اجازه دسترسی آنها به این متون را صادر کند).
در حال حاضر گروهی از پژوهشگران دانشگاه روما تری در ایتالیا پروژهای برای حل این مشکل دارند و از هوش مصنوعی برای رونویسی از این اسناد استفاده میکنند. مطالعهی آنها در ژورنال ERCIM News منتشر شده است.
مشکل این است که عملکرد کامیپوتر در خواندن دستنوشتهی انسان چندان خوب نیست. بنابراین نخستین مرحله در پروژه این بود که دانش آموزان خوانده دستنوشته را به کامپیوتر آموزش دهند (Training). دانشآموزان با استفاده از یک برنامهی کامپیوتری آنلاین تهیهشده توسط پژوهشگران، باید به این پرسش پاسخ میدادند که آیا یک حرف دستنوشته که از دو صفحهی نمونهبرداریشده از اسناد واتیکان، با حالتهای مختلف یک حرف که توسط خطشناسان (افرادی که خطوط قدیمی را مطالعه میکنند) تایید شده است، هم خوانی دارد یا نه.
برای نمونه، یک دانش آموز با دیدن یک سری از M های نوشته شده با دست که توسط کارشناسان تایید شده بود، باید بررسی میکرد چه چیزی در متون شبیه این حرف M است. اگر آن حرف شبیه M بود به آن رای مثبت داده میشد و در غیر این صورت رای منفی. اگر بهاندازهی کافی رای مثبت جمع میشد، آن حرف دستنوشته یک برچسب میخورد: مثلا تایید میشد که حرف M است. کار این ۱۲۰ دانش آموز برای آموزش دادهها، فقط چند ساعت زمان برد.
اما هوش مصنوعی نیاز با آموزش بیشتری هم داشت. پژوهشگران در مرحلهی بعد برای آموزش هوش مصنوعی بهمنظور شناسایی حروف دست نوشته از روشی بهنام jigsaw segmentation استفاده کردند. آنها به جای نگریستن به دستنوشته بهعنوان یک سری از کلمات، یا حتی ترکیبی از حروف، بهدنبال خطوط اضافی مربوط به دستنوشتهها بودند؛ مثلا کشیدگی انتهای حروف که توسط نویسندهی دستنوشته انجام شده است. روش کار به این صورت بود که مثلا دستنوشتهی M شبیه یک حرف نبود، بلکه شبیه سه خط کنار هم بود. بر اساس آنچه از بخش آموزش توسط دادههای دانشآموزان به دست آمده بود، این علامات میتوانست حرف M یا نشانهی III باشد (عدد سه). پژوهشگران برای کمک به هوش مصنوعی در خواندن این علامتها، آن را با یک مجموعهی ۱/۵ میلیون کلمهای از زبان لاتین تغذیه کردند؛ زبانی که این متنها بر اساس آن نوشته شده بود. در ادامه با کمک این اطلاعات، میتوانستند تعیین کنند که قرار گرفتن سه خط در کنار هم در جایی از متن، احتمالا نشاندهندهی یک M است و نه III. دلیل چنین برداشتی هم این است که وجود نماد III در میان حروف یک کلمهی لاتین دور از ذهن مینماید.
زمانی که پژوهشگران هوش مصنوعی را با چهار صفحه از نسخههای واتیکانی مورد آزمایش قرار دادند، ۶۵ درصد از کلمات به درستی رونویسی شد. پژوهشگران بر این باورند که رونوشتهای ایجادشده بهاندازهای دقیق هستند که میتوانند پایهای قابل اطمینان برای خطشناسان مهیا کنند تا آنها بتوانند فرآیند رونوشتبرداری خود را سریعتر پیش ببرند. دانشمندان در پی بهبود بخشیدن به این سیستم هستند. این موضوع بهویژه زمانی اهمیت خود را بیشتر نشان میدهد که واتیکان تنها اجازهی در اختیار داشتن سه سند در روز را برای افراد محفوظ داشته است. بنابراین پژوهشگران از این راه میتوانند بررسی کنند که کدام اسناد بیشتر بهکارشان میآید و تصمیم به بررسی همان موارد بگیرند.
اگر از همهی موارد دسترس رونوشتبرداری شود، شاید پژوهشگران کل دنیا نهایتا بتوانند کل این مجموعه را با کلمات کلیدی مورد جستجو قرار دهند و اسناد حاوی آن واژههای کلیدی را شناسایی و سپس اجازهی مشاهده آن سند را دریافت کنند؛ یا اینکه حتی شاید بتوانند اطلاعاتی درمورد این اسناد بهدست آورند؛ بدون اینکه نیاز باشد که به واتیکان سفر کنند.
- 13
- 2