الگوریتم شناسایی چهره در هوش مصنوعی

محققان دانشگاه دوک ابزاری در حوزه هوش مصنوعی تهیه و تولید کرده اند که می تواند تصاویر مبهم و غیر قابل تشخیص چهره افراد را به پرتره هایی کاملاً قانع کننده و شفاف تبدیل کند که با کامپیوترها تولید شده اند، با جزئیاتی دقیق تر از هرزمان.

ببخشید ، هوش مصنوعی چیه ؟

پاسخ از آتوسا اسلامی

هوشی که به سیستم ها داده شده و با هوش انسانی در رقابته و باعث میشه سیستم ها رفتارایی شبیه به رفتارای هوشمند انسانی داشته باشن مثه درک شرایط پیچیده، شبیه‌سازی فرایندهای تفکری و شیوه‌های استدلالی انسانی و پاسخ موفق به اونا، در ضمن اونا قدرت یادگیری و توانایی کسب دانش و استدلال برای حل مسایل را دارن.

روش هایی که تا قبل از این متد وجود داشته اند، می توانستند تصویری از یک چهره را به هشت برابر وضوح و رزولوشن اصلی آن برسانند. اما تیم دوک راهی پیدا کرده است که بتواند تعداد انگشت شماری از پیکسل ها را بگیرد و چهره هایی واقعی و شفاف با حداکثر ۶۴ برابر وضوح و رزولوشن تصویر اصلی ایجاد کند؛ ویژگی های قابل تصور مانند خطوط ریز صورت ، مژه ها ، ته ریش و … را که در ابتدا در عکس اصلی وجود نداشتند!

سینتیا رودین سرپرست گروه دوک و دانشمند و متخصص رایانه گفت: “تا به حال هرگز تصاویری با این رزولوشن و وضوح فوق العاده و با این میزان جزییات ایجاد نشده بودند.”

از نظر محققان ، این سیستم برای شناسایی افراد مورد استفاده قرار نمی گیرد. درواقع این سیستم یک عکس غیر متمرکز و غیرقابل تشخیص از یک دوربین امنیتی را به تصویری شفاف از یک فرد واقعی تبدیل نمی کند و در عوض ، قادر به ایجاد چهره های جدیدی است که وجود ندارند ، اما کاملا واقعی به نظر می رسند.

واضح کردن عکس های تار

طبق گفته های “ساشیت منون” که به تازگی از دانشگاه دوک، به طور همزمان از دو رشته ریاضیات و علوم کامپیوتر فارغ التحصیل شده است، در حالی که محققان روی چهره‌ها به عنوان اثباتی از این مفهوم و سیستم متمرکز شده اند، میتوان گفت این تکنیک می تواند عکس هایی با وضوح پایین از تقریبا هر چیزی دریافت کند و تصاویری واضح و واقعی به وجود آورد. این قابلیت کاربردهای فراوانی دارد از کاربرد در پزشکی و ذره بینی (microscopy) گرفته تا نجوم و تصویرسازی ماهواره ای.

طبق برنامه ریزی ها قرار است از ۱۴ تا ۱۹ ژوئن امسال، محققان، این سیستم را با نام PULSE (نبض) در کنفرانس چشم انداز رایانه و تشخیص الگو (CVPR) Computer Vision and Pattern Recognition 2020 که بصورت مجازی برگزار میشود، معرفی کنند.

 

چه فرقی با الگوریتم های مشابه خود دارد؟

رویکردهای سنتی، یک تصویر با وضوح پایین را دریافت کرده و حدس می زنند که چه تعداد پیکسل‌های اضافی برای افزایش وضوح تصویر لازم است. و اینکار را با تلاش برای تطابق تقریبی پیکسل ها با پیکسل های متناظر در تصاویر با وضوح بالا که رایانه قبلاً دیده و ثبت کرده است، انجام میدهد. در نتیجه استفاده از این روش، نواحی بافتی در مو و پوست فرد ممکن است بطور کامل و صحیح از یک پیکسل تصویر به انتهای بعدی نرسند و در نتیجه تصویر نهایی درهم و نامعلوم باشند.

تیم دوک رویکردی متفاوت را ارائه داد. به جای دریافت یک تصویر با وضوح پایین در ورودی و افزودن تدریجی جزئیات جدید، سیستم، نمونه چهره‌ها با رزولوشن بالا که توسط هوش مصنوعی ایجاد شده اند را جستجو می کند و به جستجوی چهره ها و عکس هایی می پردازد که در صورت کوچک شدن به همان اندازه و رسیدن به کیفیت پایین، تا حد امکان مانند تصویر ورودی به نظر می رسند.

این تیم از ابزاری برای یادگیری ماشین (Machine Learning) به نام “شبکه مخالف مولد – generative adversarial network ” یا GAN استفاده کرده‌اند که درواقع دو شبکه عصبی هستند که در رابطه با همان مجموعه داده های تصویری آموزش دیده اند.

یک شبکه با چهره های انسانی ایجاد شده توسط هوش مصنوعی ساخته شده است که از چهره هایی که در آن آموزش دیده اند، الگوبرداری می کند ، در حالی که شبکه دیگر، خروجی شبکه اول را گرفته و تصمیم می گیرد که آیا به اندازه کافی قانع کننده است که با انسان واقعی اشتباه گرفته شود یا نه. شبکه اول با تجربه و یادگیری بهتر و بهتر می شود ، تا جاییکه شبکه دوم نتواند تفاوت بین خروجی شبکه اول را با انسان واقعی تشخیص دهد.

میشه بیشتر راجب MACHINE LEARNING بدونم؟

پاسخ از آتوسا اسلامی

واقعیت اینه که تعریف واحدی براش وجود نداره! اما برای اینکه یکم دید بگیریم، میشه گفت الگوریتم‌هایی که می‌تونن از داده‌های مشاهده شده [البته طبیعتاً نه هر داده‌ای!] یاد بگیرن و براساس اون‌ها پیش‌بینی انجام بدن! به زبان ساده تر علمی که به کامیپوترها توانایی یادگیری میده!

رودین اظهار کرد، PULSE می تواند تصاویری واقعی‌ای از ورودی هایی شلوغ و بی کیفیت ایجاد کند. بطوری که هیچ یک از سایر روش ها این توانایی را ندارند. تنها از یک تصویر تار یک چهره می تواند تعداد نامحدودی از احتمالات و ویژگی های نامعلوم را تولید کند، که هرکدام به شکلی ماهرانه مانند یک شخص متفاوت به نظر می رسند.

طبق گفته های الکس دامیان ریاضیدان دوك، حتی اگر ورودی، عکس های خیلی بی کیفیت و پیکسلی باشد که چشم ها و دهان در آنها به سختی قابل تشخیص است، با این حال الگوریتم ما بازهم میتواند خروجی مناسبی از آن بگیرد و این کاری است که رویکردهای قدیمی از پس انجام آن برنمی آیند.

این سیستم می تواند در عرض چند ثانیه، تصویر یک چهره با وضوح ۱۶×16 پیکسل را به تصویری با رزولوشن 1024×1024 پیکسل تبدیل کند و بیش از یک میلیون پیکسل به عکس اضافه کرده و آن را معادل رزولوشن HD میکند. جزئیاتی از قبیل منافذ پوست، چین و چروک و موها نازک که در عکسهای کم کیفیت غیرقابل مشاهده و نامحسوس هستند ،در نسخه های تولید شده توسط رایانه واضح و شفاف می شوند.

روند وضوح عکس های تار

محققان از ۴۰ نفر خواستند كه ۱۴۴۰ تصویر تولید شده توسط PULSE را همزمان با ۵ متد از دیگر تیم ها از ۱ تا ۵ امتیازدهی کنند. نتیجه ی تست، PULSE را به عنوان بهترین اعلام کرد و تقریبا تمام عکس های تولید شده توسط PULSE به اندازه عکس های با کیفیت بالا از انسان های واقعی امتیاز آوردند.

اگر علاقمند به تست این سیستم و بارگزاری عکس های خود هستید به این لینک سر بزنید.