به گزارش سرویس بین الملل پایگاه خبری عدل البرز به نقل از techxplore، تیم کوچکی از محققان هوش مصنوعی در مؤسسه محاسبات هوشمند، از طریق ویدئوهایی که ایجاد کردهاند، یک برنامه هوش مصنوعی جدید را معرفی می نند که میتواند از عکس چهره یک فرد و صدای فردی که صحبت میکند یا میخواند، استفاده کند. و یک نسخه متحرک از فردی که مطلبی را صحبت می کند یا آهنگی می خواند را ایجاد کند.
محققان قبلی برنامههای هوش مصنوعی را نشان دادهاند که میتوانند عکس یک چهره را پردازش کرده و از آن برای ایجاد یک نسخه نیمه متحرک استفاده کنند.
در این اقدام جدید، این تیم با افزودن صدا، قدمی فراتر گذاشته است. آنها این کار را بدون استفاده از مدل های سه بعدی یا حتی نقاط مشخصه چهره انجام داده اند.
این تیم از مدلسازی انتشار مبتنی بر آموزش هوش مصنوعی بر روی مجموعه دادههای بزرگ فایلهای صوتی یا تصویری استفاده کرده است. در این مثال، این تیم تقریباً ۲۵۰ ساعت از چنین دادههایی را برای ایجاد برنامه خود استفاده کرده و آن را Emote Portrait Alive (EMO) نامیده اند.
با تبدیل مستقیم شکل موج صوتی به فریمهای ویدئویی، محققان اپلیکیشنی را ایجاد کردند که ژستهای ظریف چهره انسان، ویژگیهای عجیب و غریب گفتار و سایر ویژگیهایی را که تصویر متحرک یک چهره را شبیه به انسان تشخیص میدهد، ثبت میکند. ویدئوها اشکال دهانی را که برای تشکیل کلمات و جملات استفاده میشوند، همراه با عباراتی که معمولاً با آنها مرتبط می شوند را بازسازی میکنند.
این تیم ویدیوهای متعددی را ارسال کرده که عملکردهای بسیار دقیقی را که تولید کردهاند را نشان میدهد، و مدعی ست که نسبت به دیگر برنامههای کاربردی، در رابطه با واقعگرایی و بیان، بهتر عمل میکنند. آنها همچنین خاطرنشان کرده اند که طول ویدیوی نهایی با طول آهنگ صوتی اصلی تعیین می شود. در ویدیوها، تصویر اصلی در کنار آن شخص نشان داده می شود که با صدای شخصی که در آهنگ اصلی ضبط شده، صحبت می کند یا می خواند.
این تیم معتقد است که استفاده از چنین برنامهای نیاز به محدود کردن یا نظارت خواهد داشت تا از استفاده غیر اخلاقی از چنین فناوریهایی جلوگیری شود.
پایان پیام/





















