این الگوریتم جدید، زبان گوینده را تنها با مشاهده تصویر او تشخیص میدهد!
مارک همیلتون، دانشجوی دکتری مهندسی برق و علوم رایانه در MIT و همکار این پروژه، میگوید: این الگوریتم با استفاده از روشی به نام یادگیری تضادی، بدون نیاز به نمونههای برچسبگذاری شده، صداها و تصاویر را با یکدیگر مقایسه میکند تا الگوهای مهم پیشبینی زبان را کشف کند.
یکی از ویژگیهای منحصربفرد DenseAV این است که برخلاف الگوریتمهای قبلی که صرفاً یک مفهوم شباهت بین صدا و تصویر را در نظر میگرفتند، این الگوریتم تمام ارتباطات ممکن بین هر ثانیه از صدا و هر پیکسل از تصویر را بررسی میکند. این روش ریزبینانه به DenseAV اجازه میدهد ارتباط دقیقتری بین کلمات و اشیا برقرار کند.
محققان DenseAV را روی مجموعه داده AudioSet که شامل ۲ میلیون ویدیوی یوتیوب است، آموزش دادند. آنها همچنین مجموعه دادههای جدیدی را برای ارزیابی عملکرد الگوریتم در پیوند دادن صداها و تصاویر ایجاد کردند. در این آزمایشها، DenseAV عملکرد بهتری نسبت به سایر الگوریتمهای برتر در شناسایی اشیا از روی نامها و صداها داشت.
دیوید هاروث، استاد علوم رایانه در دانشگاه تگزاس آستین که در این پروژه مشارکت نداشته است، میگوید: شناسایی و جداسازی اشیا بصری در تصاویر، همچنین صداهای محیطی و کلمات گفته شده در ضبط صوتی، هر کدام مسائل دشواری در حوزه خود هستند. محققان سنتی برای آموزش مدلهای یادگیری ماشین به منظور انجام این وظایف، به برچسبگذاری پرهزینه انسانی متکی بودهاند. DenseAV پیشرفت قابل توجهی در توسعه روشهایی است که میتوانند با صرفاً مشاهده جهان از طریق بینایی و شنوایی، این وظایف را به طور همزمان یاد بگیرند.
کاربردهای بالقوه این الگوریتم گسترده است. از جستجوی چندرسانهای گرفته تا یادگیری زبانهای جدید و رباتیک. محققان امیدوارند با استفاده از DenseAV بتوانند زبانهایی را که تاکنون از دسترس انسانها دور ماندهاند، مانند زبان دلفینها و نهنگها را درک کنند.
در مجموع، DenseAV گامی بزرگ در زمینه یادگیری زبان توسط ماشینها محسوب میشود. این الگوریتم با الهام از نحوه یادگیری کودکان، میتواند بدون هیچگونه داده متنی از پیش آموزش دیده، معنای زبان را کشف کند. این دستاورد میتواند منجر به پیشرفتهای چشمگیری در زمینههای مختلف از جمله جستجوی مالتیمدیا، یادگیری زبانهای جدید و رباتیک شود.
این مطلب از سایت ایتنا گردآوری شده است.
منبع: ایتنا