Машина-победитель

Наделить компьютеры способностью видеть для ученых оказалось мало: они хотели посмотреть на результат стандартизированных тестов. Малик помнит, как Хинтон спросил его: «Вы не верите в успех. Как вас убедить?» Малик ответил, что, возможно, его убедит победа в международном соревновании «ImageNet».

В данном соревновании команда обучает компьютерную программу примерно на 1 миллионе изображений, к каждому из которых проставлена категория. После подготовки, программы проверяют — смогут ли они самостоятельно причислить к определенной категории изображения, которые до того им не показывали. Для каждого из новых изображений дается пять попыток; если правильного ответа среди этих пяти нет, то тест считается проваленным. Ранее победители обычно допускали двадцать пять процентов ошибок. В 2012 году лаборатория Хинтона стала первым победителем, который использовал принцип глубокого обучения. Количество ошибок в них составляла лишь пятнадцать процентов.

«Глубокое обучение превзошло всех», — говорит Лекун, который не был членом этой команды. Для Хинтона эта победа дала работу в «Google» и компания использовала программу для улучшения поиска изображений в «Google+» в мае 2013 года.

Малик был потрясен до глубины души. «В науке надо доверять четким доказательствам, и здесь доказательства были удивительно четкими», — говорит он. С тех времен он адаптировал технологию, чтобы побить рекорд в другом соревновании по распознаванию изображений. Многие другие ученые тоже пошли его путем: в 2013 году все участники «ImageNet» использовали системы глубокого обучения.

В распознавании изображений и прямой речи — полный триумф. Вместе с этим растет интерес к использованию принципов глубокого обучения в распознавании естественных языков — то есть в способности понимать человеческое общение настолько хорошо, чтобы, например, пересказывать его другими словами или отвечать на вопросы — и переводе с одного языка на другой. И опять-таки здесь уже есть реализованные примеры на написанных в виде машинного кода правилах и статистическом анализе известного текста. Самым совершенным примером подобной технологии можно считать «Google Translate», который может выдавать вполне понятные варианты (хотя иногда и смешные), однако даже и близко не такие хорошие, как человек-переводчик. «Глубокое обучение позволит сделать кое-что гораздо лучшее современной практики в этой области», говорит эксперт по краудсорсингу Луис фон Ахн (Luis von Ahn), чья компания «Duolingo» из Питтсбурга, штат Пенсильвания, зависит именно от переводчиков-людей, а не компьютеров. «Единственное, с чем соглашаются все — это то, что самое время попробовать что-нибудь по-другому».