Первые программы глубокого обучения работали не лучше простейших системы, говорит Малик. Да и работать с ним было прихотливым делом. «Управлять нейронными сетями — тонкое искусство. Здесь, видимо, замешана какая-то черная магия», — говорит он. Сетям требуется невероятное количество примеров, чтобы на них учиться — так же, как и младенцу, который собирает информацию об окружающем мире. В 1980-1990 гг. было не очень много цифровой информации, а компьютерам приходилось тратить много времени на обработку даже имеющегося. Немного было и прикладных программ. Одна из них — технология, разработанная Лекуном — сейчас используется банками для считывания рукописных чеков.

Однако на начале 2000-х такие сторонники идеи, как Лекун и его бывший руководитель, ученый компьютерных наук Джофри Хинтон (Geoffrey Hinton) из Университета Торонто, Канада, были убеждены, что прогресс в мощностях компьютеров и рост количества цифровых данных означает, что настало время для новой попытки. «Мы хотели показать миру, что эти глубокие нейронные сети действительно полезны и могут пригодиться», — говорит Джордж Даль (George Dahl), студент Хинтона.

Для начала Хинтон, Даль и некоторые другие ученые взялись за сложную, но коммерчески важную задачу распознавания голоса. В 2009 году исследователи доложили, что после тренировки на классическом наборе данных (три часа записанного и транскрибированного языка), их нейронная сеть глубокого обучения побила рекорд точности в преобразовании произнесенного в печатный текст — рекорд, который держался непоколебимым более десяти лет, пока ученые работали со стандартным подходом на основе правил. Это достижение привлекло внимание главных игроков на рынке смартфонов, говорит Даль, который во время стажировки взял эту технологию в компанию «Микрософт». «За пару лет все перешли на глубокое обучение». Например, цифровой ассистент Siri для iPhone, с которым можно работать в голосовом режиме, также полагается на глубокое обучение.