Под машинным обучением в большинстве случаев мы имеем в виду проекты, которые помогают что-либо предсказать. Эти технологии основаны на предыдущем опыте. Поэтому машинное обучение в общем смысле — это современные методы прикладной математической статистики, которые существуют уже давно. Машинное же обучение стало возможным, когда были созданы большие массивы информации, которые можно объединять, выстраивая на их основе гипотезы и прогнозы. Президент ВЭО России, президент Международного Союза экономистов Сергей Бодрунов и основатель и руководитель компании Big Data Team Алексей Драль обсудили перспективы развития машинного обучения.
По материалам программы «Промышленный клуб»
Бодрунов: На каком этапе развития находятся технологии машинного обучения? Они ведь сейчас чрезвычайно актуальная вещь. Где сегодня уже успешно они применяются?
Драль: Задача машинного обучения, которую мы можем и должны сегодня решать, — это задача автоматизации. Если посмотреть на историю, то в 1996–1997 годах прошли первые соревнования по шахматам компьютера IBMDeepBlueпротив Гарри Каспарова. Тогда машины вышли на тот уровень, когда могли считать гораздо лучше, чем человек. Это был первый уровень автоматизации. И далее мы стали свидетелями того, как в ряде сфер машина научилась заменять человека, решая человеческие задачи. Возьмем, например, анализ текста — машина научилась понимать, что написано в этом тексте. Очевидно, что слово «понимать» — дискуссионное.
Бодрунов: Да, вопрос в том, что машина может понимать: контент, заложенный смысл или фразу с ее расшифровкой.
Драль: В этой области была решена задача извлечения фактов из текста. Это 2011 год, после чего началось последующее продвижение. Далее — это анализ изображений. В 2015 году построили алгоритм, который позволяет видеть то, что изображено на картинках, но, опять же, нужно делать скидку на условность определения слова «видеть». Скорее, машина отвечает на вопросы с точки зрения анализа изображения: есть ли на нем кот, тигр и т.д.
Бодрунов: Это сейчас используется очень часто для того, чтобы отличить робота от человека. Это опция в некоторых приложениях, которая требует определить все автомобили на картинках и т.п.
Драль: Это один из примеров, когда мы компьютеру показываем картинку и устанавливаем: может ли он однозначно ее определить? Спустя два года начали появляться приложения, которые можно было начать интегрировать в телефоны, чтобы автоматизировать какие-то процессы. Допустим, складские программы, программы для магазинов, которые позволяют хорошо отличать по коробкам передвижение каких-либо товаров, интерес покупателй к товарам. Это прикладное применение в бизнесе стало возможным после того, как машины научились решать эту задачу на уровне человека.
2017 год также стал историческим для машинного обучения — изобрели алгоритм, который определял английскую речь, ошибаясь всего в 5% случаев. До других языков это докатилось позднее, и сейчас мы видим, как это достижение используется в различных голосовых помощниках. Сейчас усилия сосредоточены на организации мультиагентных систем. Это может быть организация нескольких роботов для решения общей цели или логистики, когда множество агентов должно доставить товары со 100 складов всем клиентам по городу. Эта задача на текущий момент не решена, и на ее решение крупные компании выделяют большие инвестиции. Обучение такого алгоритма, когда мы знаем, чему обучать, а не экспериментируем, стоит порядка 3 миллионов долларов, не включая затраты на всё железо, которое нужно купить, и затраты на человеческий ресурс, на команду, которая действительно понимает, как это делать, и на протяжении нескольких лет проводит эксперимент.
Бодрунов: Вы дали очень серьезную ретроспективу и, собственно, подвели к тому моменту, что сегодня дают эти технологии. Я хотел бы понять, где они сегодня могут успешно применяться?
Драль: Большая часть технологий появилась благодаря интернет-компаниям, в частности большим поисковикам. Эти технологии можно применять в бизнес-составляющей промышленности. Например, когда мы говорим про продажи, пытаемся понять, сколько у нас будет клиентов, где эти они находятся, определить их портрет, модели маркетинга.
Бодрунов: Мощное маркетинговое подспорье.
Драль: Да-да. Эти составляющие позволяют получить это преимущество для торговли не только на рынке B2B, но и B2C— все эти технологии существуют, и их имеет смысл использовать.
Кейсы, которые существуют для всех, необязательно для промышленности, связаны, например, с оптимизацией логистики и складов. Это задача, решаемая многими компаниями. Здесь существует большой набор алгоритмов и технологий и, соответственно, отдельных продуктов, заточенных именно под вашу компанию.
Дальше, возможно, HR-автоматизация. Это востребовано крупными промышленниками, допустим «Боинга», где анализировали поведение людей с точки зрения того, с какой вероятностью они будут покидать компанию, с какой вероятностью они будут, наоборот, расти внутри нее, как можно им посодействовать, чтобы они с одного трека перешли на другой.
Если вернуться непосредственно к промышленности, машинное обучение позволяет автоматизировать внутренние процессы компании, чтобы потом, в будущем, их совершенствовать. Первое крупное направление касается профилактического обслуживания мощностей. Многие промышленники прекрасно знают, как важно понимать, когда станки или оборудование могут выйти из строя, чтобы заблаговременно сделать какую-то диагностику или ремонт, чтобы не произошла катастрофа и не пришлось станок менять.
Второе крупное направление — цифровые двойники, которые позволяют воспроизвести ту или иную реальную ситуацию в цифровой среде. Понятное дело, что это всё равно эмуляция, но она основана на большом массиве информации, которую мы собираем. И, кстати, надо отдать должное, что промышленники много чего протоколируют, чтобы потом иметь какие-то данные для анализа и на их основе строить модели без необходимости описывать химико-физические процессы, что-то максимально близкое в реальности.
Бодрунов: Чем больше накапливается информации, чем лучше протоколируются, описываются все ситуации, которые накапливаются в процессе производства, тем проще будет построить модель, которая будет более приближена к реальности. Соответственно, цифровой двойник будет похож на папу, что называется.
Драль: Конечно, мы можем и описывать химико-физические процессы, и заниматься машинным обучением. Это можно комбинировать и с помощью алгоритма машинного обучения делать корректировки в моделях нашего физического мира. Часто это бывает оправданно, потому что модель, которая строится в физическом мире, работает в идеальных условиях, но в реальной жизни у нас постепенно оборудование изнашивается, поэтому модель машинного обучения может эти изменения предусмотреть и учесть их на основе дополнительного массива информации.
Бодрунов: Это, конечно, очень серьезное и важное подспорье, особенно для крупных производственно-промышленных компаний, потому что внедрять систему ERP на небольшом предприятии будет, наверное, слишком дорого. Пока, по крайней мере, такие системы недешевые.
Драль: Это, конечно, недешево, и да, крупные промышленники — первые, кто смог позволить себе такие инвестиции.
Бодрунов: Для кого они эффективны.
Драль: Да. Третье направление для промышленников, которое я хотел бы подсветить, — это использование рекомендательных систем.
Бодрунов: Подсказчиков.
Драль: Подсказчиков, да. Есть знаменитый кейс YandexDataFactory, запущенный в 2017 году. Это система, которая позволяла сталеварам минимизировать объем ферросплавов, которые необходимо добавить, чтобы получать сталь по ГОСТу. Соответственно, оказалось, что, имея массив информации за историю проката, который содержит данные о том, какая сталь получается в зависимости от добавок и процессов, можно было построить модель, которая оптимизировала расходы и предоставила возможность выплавлять сталь по ГОСТу.
Бодрунов: Мне кажется, будущее этих технологий очень перспективно, но хорошо было бы делать их более интеллектуальными, более подходящими. Что мешает ускорить этот процесс или как его можно было бы ускорить?
Драль: Проблемой для развития любых технологий, наверное, выступают всегда люди. Почему? Во-первых, это банальный страх и стресс. Первая, наиболее частая фраза, которую мы слышим: машины заменят всех людей, я больше никому не нужен, я не хочу туда погружаться и вообще смотреть в эту сторону. Кроме того, люди предпочитают делать то, что они привыкли делать. Соответственно, если меняется окружение, меняется набор технологий, инструментов, станков, чего угодно, человеку нужно переучиваться, а переучиваться — это стресс. Когда появляется любая преграда, человек хочет минимизировать свой стресс.
Во-вторых, это, к сожалению, проблема периода Дикого Запада в сфере искусственного интеллекта, машинного обучения, BigData, которая была лет пять назад. Тогда было много ожиданий от этих технологий и много, мягко говоря, инфоцыган, которые говорили, что мы разбираемся в машинном обучении, обещали, приходили и по факту ничего реализовать не могли.
Бодрунов: Это всё оставило пятно на всей идеологии машинного обучения фактически?
Драль: Да. Был опыт того, что люди пробовали, но не получили результата. А ведь здесь нужно и перестраивать бизнес-процессы, и проводить переобучение, и это всё закладывать в расходы. Плюс это дополнительные риски, которые изначально не предполагались. То есть вы обучили модели машинного обучения, но за этой моделью нужно следить, ее нужно поддерживать, мониторить.
Бодрунов: Апгрейдить постоянно, внедрять новые идеи и т.д. Это уже, как говорится, взял ребенка — надо его растить.
Драль: Да, абсолютно так. К этому продукту люди не привыкли, и он еще имеет ряд дополнительных свойств, с которыми люди не знакомы, с тем, за чем нужно следить и как это делать. Это дополнительные деньги, железо, расстройство.
Бодрунов: Это, конечно, важные факторы, которые сдерживают процесс. Я в связи с этим хотел бы задать вопрос о Вашей компании. Как Вы учите людей обучать компьютеры?
Драль: Первое, чему мы учим людей: машинное обучение — это действительнодля кого-то волшебная палочка, но важно понимать, где ей нужно махать. 88% проектов в этой области, судя по данным исследований компаний в Лондоне, не приносят прибыли, то есть они почти наверняка являются убыточными. Хорошо, если выходят в ноль. Соответственно, прежде чем вы начинаете проект, вы в первую очередь должны понять, будет ли он оправдан в перспективе и готовы ли вы к рискам, к тому, что он будет реализован, но не принесет плодов? Машинное обучение — это эксперимент, который, к сожалению, вероятно, не будет приносить пользу.
И еще важный нюанс об обучении людей. Мы являемся партнерами «Яндекса» и ведем программу по работе с большими данными на английском языке на платформе Coursera. У нас там больше 95 000 слушателей. Там можно проанализировать, как люди смотрят видео, в какой момент они останавливаются, когда решают задачи, сколько времени потрачено на ту или иную задачу. Но ключевые параметры, за которыми мы следим, — это базовая аналитика, которая считается арифметикой. Она содержит ключевые вещи, которые нужно знать про пользователей с точки зрения обучения. Это позволяет, в частности, определить дедлайн решения домашней задачи. Мы поняли, что, независимо от того, сколько выделено на нее — неделю, две или три, люди ее будут решать ровно за 2 дня до дедлайна.
Бодрунов: Как всегда, студенты учат всё в последнюю ночь перед экзаменом.
Драль: Да. То есть в нашей области машинное обучение не нужно: посмотрели аналитику — получили результат. Но мы иногда беремся за необразовательные проекты, чтобы не терять экспертизу, пробовать новые технологии, новые направления и потом этот опыт нести в образование для расширения кругозора и наших слушателей.
Что важно с точки зрения этого обучения? Важно, я полагаю, что это обучение как менеджмента, так и IT-специалистов. Ключевая задача, которую мы ставим для себя, это дать максимум практических знаний за минимум времени, затраченного на обучение. Соответственно, с точки зрения менеджмента мы даем весь необходимый ликбез по машинному обучению, по BigData— что сейчас возможно, что невозможно и сколько могут стоить такого рода проекты. Мы называем это «BigDataворкшоп». Мы в связи с этим совместно с Агентством стратегических инициатив разработали методические рекомендации для проекта по анализу данных. Они доступны абсолютно бесплатно — это чек-листы, в которых указано, какие этапы в рамках этого проекта есть, на что обратить внимание и какие риски имеет смысл заложить. Мы обучаем IT-специалистов по направлениям работы с большими данными, машинного обучения, промышленных разработок на Python.
Бодрунов: Вот я хотел бы в завершение передачи немножко, может быть, поговорить о рисках. По Вашему мнению, Алексей Александрович, велика ли вероятность появления машин, которые, скажем фантазийно, заменят человека в творческой интеллектуальной деятельности, машин, которые не зависят от человека, в ближайшие годы или в принципе? Если да, то насколько она велика?
Драль: Это сейчас открытая задача для научного сообщества, в России ее называют «сильный искусственный интеллект». ArtificialGeneralIntellect — AGI— по-английски. Это возможность создания машины, которая сможет решать задачи из разных областей. Сейчас все машины, которые мы строим, предназначены для решения конкретной задачи, например понимания текста. Они научились решать какие-то задачи на основе этого текста, и это стоит безумно больших денег. Сейчас научное сообщество занимается тем, чтобы это стоило дешевле, чтобы это стало доступно и каждый смог эти технологии применять у себя.
Соответственно, с точки зрения подхода к такому AGI на текущий момент мы не знаем, как построить такой алгоритм. Все предыдущие или существующие подходы эту задачу решить не могут. Поэтому ожидать появления таких алгоритмов в ближайшие пять — десять лет, мне кажется, могут только самые большие оптимисты. Моя оценка: в ближайшие 30 лет ничего подобного мы не увидим, но с точки зрения математики можем попытаться найти подходы, которые позволят решать такие задачи.
Бодрунов: Это очень оптимистическая фраза, прозвучавшая в конце нашей беседы. Значит, терминатора, который возьмет в руки оружие и начнет по своему выбору решать вопрос населения планеты Земля, мы не дождемся. Но мы понимаем, что рано или поздно какие-то устройства, которые могут во многом имитировать, появятся.
Драль: Абсолютно точно.
Бодрунов: По крайней мере, близко к тому. И все-таки риск того, что такие устройства могут как-то мешать людям жить, есть?
Драль: Однозначно — да. Почему? Я приведу в пример кейс 2016 года коллег из Google. Они построили алгоритм, основанный на нейронных сетях. Он работал гораздо лучше, чем всё, что было у них до этого, но они сказали: «Ребята, мы вообще не понимаем, как эта штука работает внутри». То есть оно работает хорошо, но поскольку люди не контролируют, как оно работает с какими-то данными, не знают, как эту работу можно поправить, ее не стали внедрять в производство. По крайней мере, четыре года назад. Сейчас точка зрения могла уже измениться, но страх, конечно, есть. И непонимание того, где машина будет работать плохо для человека, остается.
Поэтому всё равно остается связка: человек контролирует машины и создает различные консорциумы по этике, которые решают, что в каком-то направлении двигаться не стоит, а в каком-то будут ограничены возможности заранее на этапе разработки алгоритмов автоматизации широкого спектра.
Бодрунов: Это, на мой взгляд, важнейшая общечеловеческая философская задача —соотношение человека и устройств, созданных им, человеческого прогресса, человеческих решений. Почему? Потому что всякое технологическое решение, да и любое решение, всегда имеет много сторон: положительных, отрицательных и т.д. Поэтому очень важна вторая компонента жизни человека — этическая. Она позволит, создавая некий продукт, понимать риски, связанные с применением любых устройств. Нужно, помимо всего прочего, особенно вам, молодым людям, которые занимаются очень острыми по возможным последствиям технологиями, иметь в виду, что это и нож будущего, и скальпель будущего, так, чтобы понимать, какие риски могут быть. И абсолютно правильно Вы говорите, что необходимо закладывать сразу в технологическое, конструкторское решение эту идею «не навреди».