Интервью публикуется в рамках проекта «Экономика данных» на портале Slon.ru при поддержке IBS

Председатель правления компании IBS Сергей Мацоцкий рассказал, как большие данные постепенно проникают во все сферы человеческой жизни, в чем таится их опасность и в чем отличие российского рынка Big Data от западного.

Сергей Мацоцкий

— Иногда кажется, что большие данные —- что-то вроде квантовых компьютеров — примета великолепного будущего, революция, о которой все говорят, но которая пока вроде бы не произошла. Это не так?

— Это ошибка, считать, что есть какая-то граница, что раньше были маленькие данные, а вот теперь они — большие. Вообще название очень неудачное, потому что вся эта история про данные, а не про их размер или количество. И история эта состоит по большому счету из двух базовых технологий. Первая — все, что связано с вычислительной моделью MapReduce, в частности сюда относится весь интернет-поиск. Yahoo, Google, Яндекс, все работают на этой технологии уже больше десяти лет, и мы этим пользуемся каждый день. Вторая часть — технологии, связанные со статистическим анализом больших объемов информации. И это тоже естественное развитие аналитических методов. Словом, мне кажется, правильнее говорить об эволюции, а не о революции. Другое дело, что эта технологическая эволюция в некоторых случаях принципиально поменяла бизнес-модели, обертку, накопился критический объем новых возможностей, который позволят нам легко делать какие-то вещи, которые были либо очень сложны, либо немыслимы раньше.

— Например?

— Посмотрите, что происходит автоматическими переводчиками. Здесь за последние годы произошел огромный прорыв, я имею в виду в первую очередь достижения Google. Я почти не сомневаюсь, что уже в ближайшее время, может быть, в пределах пяти лет, будет достигнут приемлемый уровень автоматического перевода. А как Google смог научиться так хорошо переводить? Он просто практически целиком переводит предложение, пользуясь огромной базой данных текстов, переведенных на разные языки, и статистикой. Такому алгоритму почти наплевать на правила, на грамматику. Многие компании, такие как мои друзья ABBYY, потратили десятки лет, миллионы долларов на создание сложных лингвистических машин, которые бы научились разбираться в языковых тонкостях. А теперь пришли новые технологии и, можно сказать, задавили эти сложные дедуктивные технологии массой, объемом данных. И подобных примеров очень много в разных отраслях — в финансах, в медицине, в ритейле. Можно сказать, что с точки зрения идеологии, ключевое отличие больших данных — переход от классического, дедуктивного метода исследования к эксперименту, выделению явлений и паттернов и проверке этих гипотез на больших массивах информации. И эта идеология далеко не нова, просто сейчас появилось больше возможностей для ее применения.

Хотите еще пример из жизни? Пожалуйста: бизнес по продаже авиабилетов, и вообще ценообразование в тревел-индустрии сегодня просто все основано на статистических механизмах. Но вы правы — в последние годы о больших данных стали писать и говорить намного больше, как о какой-то фантастической технологии. Это, конечно, выражение того, что называется медийным хайпом.

— Этот шум вокруг Больших данных создает ожидания, что они — нечто большее, чем просто статистический анализ больших объемов информации, что это волшебство, которое вдруг даст нам понять что-то, чего раньше мы увидеть не могли.

— Что мир вообще другой.

— Да.

— Вот есть теория сингулярности футуролога Рэймонда Курцвайла, которая мне в общем-то нравится. Она как раз предполагает, что в обозримом будущем произойдет технологическая сингулярность — скачкообразное ускорение прогресса, волшебство о котором вы говорите, когда мир вдруг так переменится, что его и не узнать будет. Но и эта теория предполагает, что переход количества в качество происходит во многих случаях не очень заметно. И с технологиями больших данных так же. Например, возьмите поисковые машины в интернете: поиск как-то незаметно стал неотъемлемой частью жизни, очень сильно ее изменил, но это происходило постепенно.

— Но в каких-то областях драматический прорыв в будущее через технологии больших данных можно предвидеть уже сейчас?

— Что было главным событием в медицине в последние 15 лет? Я думаю, это не изобретение новых лекарств, а то, что вся мировая медицина где-то уже перешла на типизированные протоколы, а где-то переходит прямо сейчас. Болезнь — это кейс, и по нему есть утвержденный протокол действий: какие анализы взять, что продиагностировать, как лечить — конкретная дорожная карта. Что такое этот медицинский протокол? Это — best practice, лучшая практика, выбранная на основе статистики. Накапливается медицинская информация, в ней выявляются паттерны, с помощью статистического анализа формируются протоколы — это чистой воды технологии больших данных. И, кстати, только такой подход может привести медицину к какой-то индустриальной модели. Мы можем сколько угодно жалеть, что у нас исчезают «земские врачи», которым не нужны ультразвук и томограф, у которых есть интуиция и опыт, но на этом индустрию не построишь, это нельзя мультиплицировать, это не вписывается в экономику. Другое дело, что нынешняя медицина — очень консервативная область, даже если какой-то новый паттерн замечен, ей сложно на его основе сразу менять практику. Но это движение уже не остановить. Это тренд, который будет развиваться, скомбинируется с другими вещами, вроде нанотехнологий, позволяющих доставлять лекарство прямо в нужную клетку, и мы получим тот самый прорыв в сингулярность.

— И в случае медицины, и в случае автоматических переводчиков, о которых вы упоминали, получается, что большие данные — способ увидеть взаимосвязь, не понимая ее сути. Вы верите, что этот подход победит дедукцию?

— Я думаю о такой аналогии: в конце 19-го — самом начале 20 века был расцвет экспериментальной физики, а теоретическая физика до определенной поры от нее сильно отставала. Но ничего страшного, открытия, сделанные на основе опыта, мы вполне могли использовать, не зная, что за ними стоит. А потом теория догнала эксперимент, а затем даже перегнала. Это нормальный процесс, и здесь мы его тоже наблюдаем. Анализируя данные, мы видим паттерн, можем его использовать, но пока не способны объяснить. Ну и ничего страшного — завтра объясним. А есть ситуации, когда дедуктивный метод в принципе не работает. Вот как Яндекс прокладывает маршруты в навигаторе? Понятно, что он не решает транспортную задачу для всех транспортных средств в городе — ее просто чисто теоретически нельзя просчитывать так быстро, чтобы еще и успевать отслеживать меняющуюся среду. А статистически строить маршрут можно — пусть и не без ошибок.

— Какова роль людей в мире, где все решает статистический анализ? Ведь люди как раз сильны в дедукции, в умении видеть суть.

— Люди сильны не только в этом. Наш мозг умеет видеть картинку целиком, а не как набор отдельных пикселов, компьютеру легче обрабатывать информацию, сортировать, кластеризировать данные, но человек может увидеть паттерн, высказать гипотезу. Экспериментальная физика ведь требует не меньше таланта, чем теоретическая, просто это немного другой вид таланта. Вот интересный пример из нашей практики. Мы когда-то создали систему «Медиалогия», услуги которой очень востребованы. Она занимается вот чем: если у вас есть бизнес, «Медиалогия» может найти все упоминания вашей компании в медиа и в блогосфере и подсчитать, как часто о вас пишут в позитивном, негативном и нейтральном ключе. У нас были конкуренты, которые пытались полностью автоматизировать процесс, но наше конкурентное преимущество было в том, что мы решились создать, как говорили в советские времена, «человеко-машинный комплекс». У нас была идея — давайте попробуем использовать эффективные средства автоматизированного анализа, но будем все же использовать оператора для того, чтобы он некоторые операции проконтролировал, а некоторые вообще сделал сам. Например, выделение объекта в тексте машина делает достаточно хорошо. А вот определить «позитив» и «негатив» компьютер пока качественно не может — есть много хотя бы лингвистических проблем типа существования в русском языке двойного отрицания. И мы эту часть задачи просто целиком отдали человеку. Получился человеко-машинный комплекс, в котором совсем не так много людей, но система способна выполнять работу совершенно другого качества.

— Наступающая «эпоха даных» потребует большого количества специалистов с новыми компетенциями, ведь видеть в больших объемах информации паттерны, строить на их основе гипотезы — этому нужно учиться?

— Да, специалистов не хватает уже сейчас, люди, которые занимаются интерпретацией данных — очень важное звено, и у них должен быть, как говорится, наметан глаз на то, чтобы видеть взаимосвязи, связывать их с бизнес-гипотезами и иметь потом возможность навести на резкость и проверить. И это пока мало кто хорошо умеет делать, это один из главных ограничителей развития технологий. Нужны дата-аналитики, data scientists, которые смогут научиться по-другому видеть вещи, которые освободят сознание от традиции классической дедукции, и с ними пока огромная проблема.

— Как большие данные используются в вопросах безопасности?

— Здесь самый показательный пример — американская компания Palantir, которую основал Питер Тиль, бывший партнер Элона Маска по Paypal. Уйдя из Paypal Тиль сначала инвестировал в Facebook, а Palantir — это его следующий большой проект. Основные клиенты компании, ее платформа — нескольких десятков американских федеральных агентства, которые занимаются противодействием терроризму. Palantir собирает, отслеживает и обрабатывает невообразимый объем самых разных данных о людях и компаниях, главная цель — выявить аномалии в поведении людей, отсечь шум, чтобы можно было сделать экспертное предположение, что оставшиеся аномалии могут означать угрозу безопасности. И тогда даже довольно небольшое количество операторов, которые работают уже на стороне клиента, в агентствах, могут отслеживать подозрительные события на всей территории страны, увидеть все реальные угрозы.

— Какого рода данные использует Palantir?

— Все. Изначально базовая команда компании — те люди, которые занимались в Paypal мошенничеством, фродом. Paypal был первой компанией, подвергнувшейся серьезному нажиму со стороны надзорных органов в связи с предположением об отмывании средств. Они были пионерами в электронных платежах и все опасались, что через этот канал начнется массовое отмывание средств, пойдут платежи наркодилеров, террористов и так далее. Компании пришлось создать очень сильный отдел, который занимался отслеживанием таких вещей. Вот из этого опыта и растут ноги Palantir. Так что в анализе финансовых данных у них просто непревзойденная экспертиза, но сейчас они используют далеко не только их, сейчас это и транспорт, и камеры наблюдения, и мобильная связь, словом, все, что вы только можете себе представить.

— Но Бостонский теракт предотвратить так и не удалось.

— Да, но во-первых это был единственный крупный теракт в США за последние годы, и мы не знаем, сколько их при этом было предотвращено. Во-вторых, если я правильно понимаю ситуацию, система как раз подготовку к теракту на Бостонском марафоне обнаружила, а вот оперативники эту информацию не отработали. Palantir не умеет выносить четкое решение — что вот здесь точно готовится акт терроризма, она только указывает на подозрительные ситуации. А дальше с этим разбираются компетентные органы, тут есть человеческий фактор.

— Государство может использовать большие данные для обеспечения информации, но может ведь и для осуществления тотального контроля над гражданами?

— Мы все в некотором смысле под колпаком, и с этим уже ничего не поделать. Сегодня нужно научиться жить так, как будто в вас вшит чип, который отмечает каждый ваш шаг, фиксирует каждое слово. Количество цифровых следов, которые мы оставляем, очень велико, и про каждого из нас уже записано очень много данных, просто они еще не обработаны — иногда просто надобности не было, а иногда технологий для этого пока не хватает. Но из системы себя уже не удалить, свою цифровую историю стереть невозможно.

— Вы говорите вообще, но есть ведь более конкретные технологии, связанные, например, с информационной борьбой с инакомыслием. В одной из статей о вашей компании, я прочитал, что вы занимаетесь «усовершенствованием систем для государственной слежки за блогерами». Что это значит?

— Ну, это скорее всего как раз про «Медиалогию». Формально, это правда: раз мы учимся анализировать соцсети, наша система может использоваться и для того, чтобы государство следило, что там о нем пишут. Но поймите, «Медиалогия» — чистое зеркало, она умеет анализировать, насколько та или иная тема развивается, гаснет, какое явление вторичное, а какое первичное, есть ли там фактор, который тему подогревает. А для чего это использовать — чтобы следить за оппозиционными блоггерами или делать таргетирование для FMCG — это зависит от задач клиента. Это инструмент для работы с медиа, и у нас все что связано с медиа в последнее время сильно пропитано политикой. А на западе, например, аналогичные инструменты управления репутацией — прежде всего совсем не политика, а продвижение брендов и компаний.

— Вам не страшно, что вы участвуете в создании очень мощных инструментов манипуляции, которые могут быть использованы и против вас лично?

— Если говорить про государство, его масштаб и само устройство не всегда дают ему возможность эффективно обращаться с таким инструментом. Управлять интернетом, социальными средами, намного сложнее, чем первым, вторым, третьим каналом телевизора. В то же время, вы правы, интернет и соцсети — фантастическая среда для манипуляций, причем не только политических, но и, скажем, со стороны бизнес-конкурента. Связность мира увеличилась. Раньше сигнал быстро затухал, а теперь нет, интерференция событий намного выше. Это очень опасная ситуация, конечно. Но это неизбежность, в этом невозможно не участвовать. Кроме того, я все же верю в какой-то коллективный если не разум, то в инстинкт самосохранения.

— Мы обсуждаем с вами дивный новый мир, «эпоху данных», которая уже как будто наступила. А что в России? Еще каменный век?

— В чем-то — да, в чем-то — нет. Если говорить, например, про банковский скоринг, который основан по сути на тех же технологиях больших данных, здесь, мне кажется, мы не сильно отстали от Запада. С другой стороны, есть большая область связанная с фродом, с финансовым мошенничеством — здесь нам явно есть куда стремиться. Впрочем, может быть у нас пока и мошенничество не так сильно развито, и электронные платежи.

Если говорить про ритейл — мы тоже еще только делаем первые шаги. Наши большие розничные сети, в отличие от Wallmart или Tesco, пока имеют огромное пространство для экстенсивного развития, более тонкие конкурентные преимущества, который дает сложная аналитика данных, им пока не нужны. Они новыми технологиями интересуются, делают много пилотных проектов, но пока это не главный приоритет.

Где мы точно сильно отстаем, даже не от других стран, а от естественного положения — это логистика. При размерах страны и сложности коммуникаций большие данные бы там очень пригодились, а не используется почти ничего. Конечно, это связано с относительно низкой конкуренцией, да и, пожалуй, некоторыми чертами национального характера.

Вообще говоря, технологии быстрее всего развиваются там, где есть массовый потребитель. Я иногда слушаю, что произносят некоторые наши официальные лица, и удивляюсь — они говорят, что ВПК продвинет нашу экономику, даст новые технологии в пользовательском сегменте. Эта формула уже давно не работает, сегодня все наоборот: технологии возникают в массовом сегменте и именно оттуда их берут военные.

Но больше всего меня в связи с большими данными расстраивает не это. У нас в России традиционно сильное математическое и инженерное образование, и с учетом мирового дефицита на специалистов в области больших данных, мы могли бы занять это место в мировой системе распределения труда и получить заметную долю на мировом рынке. Аналогично тому, как Индия сделала это в программировании. Только боюсь, что нынешняя политическая ситуация не очень этому способствует.

Интервью публикуется в рамках проекта «Экономика данных» на портале Slon.ru при поддержке IBS

Мнение эксперта в статье

Сергей Мацоцкий

Основатель IBS

Технологическая эволюция принципиально поменяла бизнес-модели

Советуем прочесть