Мария Прямкова из IBS рассказала о том, как предиктивную аналитику можно использовать в сфере управления персоналом.

Благодаря сервису Penxy вы можете посмотреть и послушать выступление Марии на Big Data Conference.

После выступления зрители конференции смогли задать вопросы через WhenSpeak. Полное интервью ниже.

Какие внешние источники данных можно использовать для аналитики в HR?

Внешние данные можно разбить на две группы: характеризующие сотрудника и характеризующие среду, в которой он работает. Если мы говорим о сотруднике, то это его внешний цифровой след – данные clickstream о посещении сайтов, переходах со страницы на страницу, данные из соцсетей. Если мы говорим о среде, то это в первую очередь информация о рынке труда, данные Росстата и так далее.

Какой должен быть масштаб компании (по числу сотрудников), чтобы Big Data анализ в HR были эффективны? Можно что-то интересное сделать для компании с 20-30 сотрудниками?

Big Data как таковой в HR на самом деле очень мало. Даже в больших компаниях объем HR-данных не настолько высок, чтобы применять к ним специальные технологии распределенного анализа. То есть мы говорим просто про аналитику данных. «Что-то интересное для компании, если там 20-30 сотрудников?» – вряд ли что-то с точки зрения этих технологий, но при таком количестве персонала вы можете посмотреть на них, проинтервьюировать – и это будет уже качественное исследование.

Многие стартапы (например, робот Вера) доказывают, что HR как процесс отлично поддаётся автоматизации, в том числе с использованием бигдата. Вы говорите, что бигдата в HR слабо развита. Как можете прокомментировать это противоречие?

Речь шла об объемах информации для анализа – её в HR недостаточно, чтобы назвать это Big Data. А вот технологии автоматизации процессов, косвенно связанные с принципами Big Data, например, робот Вера, действительно могут успешно применяться в HR.

Какие нестандартные факторы влияния оказались значимыми во всех трех задачах (производные, например, наибольшее количество лет в одной компании делить на возраст?)

Нужно учитывать, что майнинг на основе чистых факторов из учетных систем вряд ли приведет вас к интересным и содержательным выводам. С HR-данными нужно экспериментировать: создавать нестандартные агрегаты и производные, например, сравнивать то, что происходит в жизни сотрудника с тем, что происходило раньше, с другими сотрудниками в его городе и с его специализацией и т.д.

Нестандартные факторы, оказавшиеся значимыми: посещение сотрудниками обязательных тренингов. Те, кто собрались увольняться, перестают их посещать. Или, например, сокращение у сотрудника отработанных часов относительно прошлого периода, но при этом он все равно работает больше, чем остальные в его группе. То есть комбинация из одного и того же фактора, «наложенного» на себя.

Речь идёт о работе с массовом подборе персонала? Есть ли подходы, например, для подбора data scientistов в компанию?

Да, все описанные подходы работают сейчас на крупных однородных группах персонала. Наверное, в будущем появятся возможности для аналитики небольших групп типа data scientist – когда эта индустрия в достаточной степени разовьется. Т.е. можно будет объединить всех сотрудников из разных компаний, сделать на этой основе аналитическую модель, а потом применить ее к новой компании и предположить, что с сотрудниками будет то же самое.

Использовались ли данные социальных сетей для формирования профиля соискателя? Если да, то как вы идентифицировали, что именно этот соискатель – вот этот аккаунт в соцсети?

Именно в этом проекте – нет, но в целом мы очень часто используем данные социальных сетей. Идентификацию проводили не мы, а специальные компании, которые занимаются сбором информации о людях по различным комбинациям персональных данных, например, ФИО, дата рождения и место рождения. Или пол, дата рождения и место рождения.

Как давно компания IBS стала собирать данные от HR?

Мы занимаемся проектами по HR-аналитике полтора года.

Какие данные чаще всего запрашивают клиенты для анализа? Топ-3.

Как правило, мы используем все данные, что у нас есть, потому что в HR их не очень много. Топ-3, без которого точно нельзя жить и с которого начинается любая HR-аналитика: дата приема, дата увольнения и причина увольнения.

Какое количество компаний клиентов могут быть заинтересованы в подобного рода аналитике?

На самом деле почти все крупные компании. Их можно поделить на два типа: те, у которых есть проблема текучести кадров, и те, у которых ее нет – обычно это компании с очень большими зарплатами или государственные учреждения, из них почти никто не уходит. Первые компании заинтересованы в проектах по прогнозированию увольнений, вторые, как правило, в проектах по профилированию, чтобы понять, кто у них лучший сотрудник, какого типа сотрудников нужно культивировать и удерживать, а кого – нет.

Мария, а какие именно конкретные проекты по прогнозу найма были сделаны? Такие, которые были внедрены в оперативные процессы.

Я рассказывала в основной части про проект по прогнозированию увольнений в крупной международной компании – он сейчас внедряется как постоянный операционный процесс.

Мария Прямкова, IBS

Какие источники данных вы задействуете для решения трех задач (найм, лояльность, увольнение) помимо данных резюме?

Все, что есть в HR-системах – со всех этапов жизненного цикла сотрудника. Конкретно – информация о кандидатах, о том, как они шли по этапам подбора и по какой причине не доходили до найма. С момента найма – базовая информация о том, где они работают, когда уволились, когда были в отпуске, когда присутствовали и отсутствовали на рабочем месте, а также информация о доходах, обучении, поведении, участие в программе кадрового резерва и т.д.

HR-системы – не единственный источник цифрового следа о человеке: мы также используем системы управления процессами, логи коммуникаций, данные с турникетов по входу-выходу, данные GPS-трекеров и т.д.

А кто задавал предположения в кейсе? И на основании чего сделаны такие выводы о корреляции поведения и поиска работы?

Предположения задавали мы совместно с клиентом – тесная работа с заказчиком на этапе гипотез дает несравнимо лучшие результаты, чем изолированный самостоятельный майнинг. Что касается выводов: всегда, когда мы находим некий значимый фактор, возникает вопрос: это просто индикатор или это действительно причина? Мы стараемся постепенно двигаться от индикатора к причине, хотя иногда индикатора уже достаточно для того, чтобы предпринимать какие-то действия.

А в самой IBS применяется эта модель?

Именно эта – нет, но мы готовили, например, профиль успешного сотрудника в нашем сервисном центре. Из интересных выводов: несмотря на то, что сотрудники этого центра обслуживают работников компании-клиента с точки зрения кадровых операций и расчета зарплат, оказалось, что HR-экспертиза никак не коррелирует с успешностью человека в этой роли – зачастую гораздо успешнее те, кто имеет опыт в customer service, в колл-центрах, сервисных центрах.

Как решается вопрос privacy при передаче персональных данных кандидатов? Или эти факторы не участвуют в работе модели?

Путем заключения NDA и деперсонализации всех данных.

Какую информацию вы предоставляете на ВЫХОДЕ: количественная оценка результата или качественный профиль с объясняющими характеристиками?

И то, и другое.

Как интерпретировались результаты модели xgboost для клиентов?

Мы делали xgboost и параллельно готовили простое дерево решений. Xgboost давал нам прогноз вероятности ухода, а простое дерево помогало в интерпретации факторов. Вообще отличный вопрос: очень важно грамотно интерпретировать результаты, «black box» клиент не захочет покупать.

Как вы учитываете эмоциональный фактор? Многие при опросе не скажут правду?

Мы не проводим опросы, мы собираем цифровой след о поведении сотрудников – здесь эмоциональный фактор отсутствует.

Был ли подход к анализу унифицированным к разным профессиям? Или для каждого профиля свой?

Подход один, но гипотезы в каждом случае разные, в зависимости от компании и профессии.

Как вы считали возврат инвестиций на работника и что это дает бизнесу заказчика?

Очень много дает. HR-процессы, как правило, не имеют прямой связи с экономикой предприятия – то есть непонятно, как, например, инвестиции в обучение скажутся на EBITDA. И модель, которую мы показывали (прим. модель экономики жизненного цикла), помогает проследить эту связь. Если рассматривать сотрудника как инвестицию, у нее есть свой жизненный цикл: сначала работник адаптируется и не дает отдачи, потом становится производительным и дает ее, а затем перестает им быть. На каждом этапе свои издержки и доходы, и вот это HR-аналитика вполне способна посчитать.

Если нацепить на персонал датчики и снимать кучу факторов, вплоть до локации, давления, пульса и так далее, есть ли такие проекты? Хочется обвести мышкой несколько людей и, как в стратегии, отправить их рыть котлован, например.

Да, такие проекты есть, например, проект компании Humanyze.

Сколько факторов (признаков) использовали по сотруднику в модели?

Базовых признаков было порядка 150. С появлением агрегатов и сравнений их становилось больше. Например, мы сравнивали значения на момент окончания «наблюдения» с историей человека в прошлом и с тем, что происходит в его бизнес-юните или каких-то других группах, или же с характеристиками руководителя.

Какие факторы были важными для предсказания увольнения? Есть ли специфические факторы, зависящие от профессии (что-то важно для программиста, что-то для продавца)?

Любые факторы, которые я могу привести в качестве примера, не более чем интересная иллюстрация, и было бы большой ошибкой воспринимать их как некий универсальный бенчмарк и применять их к своей компании. Лучше воздержусь от примеров – в качестве подсказки смотрите пункты про источники данных и генерацию гипотез.

Кем и как производился сбор данных типа «Начал посещать курсы английского»?

Они есть в HR-системах, но, как я говорила, в «сыром» виде. Самый важный этап – интерпретация. Поэтому вы берете данные, например, по обучению, и вместе с клиентом решаете, как их правильно использовать в зависимости от поставленных задач. Рассмотреть отдельно курсы английского и отметить даты начала и окончания, или, например, выбрать дорогие лидерские программы, в которых люди едут за границу, или еще что-то?

Насколько вы открыты к внешним сервисам для улучшения ваших моделей?

Смотря что называть сервисами. Если это, например, новый интересный источник данных, готовая статистика по открытым вакансиям в разных локациях или по уровню дохода, или что-то еще, чего мы еще не знаем, то мы абсолютно открыты к их использованию.

Если HR-заказкик говорит, что они это и так знали, вы искали другие инсайты? Или для них все оказалось открытием?

Хороший вопрос. Да, очень часто возникает ситуация, когда заказчику кажется, что он все это уже знал. Здесь мы, как правило, продолжаем искать инсайты и пытаемся найти хоть что-то новое и интересное. Еще у нас есть идея, которую мы пока не опробовали на практике, но планируем: на старте проекта озвучивать список гипотез и согласовывать с клиентами, что они из этого не знают – или знают.

Планируете ли вы делать рекомендательные модели?

Если под «рекомендательными» имеются в виду классические типа механизма рекомендаций на Amazon, то да – мы хотим расширять спектр тем: например, рекомендовать программы корпоративного обучения на основе индивидуальных особенностей поведения. Это будет полезно, к примеру, для агентов по распределенным продажам, которые все время находятся в «полях» и слабо связаны с компанией.

Можно ли построить универсальную модель без привязки к определенному заказчику?

Нет, мы убеждены, что «универсальной модели» на данный момент не существует, потому что вводные данные и их вес в ней всегда будут разными. Есть вероятность, что можно сделать «универсальную» модель для отдельных профессий, работа которых слабо зависит от специфики компании.

Есть ли у вас модели подбора персонала сложных профилей, в том числе по открытым источникам и соцсоцетям?

Подбор персонала – это процесс, состоящий из множества частей. Если говорить про аналитику, то с ее помощью можно, например:

Разработать профиль успешного кандидата для конкретной позиции и внедрить инструмент оценки (скоринга) кандидатов на соответствие этому профилю;
Привлекать кандидатов с помощью digital-инструментов, таргетируя людей, соответствующих профилю.

Для аналитики, в принципе, не так важно, «сложный» это профиль или нет, главное, чтобы позиция была достаточно массовой. Главное – иметь достаточное количество людей для анализа.

На какой платформе построено данное решение?

По сути, это не готовое решение, а стек технологий: инструменты для хранения, подготовки данных и оценки качества, язык R для анализа и инструменты визуализации.

Мнение эксперта в статье

Мария Прямкова

Руководитель проектов, IBS

Мария Прямкова (IBS) – о предиктивной аналитике в управлении персоналом на Big Data Conference

Советуем прочесть