Teradata В зависимости от целей и задач, поставленных бизнесом, Teradata предлагает 5 классов систем для построения ХД предприятия (см. рис. 1):
 Рис. 1 – Семейство целевых платформ Teradata для построения хранилищ данных.
1. Teradata Data Mart Appliance – это начальное, полностью интегрированное решение для витрин данных и ХД уровня департамента, объёмом до 12 терабайт, построено на базе одного узла SMP и СУБД Teradata, может использоваться в том числе для целей тестирования и разработки.
2. Teradata Data Warehouse Appliance 2ХXX (2650/2690) – платформа для построения хранилищ и витрин данных в отдельных подразделениях крупных корпораций до 343 терабайт. Решения данного семейства оптимизированы для обеспечения максимальной скорости доступа к данным и используются в основном для поддержки принятия стратегических решений. В октябре 2011 г. Teradata анонсировала 5-е поколение этих решения – 2690, которое имеет удвоенную производительность и утроенную емкость по сравнению со своим предшественником.
3. Teradata Extreme Data Appliance 1XXX (1650) – специализированное решение для хранения и анализа значительных, от 23 терабайт до 200 петабайт, объемов исторических данных, обеспечивающее их более низкую удельную стоимость, в десять раз ниже по сравнению с традиционным ХД.
4. Teradata Extreme Performance Appliance 4XXX (4600) – платформа, обеспечивающая максимальную производительность обработки данных, для построения операционных ХД, предоставляющих поддержку принятия оперативно-тактических решений, объёмом до 18 терабайт.
5. Active Enterprise Data Warehouse 6XXX (6650/6680) – флагманский продукт корпоративного класса. Может включать в свою конфигурацию от 1 до 4096 узлов и хранить до 114 петабайт пользовательских данных. Этот вид ХД способен обеспечить решение одновременно как тактических, так и стратегических задач бизнес аналитики, используя гибкое управление нагрузками, допуская одновременное выполнение массовых загрузок/выгрузок данных, генерацию аналитической отчетности, выполнение ad hoc запросов для решения конкретных задач, потоковую обработку данных. Активное хранилище данных подразумевает необходимость решения тактических задач, где необходимо обновление данных в режиме, близком к реальному, высокая производительность и доступность системы. Примеры использования таких решений – предоставление оптимального набора услуг потребителю в зависимости от ценности и доходности клиента в точках взаимодействия потребителя услуг и компании (центр клиентского обслуживания, колл-центр, точки самообслуживания), необходимость сохранить издержки, не рискуя качеством обслуживания, определить политику и приоритеты взаимодействий между компанией и потребителем в зависимости от поведения клиента в прошлом, иметь полное представление потребителя услуг для определения лучшего пакета услуг с целью повышения доходности, используя подходящий канал взаимодействия.
СУБД Teradata 13.10 является полностью параллельной СУБД, т.е. все данные и вся нагрузка распределяется равномерно по всем узлам системы. В результате, Teradata добилась практически линейной масштабируемости – коэффициент роста производительности к росту числа обрабатывающих узлов близк к единице. Необходимо отметить, что распределение данных и параллельная обработка не требуют настройки или сопровождения и выполняются полностью автоматически. Оптимизатор Teradata расщепляет SQL-запрос на небольшое число операций базы данных, называемых шагами, и направляет эти шаги на конвейерное выполнение. Фактически, в СУБД Teradata конвейерная обработка имеет место везде, где это возможно, кроме того, оптимизатор использует сложные правила, обеспечивающие непрерывность конвейера.
Основные компоненты
-
Teradata Optimizer: разрабатывает наиболее эффективную схему выполнения запроса. Обеспечивает наилучший способ аналитической обработки запросов; автоматическое использование функций оптимизации «Set & Go», в частности, позволяя использовать агрегированные и секционированные индексы без явного указания в запросах.
-
Виртуальные независимые обработчики запросов, обеспечивающие параллельную обработку данных и линейную масштабируемость, позволяют достигать наилучшей производительности при одновременном выполнении запросов большого количества пользователей, смешанной нагрузке и обработке сложных запросов.
-
Анализ местоположения: встроенные функции географического анализа позволяют определять взаимосвязи местоположения (например, расстояние, принадлежность к области или территории), которые могут использоваться совместно с другими бизнес-факторами при работе с хранилищем данных.
-
OLAP, функции статистического и периодического анализа данных, data mining: передовые методы анализа уже встроены в СУБД и могут быть использованы непосредственно в самом хранилище данных. Таким образом, система исключает необходимость выгружать данные во внешние специализированные комплексы. Все корпоративные данные изначально доступны для глубокого и всестороннего анализа.
-
Teradata Temporal: учет временного изменения данных для автоматизированного управления данными и интеллектуальной обработки временных запросов. Сокращение количества ошибок данных, упрощение разработки приложений и возможность анализа данных во временном интервале, доступная для бизнес-пользователей.
Стоит так же отметить улучшенные алгоритмы компрессии (сжатие до 75%) и появление в СУБД Teradata 13.10 новых типов данных, позволяющих работать с геопространственной информацией.
Teradata Database также включает обширный набор инструментов и средств для контроля над операциями базы данных, управления и сервисного обслуживания, которые могут быть доступны через обычный пользовательский интерфейс на базе Windows, под названием Teradata Manager, включающий в себя:
-
Решение Teradata для резервного копирования, архивирования и восстановления данных - Teradata Backup, Restore and Archive Solution
-
Инструментальную панель Teradata Dashboard для оценки состояние системы и статистических данных о выполнении операций
-
Консоль администрирования Administration Workstation для централизированного управления всей системой Teradata
-
Модуль управления рабочей нагрузкой Teradata Dynamic Workload Manager
-
Модуль анализа нагрузки Teradata Workload Analyzer для анализа выполнения запросов, помогающий оптимизировать рабочую нагрузку и распределение ресурсов
Основополагающими принципами построения ХД Teradata являются:
1. Параллельная обработка данных за счет равномерного распределения данных по всему дисковому пространству. Основными компонентами, обеспечивающими параллелизм, являются Parsing Engine (PE) и Access Module Processor (AMP). PE обрабатывает SQL запросы, обеспечивая наилучший план их выполнения, и посылает команды по обработке данных на AMP в соответствии с полученным планом. AMP отвечает за управление только определенной частью дискового пространства. Таким образом, один AMP «видит» только некоторую порцию каждой таблицы, хранимой в БД. Поэтому в случае запроса на массовую обработку, за счет равномерного распределения данных каждой таблицы, нагрузка распределяется между всеми AMP в системе, обеспечивая максимально возможную производительность.
2. Инновационные решения по обработке данных.
-
Teradata Virtual Storage (начиная с версии СУБД Teradata 13.0). Представляет дисковое пространство, как единый пул по хранению данных, контролирует выделение дискового пространства для конкретного AMP, что упрощает управление дисками, включает поддержку дисков различных типов (spinning/solid) с разными объемами и пропускными способностями. Данная технология позволяет классифицировать данные по частоте доступа к ним на «холодные» и «горячие», система автоматически собирает статистику использования данных и перераспределяет данные внутри хранилица, размещая «горячие» данные на самые быстрые носители.
-
Стоимостной оптимизатор запросов на обработку данных – зрелость оптимизатора подтверждена многими годами использования и лучшими практиками у различных клиентов.
-
Отсутствие необходимости сложного индексирования данных, сложных схем разбиения данных на партиции или реорганизации данных в случае расширения системы и/или интеграции с другими системами. Данные преимущества позволяют уменьшить стоимость владения, сократив расходы на поддержку и администрирование системы.
-
Управление нагрузками (workload management). Система позволяет гибко распределять и приоритезировать нагрузку процессов использования и обработки данных в зависимости от времени суток, количества сессий, сложности запроса, загруженности ресурсов (CPU/memory).
3. Высокая надежность и доступность системы. Решения Teradata являются высокодоступными за счет различных уровней резервирования компонент и модулей системы:
-
Fallback резервирование данных. Данная опция доступна при создании таблиц, обеспечивая дублирование строк таблицы между двумя AMP, таким образом, в случае недоступности одного из AMP, данные продолжают быть доступными на втором AMP, все изменения строк таблицы автоматически сохраняются в журнал для дальнейшего восстановления произведенных измененений при восстановлении первого AMP.
-
RAID1/RAID5 резервирование дисков данных. В случае RAID1 обеспечивается максимальная производительность и доступность данных, при выходе диска из строя достаточно просто заменить его, данный способ резервирования чаще используется в активных ХД, когда важна высокая производительность. RAID5 позволяет уменьшить стоимость ХД, но чаще используется в архивных ХД, где производительность не так критична.
-
Standby Node. Позволяет в случае выхода из строя одного из серверных узлов (нодов) переключить обработку данных на резервный нод без падения производительности, при восстановлении нода нет необходимости перезапускать систему – восстановленный нод может далее использоваться как standby нод.
-
Различные recovery-журналы и средства для бэкапа данных, резервирование контроллеров дисков, свитчей управления сетью, источников питания.
4. Линейная масштабируемость. В случае роста объема обрабатываемых данных решения Teradata за счет модульности системы позволяют добавить дополнительные узлы обработки данных без вмешательства в архитектуру текущего решения. Линейность объясняется тем, что в случае двукратного увеличения нагрузки на систему (количество обрабатываемых данных/количество пользователей) достаточно вдвое увеличить мощность системы для сохранения производительности на начальном уровне. При добавлении новых узлов увеличивается количество AMP, все AMP продолжают управлять только своим участком дискового пространства без падения производительности обработки данных. Ноды связаны между собой внутренней сетью (BYNET), посредством которой «общаются» между собой PE и AMP, каждый нод фактически представляет собой независимое решение, поэтому Teradata может обеспечить расширение системы, добавляя новые современные узлы, в уже существующую у заказчика систему, установленную ранее. BYNET версии 4 способна объединить работу до 4096 узлов.
В марте 2011 Teradata приобрела компанию Aster Data Systems, также поставляющую решения ХД, основным преимуществом которых является инновационный подход к анализу больших объемов данных (Big Data). Анализ данных выполняется не на транзакционном, а на событийном уровне, который является намного более детальным. Данная модель позволяет анализировать такие данные, как клики пользователя на сайте при веб-серфинге и при наборе корзины покупок в интернет-магазине, оценить наиболее часто используемые функции мобильного устройства (телефона/планшета), поведение клиентов в социальных сетях, анализировать машинные логи и логи приложений (например, количество резких торможений при управлении автомобилем, что позволяет страховым компаниям понять стиль вождения клиента и предложить скидку на страховку).
|