Проект по выявлению проблем и оценке качества предоставления абонентам голосового сервиса (Voice) мобильного оператора связи и подсчет финансовых потерь/недополученной прибыли.
В проекте была использована Enterprise HortonWorks Data Platform в качестве хранилища (HDFS), ETL инструмента (Pig, MapReduce) и средства расчета (Pig, MapReduce) показателей. Для визуализации и анализа использовался BI инструмент компании Tableau. Взаимодействие между HDP и Tableau осуществлялось через Hive, используя SQL. В качестве исходных данных использовались записи голосовых вызовов с коммутаторов оператора связи. Результирующие отчеты содержали статистику по проблемам на элементах сети, включая geo-аналитику, проблемах в разрезе абонентов и финансовую информацию.
Проект по созданию хранилища тарификационных событий систем предбиллинга для дальнейшего использования статистической информации аналитиками и администраторами.
В проекте была использована Enterprise HortonWorks Data Platform в качестве хранилища (HDFS) тарификационных событий. Для получения статистики и обработки запросов использовался Hive/SQL и MapReduce. Для визуализации и анализа использовался WEB интерфейс Hue. В качестве исходных данных использовались записи тарификационных событий с систем предбиллинга. Результирующие отчеты в Hue содержали статистику для администраторов, с информацией по мониторингу системы, и аналитиков, с информацией по использованным объемам трафика, длительности событий и т.д. с учетом различных размерностей.
Описание продукта
Hortonworks Data Platform
Разработанная и построенная полностью на открытом программном обеспечении, Hortonworks Data Platform (HDP) предназначена для удовлетворения изменяющихся потребностей обработки данных. HDP универсальная платформа, предоставляющая линейно масштабируемое хранилище и широкий круг методов вычисления, от batch-обработки и до интерактивной обработки в режиме реального времени, поиска и потоковой обработки. Она включает в себя полный набор необходимых средств по управлению, интеграции, безопасности и обработке. HDP использует полностью открытую платформу Apache ™ Hadoop® и все ее последние обновления, HDP предлагает лучшее решение в своем классе приложений и систем, так что вы можете получить отдачу от хранилища больших данных, с минимальными изменениями в ваших текущих архитектурах данных. Наконец, HDP позволяет развернуть Hadoop везде, где угодно – в том числе в облачном или корпоративном хранилище, используя Linux и Windows.
Enterprise Hadoop с современной архитектурой
Apache Hadoop возник как простой проект на Apache Software Foundation (ASF) для управления и доступа к данным, и включает всего два компонента: Распределенная файловая система Hadoop (HDFS) и MapReduce, способ обработки для данных, хранящихся в HDFS. Со временем, платформа Hadoop расширялась, чтобы включить весь набор ASF проектов, которые требуются от полной платформы корпоративных данных. Они логически делятся на четыре различные категорий: доступ к данным, управление данными, безопасность, обработка данных.
Ключевые принципы HDP:
- Полностью открытая — HDP построена на открытом программном обеспечении и испытана при масштабировании. Она состоит из 100% компонентов с открытым исходным кодом.
- Универсальная — С Hadoop YARN в качестве ядра, HDP обеспечивает гибкую обработку данных используя целый ряд инструментов и средств, в паре с исчерпывающими возможностями для управления и безопасности.
- Встраиваемая — HDP предназначена для интеграции и расширения существующих возможностей центров обработки данных и может быть развернута, используя различные методы.
Корпоративные возможности HDP
HDP представляет широкий выбор инструментов в соответствии следующим функциональным областям: управление данными, доступ к ним, интеграция, безопасность и обработка данных.
HDP:Управление данными
- Hadoop Distributed File System (HDFS)
HDFS является файловой системой Hadoop, обеспечивает линейное масштабирование и надежное хранение информации; предназначена для распределенных вычислений на больших кластерах недорогих серверов.
- Apache Hadoop YARN
YARN — это система обработки данных Hadoop, которая позволяет обрабатывать данные одновременно различными способами. YARN является неотъемлемой частью Enterprise Hadoop, обеспечивая управление ресурсами и расширяемую архитектуру для предоставления различных методов доступа к данным, хранящихся в Hadoop с предсказуемым уровнем производительности и обслуживания.
HDP: Доступ к данным
HDP изначально предусматривает следующие виды доступа к данным:
- Batch
Apache MapReduce в течение многих лет считается главным инструментом обработки в Hadoop. Данный инструмент прошел многократные тесты и используется многими существующими приложениями.
- Interactive SQL Query
Apache Hive ™ является стандартом де-факто для взаимодействия приложений и Hadoop посредством SQL при работе с петабайтами данных. Hive обеспечивает интерактивные и batch SQL запросы, используя обширный набор возможностей языка SQL.
- Search
HDP предоставляет Apache Solr, чтобы обеспечить высокоскоростную индексацию и поиск за доли секунды ваших данных в HDFS.
- HCatalog
Apache HCatalog представляет собой критический слой управления метаданными для Hadoop, чтобы пользователи и инструменты обработки могли совместно использовать один набор данных в Hadoop.
- Scripting
Apache Pig это скриптовый язык для Hadoop, который может работать используя MapReduce или Apache Tez, позволяя агрегировать, объединять и сортировать данные. - Low-latency access via NoSQL
Apache HBase обеспечивает быстрый доступ к данным в колоночном формате, является базой данных NoSQL. Apache Accumulo также осуществляет высокопроизводительное хранение и поиск данных, но с тонко настраиваемым контролем доступа к данным.
- Streaming
Apache Storm обрабатывает потоки данных в режиме реального времени и может анализировать и производить действия с данными до их поступления в файловую систему HDFS.
- Apache Tez
Apache Tez это современный, эффективный инструмент обработки для Hadoop, который предлагается для более высокой производительности в Hive и Pig. Он реализует тот же интерфейс, как MapReduce, поэтому как существующие, так и новые приложения могут воспользоваться этим более мощным средством.framework.
HDP: Интеграция данных
HDP предоставляет доступ к данным и управление, используя многофункциональные средства для управления и интеграции. Эти средства представляют собой простую, надежную, с возможностью переиспользования структуру для управления входными и выходными потоками данных в Hadoop. Эта структура управления, наряду с набором схем и метаданных источников, имеет решающее значение для успешной интеграции Hadoop в вашу современную архитектуру данных.
Следующие компоненты по управлению и интеграции данных включены в HDP:
- Apache Falcon является средством для упрощения управления и обработки потоков данных. Falcon упрощает конфигурацию движения данных и позволяет установить политику для: сохранения и репликации данных, фильтрации и обработки поступающих данных.
- Apache Sqoop эффективно передает массивы данных между Hadoop и структурированными хранилищами данных, такими как Teradata, Netezza, Oracle, MySQL, Postgres и HSQLDB.
- Apache Flume используется для потоковой передачи данных из нескольких источников в Hadoop для анализа. Он имеет простую, гибкую архитектуру с возможностью по резервированию и восстановлению.
- Сторонние средства интеграции. Hortonworks и все его поставщики средств по управлению данными работают над интеграцией своих инструментов с HDP. Многие даже расширили свои возможности для работы с Apache YARN.
HDP: Безопасность
HDP обеспечивает централизованный подход к управлению безопасностью, который позволяет определить и настроить политики безопасности для всей платформы данных. HDP позволяет легко создавать и администрировать централизованную политику безопасности, координируя ее среди всех приложений Hadoop. Это обеспечивает полный набор критических настроек по аутентификации, авторизации, аудиту и защите данных, для применения защиты корпоративного уровня при развертывании Hadoop. В соответствии со всеми возможностями Hadoop, HDP также поддерживает интеграцию и расширение решения в области безопасности, чтобы обеспечить единую, зонтичную архитектуру.
- Централизованное управление политиками безопасности для всех методов передачи данных и доступа Hadoop осуществляется с консоли безопасности, которая является уникальной для HDP.
- В процессе аутентификации проверяется подлинность системы или пользователя, осуществляющего доступ к системе, файла или приложения. Apache Knox обеспечивает единую точку аутентификации / доступа для кластера и интегрируется с LDAP или Active Directory. HDP также предоставляет Kerberos для простой аутентификации.
- В процессе авторизации проверяются права доступа для пользователя или системы. Hadoop обеспечивает тонкую настройку авторизации через права доступа к файлам в HDFS, использует уровни доступа к ресурсам для YARN и MapReduce и более высокоуровневый контроль доступа на уровне обслуживания. HBase обеспечивает авторизацию ACL для таблиц и групп столбцов, в то время как Accumulo расширяет контроль доступа до уровня ячейки. Apache Hive обеспечивает контроль доступа Grant/Revoke для таблиц.
- Аудит предоставляет возможность отслеживать использование ресурсов в системе. HDFS и MapReduce также обеспечивают поддержку аудита. Кроме того, Apache Hive Metastore хранит записи аудита (кто / когда) с информацией по операциям с Hive. Apache Oozie предоставляет аудит для сервисов.
- Средства по защите данных обеспечивают безопасность и конфиденциальность информации. HDP шифрует данные, передающиеся, используя Remote Procedure Call (RPC), HTTP, JDBC / ODBC и Data Transfer Protocol (DTP). HDFS и Hadoop поддерживают шифрование на уровне операционной системы. Кроме того, Apache Falcon обеспечивает возможность расширения Hadoop с помощью мощных инструментов шифuования сторонних производителей для защиты хранимых данных.
HDP: Работа с кластером
HDP предоставляет инструменты для оптимизации и настройки производительности для всех методов доступа к данным и распределению рабочих нагрузок, работающих в кластере Hadoop.
- Apache Ambari является полностью открытой структурой для настройки, управления и мониторинга Apache Hadoop кластеров. В состав Ambari включен простой, элегантный UI, с помощью которого происходит управление кластером Hadoop.Разработанный для интеграции с существующими инструментами, как Microsoft System Center и Teradata Viewpoint, Ambari обеспечивает единую точку управления всей современной архитектурой данных.
- Apache ZooKeeper представляет собой распределенную службу конфигурации, сервис синхронизации и реестр имен для распределенных систем. Распределенные приложения используют ZooKeeper для хранения и в качестве посредника при обновлении важной конфигурационной информации.
- Apache Oozie предоставляет возможности по организации и планированию заданий в Enterprise Hadoop для всех точек доступа к данным.
Возможности по развертыванию Hadoop
HDP является переносимой с платформы на платформу версией Hadoop, что позволяет легко и надежно мигрировать систему.
- Windows and Linux
HDP предоставляет возможность развертывания, как на Windows, так и на Linux, это позволяет получить наиболее подходящий вариант независимо от выбора платформы.
- Cloud
HDP доступен как Microsoft® HDInsight в Azure Cloud, так и для частного или публичного облака на Rackspace®. Кроме того, OpenStack позволяет установить и настроить кластер Hadoop.
- Flexibility
Пакет установки HDP одинаков для развертывания в облаке и локально, система легко портируема.