lumen

Решения Big Data

Решения на основе концепции Data Lake​

Особенности:

  • Поддержка любых типов данных​
  • Долгосрочное хранение и доступ к историческим данным​

  • Представления и срезы данных для всех типов пользователей в организации​

  • Поддержка расширенных средств аналитики

Data Lake (озеро данных) — это концепция хранения данных в сыром (необработанном) виде, которая подразумевает одновременное хранение данных в различных схемах и форматах. Самыми распространенными форматами являются файлы и blob-объекты. Озеро данных используется как единое хранилище всех данных компании, включая как сырые копии данных, генерируемые корпоративными системами, так и производные данные (очищенные детальные данные, витрины, агрегаты), используемые для таких задач, как построение отчетов и дашбордов, аналитики и машинного обучения. Озеро данных может включать структурированные данные из реляционных баз данных, полуструктурированные данные, syslog, CSV, XML, JSON, неструктурированные данные (электронные письма, документы, PDF-файлы) и бинарные данные (изображения, аудио, видео).​

Архитектура решений на основе концепции Data Lake

Преимущества

  • Экономичность — развертывается на типовых серверах​

  • Гибкость — простое добавление нового источника данных​

  • Масштабируемость — подключение новых серверов «на лету»​

  • Снижение time-to-market — быстрый вывод новых продуктов на рынок​

Архитектура решений на основе концепции Data Lake

Типовые слои:​

  • Ingestion Layer — слой загрузки данных с использованием stream и batch технологий​

  • Datastore Layer — слой хранения данных (непосредственно Data Lake)​

  • Processing Layer — слой обработки данных для создания новых структур и форматов​

  • Access Layer — слой для доступа и поиска данных конечными пользователями​

  • Analytics Layer — слой инструментов аналитики и машинного обучения

Внешние системы и источники данных:​

  • Data Sources — слой внешних источников данных (файловые источники, потоковые данные, OLTP базы данных) ​

  • ETL/ELT — инструменты извлечения, преобразования и загрузки данных​

  • Data Warehouse — классическое корпоративное хранилище структурированных данных​

  • Business Intelligence — инструменты бизнес аналитики, визуализации, построения отчетов и дашбордов

Кому подойдут решения на основе концепции Data Lake:

Если ваша организация планирует внедрять или находится в процессе внедрения data driven подхода (принятие бизнес решений на основе данных) и при этом сталкивается с ограничениями текущих классических хранилищ данных (отсутствие возможности работы с неструктурированными источниками данных, хранение ограниченного объема данных, высокая стоимость владения, сложная поддержка структуры хранилища, большие задержки по времени от подключения нового источника до получения реальной бизнес пользы от использования данных, ограниченные аналитические возможности), то это повод посмотреть в сторону современных решений на основе концепции Data Lake.​

Компания ООО «Дельта Солюшнс» предлагает полный спектр услуг по внедрению Data Lake на базе продуктов Cloudera (Hadoop).