О руководствеО руко в о дс т в е Опис а н ие Neo ﬂ ex D a t a g ra m Qu ic k s t a rt Вход в программу Создание нового

О руководствеОписание Neoflex DatagramQuick start

Вход в программуСоздание нового проектаСоздание и настройка трансформации

Просмотр результата преобразования данныхСоздание и настройка потока работИнструменты запуска приложений и мониторинга в Neoflex Datagram

Работа с программойПодключение Neoflex Datagram к базам данных внешних систем

Объекты "JDBC Connection"Объекты "Software System"Объекты "Deployment"Объекты "Scheme"Объекты "Jdbc Context"

Подключение Neoflex Datagram к исполняющим средамОбъекты "Oozie"Объекты "Workflow Deployment"Объекты "Livy Server"Объекты "Transformation Deployment"Объекты "Coordinator Deployment"

Трансформация исходных данныхОбъекты "Transformation"Элементы диаграмм трансформаций

Группа элементов SOURCESLocal sourceCSV sourceXML sourceAvro sourceExpression sourceSQL sourceHive sourceHBase sourceTable sourceKafka source

Группа элементов DATA TRANSFORMJoinAggregationSelectionProjectionSequenceSortGroup with stateUnionDroolsModel based analysisSpark SQLExplode fields

Группа элементов TARGETSLocal target

Table targetProcedure targetCSV targetXML targetStreaming targetHive targetHBase targetKafka target

Агрегатные пользовательские функцииОбъекты "Scheme data set"

Поток работОбъекты "Workflow"Элементы диаграмм объектов Workflow

Группа элементов POINTStartEndKill

Группа элементов RULEForkJoinDecision

Группа элементов ACTIONTransformationWorkflowExecute shellExecute Java

Запуск на исполнение настроенных объектов Transformation и WorkflowЗапуск исполнения настроенного объекта TransformationЗапуск исполнения настроенного объекта WorkflowЗапуск исполнения настроенного объекта Workflow по расписаниюОбъекты CoJob

Подсистема переноса метаданныхГруппировка объектов программыОперации экспорта/импорта метаданных

Адаптация подсистемы Meta Server для работы с разворачиваемым репозиториемОбъекты Environment

Sandbox. Инструмент анализа данныхСоздание объекта ClusterСоздание WorkspaceНаполнение Workspace

Импорт схемы в Jdbc workspaceИмпорт датасетовСоздание датасетов и child workspaces

Child workspacesТипы датасетов

DatasetHive datasetHive external datasetJdbc datasetJdbc table datasetLinked datasetNotebookReference dataset

Работа с датасетамиПросмотр данных датасетаПросмотр метаданных датасетаРедактирование атрибутов датасета

Дополнительные возможности программыПеренос данных из CSV файлов в базу данных внешней системы

Объекты Staging AreaЗапуск операций объектов по расписаниюStreaming. Потоковая обработка данных

Объекты Events processorНастройка потоков данных и правил анализа

Объекты FunctionSLA мониторинг задач Oozie

ПриложенияПриложение 1. Соответствие типов полей в дизайнере трансформаций классам языка ScalaПриложение 2. Встроенные функции редактора выражений

О руководстве В руководстве пользователя описаны возможности Neoflex Datagram по разработке приложений дляпреобразования данных.

В главе «Quick start» представлен пример основных сценариев работы с программой:

Запуск Neoflex Datagram;Создание нового проекта;Проектирование схемы преобразования данных;Создание потока управления преобразованием данных и запуск приложения;Контроль исполнения приложения и просмотр результата.

В главе «Работа с программой» описаны:

Подготовка запуска приложения;Интерфейс Neoflex Datagram;Подключение Neoflex Datagram к базам данных внешних систем и настройки взаимодействия сисполняющими средами;Элементы диаграмм трансформаций и потоков работ;Запуск исполнения объектов Workflow по расписанию;Дополнительные возможности программы.

В связи с непрерывно ведущимися работами по усовершенствованию программы, следует отметить,что описание программы может отличаться от того, что Вы увидите на экране.

Описание Neoflex Datagram Neoflex Datagram - это программная платформа предназначенная для разработки приложений попреобразованию данных. Neoflex Datagram поддерживает как пакетный, так и потоковый режимыобработки данных.

af://n4af://n34

Ядром платформы является сервер метаданных, который обеспечивает хранение и предоставляетинструменты управления хранилищами данных, преобразованиями данных, источниками иприемниками данных, исполняющими средами и т.д.

Neoflex Datagram поддерживает полный цикл разработки приложений по преобразованию данных:

Визуальное проектирование схем преобразования данных;Визуальное проектирование потоков управления преобразованиями данных;Генерация исходного кода на языке Scala с библиотекой Apache Spark;Компиляция и генерация приложения;Развертывание приложения на исполняющей среде;Планирование исполнения приложения;Мониторинг исполнения приложения;Инструменты для остановки и перезапуска приложений.

Архитектура Neoflex Datagram

Устройство программной платформы

Программная платформа разработана на базе архитектуры, управляемой моделью (MDA). Дляуправления моделями применяется Eclipse Modelling Framework (EMF). Для сохранения моделейприменяются PostgreSQL, Hibernate и Teneo. Для валидации моделей и трансформаций model-to-model(M2M) и model-to-text (M2T) применяется Eclipse Epsilon. Внутри платформы используются следующиетипы моделей: Authentication, Relational, ETL, Runtime, DWH, UI, Metadata.

Исполняющие среды

Исполняющие среды Neoflex Datagram базируются на Apache Spark.

Neoflex Datagram может выполнять запуск приложений на серверах Apache Livy или Apache Oozie. Насервере Apache Livy запускаются приложения из сред разработки/отладки. Сервер Apache Oozieиспользуется для запуска отлаженных приложений на рабочей среде.

Дизайнер трансформаций

Дизайнер трансформаций - интерфейс для визуальной разработки схем преобразования данных.

В дизайнере трансформаций поддерживается широкий спектр источников/приемников данных:

RDBMS источники/приемники данных использующие соединение JDBC (включая хранимыепроцедуры);Иерархические источники/приемники: XML, AVRO и JSON;Специфические форматы файловой системы HDFS: ORC, PARQUET;Источники/приемники данных: CSV, Apache Hive, Apache Kafka.

Типы преобразований данных:

Широкий набор операций реляционной алгебры: join, sort, aggregation, union, selection, projections,pivot, explode arrays, sequence generation;Специфические для Spark трансформации: Spark SQL - выполняет произвольные SQL запросы кпотокам данных;Алгоритмы машинного обучения с использованием Spark MLLib (decision trees, SVM, logisticregression и т.д.);Jboss Rules (Drools) - система управления бизнес правилами.

Основные возможности:

Поддержка типов данных полей: STRING, DECIMAL, INTEGER, DATE, TIME, DATETIME, BINARY,BOOLEAN, LONG, FLOAT, DOUBLE;Поддержка типов данных STRUCT и ARRAY;Отслеживание происхождения полей потока данных;Частичное выполнение преобразования с просмотром промежуточных результатов;Просмотр сгенерированного кода приложения, его редактирование и запуск на исполнение;Валидация трансформации на основе базы данных часто повторяемых ошибок;Поддержка Spark Catalyst Optimizer.

Дизайнер Workflow

Дизайнер Workflow - интерфейс для визуальной разработки потоков управленияпоследовательностями преобразований данных.

Основные возможности:

Создание потоков управления для параллельного или последовательного исполненияпреобразований данных, а также потоков управления с возможностью настройки условий длязапуска преобразований;Универсальные элементы управления преобразованиями: shell scripts и java scripts;Возможность создания потоков управления последовательностями преобразований сиспользованием вложенных объектов Workflow;Возможность настройки исполнения Workflow по расписанию или по событиям файловойсистемы.

Безопасность

Централизованная аутентификация пользователей с использованием корпоративного серверакаталогов (LDAP);Ролевая авторизация. Возможные роли: developer, operator, viewer;

Шифрование паролей доступа к внешним системам;Использование алгоритма аутентификации Kerberos для подключения к исполняющим средам.

Версионность и teamwork

Блокировка одновременных обновлений;Интеграция Apache Subversion;Поддержка иерархии проектов;Синхронизация с системой контроля версий TortoiseSVN для выбранного объекта или проекта;Защищенный от обновлений код (определяемый пользователем) сохраняется при обновленииверсии метаданных.

Поддержка рабочих сред

Поддержка цикла разработки: разработка->тестирование->Запуск на рабочей среде.

Импорт/экспорт метаданных;Перенос метаданных между средами как полный, так и отдельного проекта;Перезапись URL-адресов, паролей и т.д. при переносе в новую среду.

Дополнительные инструменты

Консоль HDFS: просмотр, сохранение файлов из/в файловой системы HDFS;

Консоль Livy: просмотр задач на сервере Livy, просмотр журналов, отмена задачи;

Консоль Oozie: обзор задач workflow и координатора на сервере Oozie, просмотр журналов,отмена или перезапуск задач;

Обозреватель объектов: просмотр дерева объектов метаданных.

Quick start

Вход в программу

Запустите браузер и в адресной строке введите строку:

http://host:port/cim/ddesigner/build/index.html?

,где host - хост сервера, на котором установлена программа, port - номер порта сервера.

В окне браузера появится форма авторизации пользователя.

af://n155af://n156

Для входа в программу укажите имя пользователя, пароль и нажмите кнопку «Вход». На экранепоявится стартовое окно Neoflex Datagram.

Создание нового проекта

af://n165

В разделе интерфейса «ETL/Project» создайте объект Project с названием «DemoProject» (остальныеполя оставьте пустыми).

Примечание.

Атрибуты объектов Project описаны в разделе руководства «Группировка объектов программы».

Объект «DemoProject» необходимо создать, чтобы в дальнейшем привязать к нему объектыTransformation и Workflow, тем самым объединив их в группу. В последующем данную группуобъектов можно будет переносить между программными средами.

Создание и настройка трансформации

Внимание!

Для выполнения действий, описанных далее, необходимо чтобы в программе были настроеныподключения к базе данных внешней системы и исполняющим средам.

В разделе рассмотрен пример создания объекта Transformation, для переноса данных из CSV файла вфайлы формата JSON.

Предварительно, в файловой системе HDFS, создайте файл-источник данных Demo.txt:

1,Иванов,1000.00

2,Петров,1200.00

3,Сидоров,1250.00

В разделе "ETL/Transformation" создайте объект с атрибутами:

Name - DemoTransformation;Label - DemoLabelTransformation;Project - из списка выберите ранее созданный объект «DemoProject».


Атрибуты объектов Transformation описаны в разделе «Объекты Transformation».

af://n174

Настройка и запуск трансформации

Кнопкой откройте дизайнер трансформаций. В дизайнере трансформаций перетащите элементы

CSV source и Local target в рабочую область и укажите направление процесса переноса данных, какпоказано на рисунке ниже.

На заметку.

При переносе элементов в рабочую область, программа автоматически задаст им названия.

Кликните по элементу «CSV_source1», чтобы открыть панель свойств.

Для элемента «CSV_source1» установите следующие настройки:

В поле Path укажите путь к файлу, из которого будут переноситься данные (например:/user/Demo.txt);

В группе CSV в поле Delimeter введите символ, который служит разделителем значений в файле-источнике (в примере это запятая);

В группе OUT PORT->Fields добавьте три поля:

id - Integer

name - string

salary - decimal

Для остальных настроек оставьте дефолтные значения.

Настройте элемент «Local_target2»:

В списке Local file format выберите JSON;

В поле local file name укажите каталог, в который будет записан результат трансформации(пример: /user/demo/demo.json);

В поле Input fields mapping настройте соответствие полей:

ID - id

NAME - name

SALARY - salary

В поле Partitions добавьте каталог id, который будет входить в каталог demo.json;

Для остальных настроек оставьте значения, которые были заданы программой автоматически.


Элементы диаграмм трансформаций описаны в разделе «Элементы диаграмм трансформаций».

Сохраните настройки кнопкой . Откройте список операций кнопкой и запустите операцию

"Проверить" для автоматической проверки синтаксиса трансформации. Если действия инструкциивыполнены правильно, то программа не обнаружит ошибок.


В случае обнаружения программой ошибок проверьте код трансформации, для этоговоспользуйтесь редактором исходного кода.

Выполните операцию "Запустить" для запуска исполнения трансформации. После запуска объекта наисполнение, в разделе интерфейса "Развертывание/Transformation Deployment" будет созданобъект с названием «autogenerated_tr_DemoTransformation», который выполнит развертывание изапуск исполнения «DemoTransformation» на исполняющей среде Livy Server.


По кнопке можно создать новый объект Transformation Deployment.

Атрибуты объектов Transformation Deployment описаны в разделе «Объекты TransformationDeployment».

Дождитесь окончания исполнения трансформации - на экране появится сообщение:

В случае успешного исполнения трансформации, на экране появится окно с сообщением: «Ок».

Если в ходе исполнения объекта возникнет ошибка, то на экране появится окно с текстом,описывающим ошибку.

Просмотр результата преобразования данных

Чтобы просмотреть файлы, полученные в результате исполнения трансформации, перейдите винтерфейс консоли HDFS. Для этого перейдите в раздел "Сервер/Livy", в списке выберите сервер накотором разворачивалась трансформация. На открывшейся странице нажмите кнопку и в списке

выберите пункт "Консоль HDFS". В консоли перейдите в каталог, который создан в результатевыполнения трансформации (данный каталог указывался в настройках элемента "Local_target2" в поле"local file name").

af://n252

Создание и настройка потока работ

Создаваемый объект Workflow будет выполнять следующие действия:

1. Запускать трансформацию «DemoTransformation»;2. Анализировать ее выполнение:

При успешном выполнении трансформации процесс будет завершен;При обнаружении ошибки процесс будет прерван.

В разделе "ETL/Workflow" создайте объект с атрибутами:

Name - DemoWorkflow;Label - DemoLabel;Project - из списка выберите ранее созданный объект DemoProject.


Атрибуты объектов Workflow описаны в разделе «Объекты Workflow».

Настройка диаграммы потока работ

Кнопкой откройте дизайнер потока работ. В рабочую область дизайнера перетащите элементы

Start, End, Transformation и Kill. Укажите направление потоков управления, как показано на рисункениже.

af://n256

Настройте элементы схемы:

Для элемента «transformation» в поле «transformation» выберите значение«DemoTransformation», в остальных полях оставьте дефолтные значения;В настройках элемента «kill» в поле «message» укажите текст сообщения об ошибке, например:«Ошибка! Процесс остановлен». В остальных полях оставьте значения, которые были заданыпрограммой автоматически.


Элементы диаграмм потоков работ описаны в разделе «Элементы диаграмм объектов Workflow».

Сохраните настройки кнопкой . Откройте список операций кнопкой и запустите операцию

"Проверить", программа автоматически проверит синтаксис настроенной диаграммы объекта«DemoWorkflow». Если проверка прошла успешно (это должно быть именно так, если действия,описанные в инструкции, выполнены правильно), то запустите объект на исполнение (операция"Запустить")

После запуска объекта на исполнение, в разделе интерфейса «Развертывание/WorkflowDeployment» будет создан объект «autogenerated_wf_DemoWorkflow», который развернет и запуститисполнение «DemoWorkflow» на исполняющей среде Oozie.


По кнопке можно создать новый объект Workflow Deployment.

Атрибуты объектов Workflow Deployment описаны в разделе «Объекты Workflow Deployment».

Дождитесь окончания исполнения объекта - на экране появится сообщение:

В случае успешного исполнения, на экране появится окно с сообщением: «Ок».

Если в ходе исполнения объекта возникнет ошибка, то на экране появится окно с текстом,описывающим ошибку.

Инструменты запуска приложений и мониторинга вNeoflex Datagram

Запуск исполнения объектов Workflow или Transformation выполняется приложением Meta Server исостоит из фаз:

1. Генерация исходных файлов;2. Компиляция задачи;3. Развертывание задачи на исполняющей среде;4. Запуск исполнения задачи через планировщик задач (Oozie или Livy Server);5. Выполнение задачи на исполняющей среде.

Фазы 1, 2, 3 выполняются приложением Meta Server .

Фаза 4 выполняется приложением Meta Server через планировщик задач Spark - Oozie или Livy Server.

Фаза 5 выполняется в Hadoop.

Для мониторинга процессов в Neoflex Datagram используются инструменты:

Logger - отображает в реальном времени логи работы приложения Meta Server (фазы 1, 2, 3 иначало 4).

af://n306

Консоли Livy и Oozie - в интерфейсах консолей выводятся данные о результатах исполненияконкретных объектов Transformation и Workflow на исполняющих средах Hartoonworks DataPlatform (фаза 5).

Работа с программой

Подключение Neoflex Datagram к базам данныхвнешних систем

Для подключения Neoflex Datagram к базе данных внешней системы необходимо создать и настроитьобъекты:

JDBC Connection;Software System;Deployment;Scheme;JDBC Context.

Объекты "JDBC Connection"

Объекты "JDBC Connection" хранят параметры подключения к базам данных внешнних систем.

Настройка объектов выполняется в разделе интерфейса «Подключение/JDBC Connection».

Описание атрибутов объектов "JDBC Connection"

af://n330af://n332af://n349

АтрибутОбязательнозаполнение

Описание

Name Да

Название объекта. При указании имени необходимо учитывать, что оно должноудовлетворять правилам формирования идентификаторов в языкеJava Пример: DemoJdbcConnection

Project НетПроект, к которому привязан объект "JDBC Connection" Пример: DemoProject

Url ДаUrl-адрес для подключения к базе данных внешней системы Пример: jdbc:oracle:thin:@192.168.0.198:1522

Scheme Да scheme в терминах JDBC

Catalog Нет catalog в терминах JDBC

User Да

Имя пользователя, используемое для подключения к базе данныхвнешней системы Пример: system

Password Нет

Пароль, используемый для подключения к базе данных внешнейсистемы. Рекомендуется использовать скрытый способ хранения паролей (см.раздел «Хранение паролей в системе»)

Driver Да

Название драйвера для подключения к базе данных. Название используемого драйвера зависит от типа и версии БД, ккоторой выполняется подключение Пример: oracle.jdbc.driver.OracleDriver

Названиеоперации

Описание

ПротестироватьОперация выполняет проверку соединения с базой данных внешнейсистемы

Операции, доступные для объектов "JDBC Connection"

Объекты "Software System"

af://n402


Описание

Name Да

Название объекта. При указании имени необходимо учитывать, что оно должноудовлетворять правилам формирования идентификаторов вязыке Java и не содержать подчеркиваний Пример: DemoSoftwareSystem

Project НетПроект, к которому привязан объект "Software System" Пример: DemoProject

Scheme НетНазвание объекта "Scheme", описывающего базу данныхвнешней системы (см. раздел "Объекты "Scheme"")

DefaultDeployment

Нет

Объект "Deployment", к которому привязан объект "SoftwareSystem" Пример: DemoDeployment


Описание

Обновитьсхему

При запуске операции считываются метаданные БД внешней системы. На основеполученных метаданных обновляется привязанный объект "Scheme", либогенерируется новый и сохраняется в разделе интерфейса «Подключение/Scheme»,одновременно данный объект "Scheme" привязывается к объекту "Software System",из которого запускалась операция

"Software System" - объекты, описывающие внешние системы, к базам данных которых подключаетсяNeoflex Datagram.

Действия с объектами "Software System" выполняются в разделе интерфейса«Подключение/Software System».

Описание атрибутов объектов "Software System"

Операции, доступные для объектов "Software System"

Объекты "Deployment"

"Deployment" - это объекты, обеспечивающие связь между объектами "Software System" и "JDBCConnection".

Действия с объектами "Deployment" выполняются в разделе интерфейса«Подключение/Deployment».

af://n440


Описание

Name Да

Название объекта. При указании имени необходимо учитывать, что оно должноудовлетворять правилам формирования идентификаторов вязыке Java Пример: DemoDeployment

Project НетПроект, к которому привязан объект "Deployment" Пример: DemoProject

Connection Нет

Объект "JDBC Connection", который привязан к объекту"Deployment" Пример:Demo_JdbcConnection

SoftwareSystem

Нет

Объект "Software System", который привязан к объекту"Deployment" Пример: DemoSoftwareSystem

LoadStoredProcs

НетПри включении параметра, программа будет выполнять загрузкуметаданных по хранимым процедурам


Описание

Обновитьсхему

Операция посредством объекта "JDBC Connection", который указан в атрибутахобъекта "Deployment", считывает метаданные БД внешней системы. На основеполученных метаданных обновляет имеющийся объект "Scheme", либо генерируетновый и сохраняет его в разделе интерфейса «Подключение/Scheme». Далеепривязывает (обновленный или созданный) объект "Scheme" к объекту "SoftwareSystem", выбранному в настройках объекта "Deployment"

Описание атрибутов объектов "Deployment"

Операции, доступные для объектов "Deployment"

Объекты "Scheme"

Объекты "Scheme" хранят следующую информацию о базе данных внешней системы:

views - список динамически формируемых таблиц;

af://n481


Описание

Name Да

Название объекта. При указании имени необходимо учитывать, что оно должносоответствовать названию объекта SoftwareSystem и не должносодержать подчеркиваний Пример: DemoSoftwareSystem

tables - список таблиц базы данных;Stored Procedures - список хранимых процедур БД.

Данные объекты могут быть созданы:

Автоматически - при выполнении команды "Обновить схему" объектов "Software System" или"Deployment";Вручную - в разделе интерфейса "Подключение/Scheme".

Объекты "Jdbc Context"

"Jdbc Context" - это объекты, обеспечивающие выбор подключения к базе данных внешней системы внастройках элементов дизайнера трансформаций (см. раздел «Элементы диаграмм трансформаций»).

Действия с объектами Jdbc Context выполняются в разделе интерфейса «ETL/Jdbc Context».

Описание атрибутов объектов "Jdbc Context"

Подключение Neoflex Datagram к исполняющимсредам

В зависимости от выполняемой задачи (выполнение преобразований или управление потоком работпо преобразованию данных), Neoflex Datagram может взаимодействовать с одной из исполняющихсред:

Oozie - исполняет объекты Workflow;Livy Server - исполняет объекты Transformation.

af://n498af://n513http://oozie.apache.org/docs/4.2.0/https://hortonworks.com/blog/livy-a-rest-interface-for-apache-spark/

Для взаимодействия с исполняющими средами в программе Neoflex Datagram должны быть созданы инастроены объекты:

Oozie;Workflow Deployment;Livy Server (работает со Spark версии 2.Х и выше);Transformation Deployment;Coordinator Deployment - для развертывания заданий планировщика задач Oozie.

Объекты "Oozie"

Объекты "Oozie" хранят параметры подключения к серверу Oozie и управления исполняющей средой.

Действия с объектами "Oozie" выполняются в разделе интерфейса «Сервер/Oozie».

Описание атрибутов объектов "Oozie"

af://n536

АтрибутОбязательно заполнение

Описание

Name Да

Название объекта "Oozie". При указании имени необходимо учитывать, что онодолжно удовлетворять правилам формированияидентификаторов в языке Java Пример: DemoOozie

Project НетПроект, к которому привязан объект "Oozie" Пример: DemoProject

Job Traсker ДаUrl-адрес Job Tracker Пример: cloud.neo.ru:8050

Name Node ДаПараметры доступа к файловой системе HDFS Пример: hdfs://cloud.neo.ru:8020

Master Да

Url-адрес для подключения к кластеру (подробноеописание) Пример: spark://192.168.2.65:5310, local[4]

Mode Нет

Атрибут определяет вариант развертывания драйвераSpark: client (по умолчанию) - на локальной машине в качествевнешнего клиента; cluster - на рабочем узле; yarn - YARN кластер. Конфигурация кластера задаетсяпеременными окружения

is Default Нет

При включенном параметре, объект "Oozie" будетиспользоваться по умолчанию при запуске на исполнениеобъектов "Workflow". В случае если в Neoflex Datagram создано несколько объектов"Oozie", и у всех включен параметр is default, то дляисполнения объекта "Workflow", объект "Oozie" будет выбранслучайно

Spark 2 НетПараметр требует включения, если используется Sparkверсии 2.1 и выше

Аутентификация НетПри включенном параметре для подключения к серверуSpark будет использоваться алгоритм аутентификацииKerberos

https://spark.apache.org/docs/latest/submitting-applications.html#master-urls


Описание

Путь к keytab Нет Путь к файлу, в котором хранятся пароли principal

User Principal Нет Principal, под которым авторизуется Meta Server

HCAT URL Нет Url-адрес Hive metastore

HCAT Principal Нет Principal, под которым авторизуется Hive

Num Executors ДаКоличество исполняющих процессов Spark Пример: 5

Executor Cores Да

Количество ядер, задействованных для реализацииисполняющего процесса Spark Пример: 2

Driver Memory Да

Объем памяти, используемый для инициализацииSparkContext Пример: 512m, 2g

ExecutorMemory

Да

Объем памяти, используемый для каждого исполняющегопроцесса Spark Пример: 512m, 2g

Queue Нет YARN очередь, в которой будет выполняться задача

Retry Max НетКоличество попыток запуска на исполнение задачи Spark Пример: 5

Retry Interval Нет

Временной интервал между попытками запуска наисполнение задачи Spark Пример: 10

Cred Нет Учетные данные реализаций (подробнее)

Sftp Нет

Параметр не используется. Sftp-адрес сервера, на котором разворачиваются артефактыобъектов "Workflow" Пример: sftp://192.168.2.44

https://oozie.apache.org/docs/4.2.0/DG_ActionAuthentication.html#Built-in_Credentials_Implementations


Описание

Http ДаUrl-адрес Oozie API Пример: http://cloud.neo.ru:12000

Webhdfs НетUrl-адрес HDFS API Пример: http://cloud3.neo.ru:50070/webhdfs/v1

Home Да

Каталог в HDFS, используемый для развертывания"Workflow" Пример: /user

User Да

Пользователь HDFS, от имени которого разворачиваются"Workflow" Пример: hdfs

Files Browser Util Нет Url web-консоли Hadoop

Объекты "Workflow Deployment"

Объекты "Workflow Deployment" создают комплект файлов, описывающих "Workflow", передают их насервер Oozie и запускают исполнение.

Действия с объектами "Workflow Deployment" выполняются в разделе интерфейса«Развертывание/Workflow Deployment».


В списке могут присутствовать объекты "Workflow Deploement" с названием«autogenerated_[workflow name]». Данные объекты создаются автоматически при запуске наисполнение объектов "Workflow" без указания конкретного объекта "Workflow Deployment".

Описание атрибутов объектов "Workflow Deploement"

http://cloud.neo.ru:12000/http://cloud3.neo.ru:50070/webhdfs/v1af://n656


Описание

Name Да

Название объекта. При указании имени необходимо учитывать, что оно должноудовлетворять правилам формирования идентификаторов вязыке Java Пример: DemoWorkflowDeployment

Project НетПроект, к которому привязан объект "Workflow Deployment" Пример: DemoProject

Oozie Нет

Объект "Oozie", описывающий подключение к серверу накотором исполняется объект "Workflow Deploement" Пример: DemoOozie

Deployments Нет

Список объектов "Deployment", при помощи которыхосуществляется доступ к базам данных внешних систем Пример: DemoDeployment

Start Нет Разворачиваемый объект Workflow

Debug НетПри включенном параметре создаются файлы спромежуточным результатом трансформации

Slide Size Нет

Количество данных, которое единовременно записывается вJdbc приемник данных Пример: 500

Reject Size Нет

Максимально допустимое количество ошибок при записиданных в Jdbc приемник данных. При превышенииустановленного значения, выполнение трансформации будетпринудительно завершено Пример: 1000

Fetch Size Нет

Количество данных, которое единовременно считывается изJdbc источника данных Пример: 100000

PartitionNum

Нет

Количество рабочих процессов, исполняемых при записиданных в Jdbc приемник данных Пример: 4


Описание

Master Да

Url-адрес для подключения к кластеру (подробное описание) Данная настройка объекта "Workflow Deployment" имеетприоритет над аналогичной настройкой объекта "Oozie" Пример: spark://192.168.2.65:5310, local[4]

Mode Нет

Атрибут определяет вариант развертывания драйвера Spark: client (по умолчанию) - на локальной машине в качествевнешнего клиента; cluster - на рабочем узле; yarn - YARN кластер. Конфигурация кластера задаетсяпеременными окружения Данная настройка объекта "Workflow Deployment" имеетприоритет над аналогичной астройкой объекта "Oozie"

NumExecutors

Нет

Количество исполняющих процессов Spark Данная настройка объекта "Workflow Deployment" имеетприоритет над аналогичной настройкой объекта "Oozie" Пример: 5

ExecutorCores

Нет

Количество ядер, задействованных для реализацииисполняющего процесса Spark Данная настройка объекта "Workflow Deployment" имеетприоритет над аналогичной настройкой объекта "Oozie" Пример: 2

DriverMemory

Нет

Объем памяти, используемый для инициализации SparkContext Данная настройка объекта "Workflow Deployment" имеетприоритет над аналогичной настройкой объекта "Oozie" Пример: 512m, 2g

ExecutorMemory

Нет

Объем памяти, используемый для каждого исполняющегопроцесса Spark Данная настройка объекта "Workflow Deployment" имеетприоритет над аналогичной настройкой объекта "Oozie" Пример: 512m, 2g

Jvm Opts Нет Опции Java Virtual Machine

Persist OnDisk

НетЕсли параметр включен, то при выполнении операции CheckPoint будет происходить сохранение промежуточных данных надиск, а не в память

https://spark.apache.org/docs/latest/submitting-applications.html


Описание

DynamicAllocation

НетПри помощи данного параметра можно включить механизмраспределения ресурсов в зависимости от рабочей нагрузки (поумолчанию выключено)

ПараметрОбязательно заполнение

Описание

Name Да Название параметра

Expression Нет Не используется для объектов "Workflow Deployment"

Description Нет Описание параметра


Описание

Name Да Название опции

Value Нет Значение опции

Описание параметров объектов "Workflow Deployment"

Описание опций Spark

Операции, доступные для объектов "Workflow Deployment"


Описание

ПроверитьNeoflex Datagram выполняет проверку корректности объекта "Workflow" ипривязанных объектов "Transformation"

СгенерироватьОперация генерирует файлы XML, описывающие объект "Workflow", и код наязыке Scala, описывающий связанные c объектом "Workflow" объекты"Transformation"

СобратьПри выполнении операции происходит компиляция JAR-файлов из кода языкаScala, описывающего объекты "Transformation" и формирование каталогов сXML и JAR-файлами для передачи на Oozie

СкопироватьПри выполнении операции файлы XML и JAR копируются с сервера NeoflexDatagram в файловую систему ОС Linux сервера, на котором работает Oozie,далее выполняется копирование файлов в HDFS

Сгенерироватьи скопировать

Последовательно выполняет операции: сгенерировать, собрать, скопировать

Запустить Операция запускает исполнение файлов XML и JAR на Oozie

Сгенерироватьи запустить

Последовательно выполняет операции: сгенерировать, собрать, скопировать изапустить

Собрать изапустить

Последовательно выполняет операции: собрать, скопировать и запустить

Объекты "Livy Server"

Объекты "Livy Server" хранят параметры подключения к серверу Livy и управления исполняющейсредой Spark версии 2.Х. и выше.

Действия с объектами "Livy Server" выполняются в разделе интерфейса «Сервер/Livy Server».

Описание атрибутов объектов "Livy Server"

af://n815


Описание

Name Да

Название объекта "Livy Server". При указании имени необходимо учитывать, что онодолжно удовлетворять правилам формированияидентификаторов в языке Java

Project Нет Объект "Project", к которому привязан объект LivyServer

Http ДаUrl-адрес Livy Server API Пример: http://cloud.company.ru:8090

Home НетКаталог, используемый для развертывания "Transformation" Пример: /user

User Нет

Пользователь HDFS, от имени которого разворачиваются"Transformation" Пример: hdfs

WebHDFS НетUrl-адрес HDFS API Пример: http://cloud3.company.ru:50070/webhdfs/v1

Аутентификация Kerberos

НетПри включенном параметре для подключения к серверуSpark будет использоваться алгоритм аутентификацииKerberos

Путь к keytab Нет Путь к файлу, в котором хранятся пароли для principal

User Principal Нет Principal, под которым авторизуется Meta Server


Executor Cores Да


Driver Memory Да


http://cloud.company.ru:8090/http://cloud3.company.ru:50070/webhdfs/v1


Описание

ExecutorMemory

Да


is default Нет

При включенном параметре, объект "Livy Server" будетиспользоваться по умолчанию при запуске на исполнениеобъектов "Transformation". Если в программе создано несколько объектов "Livy Server", и увсех включен параметр "is default", то для исполненияобъекта Transformation объект "Livy Server" будет выбранслучайно

Объекты "Transformation Deployment"

Объекты "Transformation Deployment" создают JAR-файлы, описывающие объекты "Transformation", иразворачивают их на сервере Livy.

Действия с объектами "Transformation Deployment" выполняются в разделе интерфейса«Развертывание/Transformation Deployment».


В списке могут присутствовать объекты "Transformation Deployment" с названием«autogenerated_[transformation name]». Данные объекты создаются автоматически при запускена исполнение объектов "Transformation" без указания объекта "Transformation Deploement".

Описание атрибутов объектов "Transformation Deployment"

af://n883


Описание

Name Да

Название объекта "Transformation Deployment. Имя объекта должно удовлетворять правилам формированияидентификаторов в языке Java Пример: DemoTransformationDeployment

Project Нет

Объект "Project", к которому привязан объект "TransformationDeployment" Пример: DemoProject

Livy Server Нет

Объект "Livy Server", который обеспечивает подключение кисполняющей среде Пример: DemoLivyServer

Transformation Нет

Объект "Transformation", который обрабатывается объектом"Transformation Deployment" Пример: DemoTransformation

Deployments Нет

Объект "Deployment" для доступа к базам данных внешнихсистем Пример: DemoDeployment

Debug НетПри включенном параметре создаются файлы спромежуточным результатом трансформации

Slide Size Нет

Количество данных, которое единовременно записывается вJdbc приемник данных Пример: 500

Reject Size Нет

Максимально допустимое количество ошибок при записиданных в Jdbc приемник данных. При превышенииустановленного значения, выполнение трансформации будетпринудительно завершено Пример: 1000

Fetch Size Нет

Максимальный объем данных, единовременнозахватываемый из Jdbc источника данных Пример: 100000


Описание

Partition Num Нет

Количество рабочих процессов, исполняемых при записиданных в Jdbc приемник данных Пример: 4

Master ДаUrl-адрес для подключения к кластеру (подробное описание) Пример: spark://192.168.2.65:5310, local[4]

Mode Нет

Атрибут определяет вариант развертывания драйвера Spark: client (по умолчанию) - на локальной машине в качествевнешнего клиента; cluster - на рабочем узле; yarn - YARN кластер. Конфигурация кластера задаетсяпеременными окружения


Executor Cores Да


Driver Memory Да


ExecutorMemory

Да


Persist on disk НетЕсли параметр включен, то при выполнении операции "CheckPoint" будет происходить сохранение промежуточных данныхна диск, а не в память

is default Нет

При включенном параметре, объект "Livy Server" будетиспользоваться по умолчанию при запуске на исполнениеобъектов "Transformation". Если в программе создано несколько объектов "Livy Server", и увсех включен параметр "is default", то для исполнения объектаTransformation объект "Livy Server" будет выбран случайно

https://spark.apache.org/docs/latest/submitting-applications.html


Описание

Name Да Название параметра объекта

Expression Нет Поле не используется для объектов "Transformation Deployment"

Description Нет Описание параметра


Описание

ПроверитьNeoflex Datagram выполняет проверку корректности привязанного объекта"Transformation"

СгенерироватьОперация генерирует код на языке Scala, описывающий привязанный объект"Transformation"

СобратьПри выполнении операции происходит компиляция JAR-файлов из кода языкаScala, описывающего объекты "Transformation" для передачи на Livy Sеrver

СкопироватьПри выполнении операции JAR-файлы копируются с сервера Neoflex Datagramна исполняющую среду Livy Server

Сгенерироватьи скопировать

Последовательно выполняет операции: сгенерировать, собрать, скопировать

Запустить Операция запускает исполнение файлов JAR на Livy Server

Сгенерироватьи запустить

Последовательно выполняет операции: сгенерировать, собрать, скопировать изапустить

Собрать изапустить

Последовательно выполняет операции: собрать, скопировать и запустить

Описание параметров объектов "Transformation Deployment"

Операции, доступные для объектов "Transformation Deployment"

Объекты "Coordinator Deployment"

Объекты "Coordinator Deployment" создают файлы, описывающие объект "Co Job", передают их насервер Oozie и запускают исполнение задачи.

Действия с объектами "Coordinator Deployment" выполняются в разделе интерфейса«Развертывание/Coordinator Deployment».

Большинство атрибутов, параметров и операций объектов "Coordinator Deployment" аналогичныатрибутам, параметрам и операциям объектов "Workflow Deployment".

af://n1020


Описание

Coordinator НетНазвание привязанного объекта "Co Job" Пример: DemoCoJob

Job Id НетИдентификатор привязанного объекта "Co Job" (задаетсяпрограммой автоматически)


Описание

Текущее состояниеВыдает сообщение, описывающее текущее состояние исполнения объекта"Co Job"

Описание уникальных атрибутов объектов "Coordinator Deployment"

Уникальные операции объектов "Coordinator Deployment"

Трансформация исходных данных

Объекты "Transformation"

"Transformation" - это объекты, описывающие логику преобразований данных.

Действия с объектами "Transformation" выполняются в разделе интерфейса «ETL/Transformation».

Описание атрибутов объектов "Transformation"

af://n1049af://n1052


Описание

Name Да

Название объекта "Transformation". При указании имени необходимо учитывать, что оно должноудовлетворять правилам формирования идентификаторов вязыке Java Пример: DemoTransformationDeployment

Label НетПримечание или короткий комментарий (например:DemoLabel). Допускается использовать кириллицу

Project Нет Объект "Project", к которому привязан объект "Transformation"

Json View Нет Представление объекта в формате json

Sources НетОписание источников данных (sources), используемых в схеметрансформации

Targets НетОписание приемников данных (targets), используемых всхеме трансформации

Transformationsteps

НетОписание элементов преобразующих данные (datatransformation), используемых в схеме трансформации

Transitions НетОписание переходов (data flows) между элементами схемытрансформации

Parameters Нет

Параметры объекта "Transformation". Name - Название параметра объекта; Expression - Включение параметра означает, что значениеявляется выражением языка Scala. В обратном случае -текстовое значение; Description - Описание параметра


Для отправки измененных параметров объекта "Transformation" необходимо выполнить операцию«Запустить» для соответствующего объекта "Transformation Deployment".

Операции объектов "Transformation"


Описание

ИмпортИз каталога проекта, имя которого совпадает с именем объекта "Project", ккоторому привязан выбранный объект "Transformation", импортируются данныеобъекта "Transformation"

ЭкспортВ каталог проекта, имя которого совпадает с именем объекта "Project", к которомупривязан выбранный объект "Transformation", экспортируются данные объекта"Transformation"

ПроверитьОперация выполняет проверку корректности настроек объекта и логики егоработы

Запустить Операция запускает исполнение трансформации

Элементы диаграмм трансформаций

Группа элементов SOURCES

Local source

В качестве источника данных используется файл, хранимый в файловой системе HDFS сервера Oozie.При помощи данного элемента может быть создана схема потоковой обработки исходных данных.

Описание атрибутов элемента Local source

af://n1122af://n1124af://n1127


Описание

Name ДаНазвание элемента. Название должно удовлетворять правилам формированияидентификаторов в языке Java

Label Нет Краткое описание элемента

SampleSize

НетОграничение количества строк выводимых в окне просмотраданных

Checkpoint Нет

Включает/выключает функцию сохранения результата,полученного при выполнении данного элемента диаграммытрансформации (см. описание атрибута persistOnDisk объектов"Transformation Deployment")

Local filename

ДаПуть к файлу, используемому в качестве источника данных Пример: /user/hdfs/demo/demo.txt

Local FileFormat

Да

Формат записи данных в файле-источнике: JSON; PARQUET; ORC; JDBC; CSV

Streaming НетПри включенном параметре элемент трансформацииотслеживает появление новых данных и запускает исполнениетрансформации (потоковая обработка данных)

Options Нет

Опции элемента трансформации: key - название опции; value - значение опции Пример настройки опции для чтения данных из CSV файла, вкотором в качестве разделителя используется символ «;»: sep - значение поля key; ; - значение поля value

Outputport

Да

Описание формата исходящего потока данных, полученных врезультате выполнения данного элемента диаграммытрансформации и передаваемых следующему элементу (см.приложение «Соответствие типов полей в дизайнеретрансформаций классам языка Scala»)

Debug list НетСписок отладочных файлов, в которых содержитсяпромежуточный результат выполнения элемента


Описание



SampleSize


Checkpoint Нет


HDFS НетВключение параметра указывает на то, что файл-источникхранится в файловой системе HDFS, в обратном случае -используется файловая система хоста

Path Да Путь к файлу-источнику данных

Format ДаФормат файла-источника данных: CSV (описание атрибутов CSV); EXCEL (описание атрибутов Excel)

Header НетЕсли параметр включен, то при извлечении данных из файлабудет пропускаться первая строка (используется, если внеобходимо пропустить заголовок при считывании данных)

Outputport

Да



CSV source

В качестве источника данных может быть использован CSV файл или таблица Excel.

Описание атрибутов элемента CSV source

Атрибуты формата CSV

af://n1178


Описание

Charset Да Кодировка, используемая в файле-источнике

Delimiter ДаСимвол, используемый в качестве разделителя между значениямив CSV

Quote Нет

Символы, предназначенные для выделения значения,содержащего символы Delimiter Пример: Если в качестве разделителя используется символ [,], то значение2,5 должно быть обозначено: "2,5"

Escape НетСимволы, предназначенные для выделения значения,содержащего символы Quote

Comment НетСимвол, предназначенный для обозначения комментария. Строки,помеченные таким символом, игнорируются при извлеченииданных

Dateformat

НетОписание формата Date Пример: dd.mm.yyyy

Null value НетТекстовое значение, которое интерпретируется как Null при чтенииданных из файла-источника

Атрибуты формата Excel


Описание

Data address ДаАдрес данных для начала считывания (по умолчанию: А1) Пример: 'My Sheet'!B3:C35

Add colorcolumns

Да Окрашивание колонок (по умолчанию: false)

Treat emptyvalues asnull

НетЕсли параметр включен, то при чтении пустые значения будутопределены как Null

Timestampformat

НетОписание формата Timestamp Пример: mm-dd-yyyy hh:mm:ss

Max rows inmemory

Нет

Если значение установлено, то будет задействован streamingreader. Используется для считывания данных из большихфайлов Пример: 20

XML source

В качестве источника используется файл, содержащий данные в формате XML (более подробноеописание). Работа элемента поддержана в версии Spark 2.Х и выше.

Описание атрибутов элемента XML source

af://n1291https://github.com/databricks/spark-xml


Описание



Sample Size НетОграничение количества строк выводимых в окне просмотраданных

Checkpoint Нет




Charset Да Кодировка, используемая в файле

Row Tag Нет Тег XML-файла, который будет определен как строка

SamplingRatio

Да

Процент строк для определения типа данных в полях. Пример: так как xml может быть создан без проверки, то его содержимоеможет выглядеть следующим образом: 1 2 3 Январь В результате, если Sampling Ratio установить 75% (без последнейстроки), то тип данных для field1 определится как INTEGER. Если100%, то уже STRING

ExcludeAttribute

НетЕсли параметр включен, то при чтении атрибуты элементовбудут исключены

Treat EmptyValues AsNulls

НетЕсли параметр включен, то при чтении пустые значения будутопределены как Null


Описание

Mode Да

Выбор режима обработки поврежденных записей: PERMISSIVE (по умолчанию) - при обнаружении поврежденнойзаписи в строке устанавливается значение Null. Текстповрежденной строки сохраняетcя в новое поле, указанное впараметре Сolumn Name Of Corrupt Record; DROPMALFORMED - игнорирует поврежденную запись; FAILFAST - при обнаружении поврежденной записи выводитсообщение с предупреждением

ColumnName OfCorruptRecord

ДаНазвание поля, в котором сохраняются поврежденные строки врежиме PERMISSIVE

AttributePrefix

Да Символ, используемый для обособления атрибутов

Value Tag ДаТег, используемый в качестве метки для значения атрибутаэлемента, не имеющего наследников

IgnoreSurroundingSpaces

НетЕсли параметр включен, то при чтении данных пробелы,окружающие значение будут игнорироваться


Описание

ExplodeFields

Нет

Список полей, по которым будут развернуты строки, т.е. длякаждого элемента внутри указанного массива будет созданастрока во всем наборе данных. Список формируется при помощи параметров: alias - псевдоним поля; path - путь к полю. Пример: Содержимое xml файла: Иванов Петров Сидоров Иванов Петров Сидоров Если не указывать Explode Fields, то будет сформирован наборданных: Dep - employers Бухгалтерия - нечитаемая структура Если настроить Explode Fields: alias – emloyers; path – dep.employers, то сформируется набор данных: Dep - employers.fio Бухгалтерия - Иванов Бухгалтерия - Петров Бухгалтерия - Сидоров HR - Иванова HR - Петрова HR - Сидорова


Описание

Output port Да



Avro source

В качестве источника используется файл в формате *.avro.

Описание атрибутов элемента Avro source

af://n1378


Описание



SampleSize


Checkpoint Нет




SchemaHDFS

НетВключение параметра указывает на то, что файл схемы Avroхранится в файловой системе HDFS, в обратном случае -используется файловая система хоста

SchemaPath

Нет Путь к файлу схемы Avro, в котором описан формат сообщения

Charset Да Кодировка, используемая в файле-источнике

ExplodeFields

Да

Список полей, по которым будут развернуты строки. Списокформируется при помощи параметров: alias - псевдоним поля; fields - название поля

Outputport

Да



Expression source

В качестве источника данных используется массив (Array) элементов типа Map на языке Scala.

Описание атрибутов элемента Expression source

af://n1437


Описание



Checkpoint Нет


Expression Нет Выражение на языке Scala

Outputport

Да



SQL source

В качестве источника данных используются результат запроса к реляционной базе данных внешнейсистемы.

Описание атрибутов элемента SQL source

af://n1472


Описание



Sample Size(Количествовозвращаемыхстрок)


Checkpoint Нет

Включает/выключает функцию сохранения результата,полученного при выполнении данного элемента диаграммытрансформации (см. описание атрибута persistOnDiskобъектов "Transformation Deployment")

Context ДаОбъект "Jdbc Context

Documents

О руководствеО руко в о дс т в е Опис а н ие Neo ﬂ ex D a t a g ra m Qu ic k s t a rt Вход в программу Создание нового