146
О руководстве Описание Neoflex Datagram Quick start Вход в программу Создание нового проекта Создание и настройка трансформации Просмотр результата преобразования данных Создание и настройка потока работ Инструменты запуска приложений и мониторинга в Neoflex Datagram Работа с программой Подключение Neoflex Datagram к базам данных внешних систем Объекты "JDBC Connection" Объекты "Software System" Объекты "Deployment" Объекты "Scheme" Объекты "Jdbc Context" Подключение Neoflex Datagram к исполняющим средам Объекты "Oozie" Объекты "Workflow Deployment" Объекты "Livy Server" Объекты "Transformation Deployment" Объекты "Coordinator Deployment" Трансформация исходных данных Объекты "Transformation" Элементы диаграмм трансформаций Группа элементов SOURCES Local source CSV source XML source Avro source Expression source SQL source Hive source HBase source Table source Kafka source Группа элементов DATA TRANSFORM Join Aggregation Selection Projection Sequence Sort Group with state Union Drools Model based analysis Spark SQL Explode fields Группа элементов TARGETS Local target

О руководствеО руко в о дс т в е Опис а н ие Neo fl ex D a t a g ra m Qu ic k s t a rt Вход в программу Создание нового

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

  • О руководствеОписание Neoflex DatagramQuick start

    Вход в программуСоздание нового проектаСоздание и настройка трансформации

    Просмотр результата преобразования данныхСоздание и настройка потока работИнструменты запуска приложений и мониторинга в Neoflex Datagram

    Работа с программойПодключение Neoflex Datagram к базам данных внешних систем

    Объекты "JDBC Connection"Объекты "Software System"Объекты "Deployment"Объекты "Scheme"Объекты "Jdbc Context"

    Подключение Neoflex Datagram к исполняющим средамОбъекты "Oozie"Объекты "Workflow Deployment"Объекты "Livy Server"Объекты "Transformation Deployment"Объекты "Coordinator Deployment"

    Трансформация исходных данныхОбъекты "Transformation"Элементы диаграмм трансформаций

    Группа элементов SOURCESLocal sourceCSV sourceXML sourceAvro sourceExpression sourceSQL sourceHive sourceHBase sourceTable sourceKafka source

    Группа элементов DATA TRANSFORMJoinAggregationSelectionProjectionSequenceSortGroup with stateUnionDroolsModel based analysisSpark SQLExplode fields

    Группа элементов TARGETSLocal target

  • Table targetProcedure targetCSV targetXML targetStreaming targetHive targetHBase targetKafka target

    Агрегатные пользовательские функцииОбъекты "Scheme data set"

    Поток работОбъекты "Workflow"Элементы диаграмм объектов Workflow

    Группа элементов POINTStartEndKill

    Группа элементов RULEForkJoinDecision

    Группа элементов ACTIONTransformationWorkflowExecute shellExecute Java

    Запуск на исполнение настроенных объектов Transformation и WorkflowЗапуск исполнения настроенного объекта TransformationЗапуск исполнения настроенного объекта WorkflowЗапуск исполнения настроенного объекта Workflow по расписаниюОбъекты CoJob

    Подсистема переноса метаданныхГруппировка объектов программыОперации экспорта/импорта метаданных

    Адаптация подсистемы Meta Server для работы с разворачиваемым репозиториемОбъекты Environment

    Sandbox. Инструмент анализа данныхСоздание объекта ClusterСоздание WorkspaceНаполнение Workspace

    Импорт схемы в Jdbc workspaceИмпорт датасетовСоздание датасетов и child workspaces

    Child workspacesТипы датасетов

    DatasetHive datasetHive external datasetJdbc datasetJdbc table datasetLinked datasetNotebookReference dataset

  • Работа с датасетамиПросмотр данных датасетаПросмотр метаданных датасетаРедактирование атрибутов датасета

    Дополнительные возможности программыПеренос данных из CSV файлов в базу данных внешней системы

    Объекты Staging AreaЗапуск операций объектов по расписаниюStreaming. Потоковая обработка данных

    Объекты Events processorНастройка потоков данных и правил анализа

    Объекты FunctionSLA мониторинг задач Oozie

    ПриложенияПриложение 1. Соответствие типов полей в дизайнере трансформаций классам языка ScalaПриложение 2. Встроенные функции редактора выражений

    О руководстве В руководстве пользователя описаны возможности Neoflex Datagram по разработке приложений дляпреобразования данных.

    В главе «Quick start» представлен пример основных сценариев работы с программой:

    Запуск Neoflex Datagram;Создание нового проекта;Проектирование схемы преобразования данных;Создание потока управления преобразованием данных и запуск приложения;Контроль исполнения приложения и просмотр результата.

    В главе «Работа с программой» описаны:

    Подготовка запуска приложения;Интерфейс Neoflex Datagram;Подключение Neoflex Datagram к базам данных внешних систем и настройки взаимодействия сисполняющими средами;Элементы диаграмм трансформаций и потоков работ;Запуск исполнения объектов Workflow по расписанию;Дополнительные возможности программы.

    В связи с непрерывно ведущимися работами по усовершенствованию программы, следует отметить,что описание программы может отличаться от того, что Вы увидите на экране.

    Описание Neoflex Datagram Neoflex Datagram - это программная платформа предназначенная для разработки приложений попреобразованию данных. Neoflex Datagram поддерживает как пакетный, так и потоковый режимыобработки данных.

    af://n4af://n34

  • Ядром платформы является сервер метаданных, который обеспечивает хранение и предоставляетинструменты управления хранилищами данных, преобразованиями данных, источниками иприемниками данных, исполняющими средами и т.д.

    Neoflex Datagram поддерживает полный цикл разработки приложений по преобразованию данных:

    Визуальное проектирование схем преобразования данных;Визуальное проектирование потоков управления преобразованиями данных;Генерация исходного кода на языке Scala с библиотекой Apache Spark;Компиляция и генерация приложения;Развертывание приложения на исполняющей среде;Планирование исполнения приложения;Мониторинг исполнения приложения;Инструменты для остановки и перезапуска приложений.

    Архитектура Neoflex Datagram

    Устройство программной платформы

    Программная платформа разработана на базе архитектуры, управляемой моделью (MDA). Дляуправления моделями применяется Eclipse Modelling Framework (EMF). Для сохранения моделейприменяются PostgreSQL, Hibernate и Teneo. Для валидации моделей и трансформаций model-to-model(M2M) и model-to-text (M2T) применяется Eclipse Epsilon. Внутри платформы используются следующиетипы моделей: Authentication, Relational, ETL, Runtime, DWH, UI, Metadata.

    Исполняющие среды

    Исполняющие среды Neoflex Datagram базируются на Apache Spark.

    Neoflex Datagram может выполнять запуск приложений на серверах Apache Livy или Apache Oozie. Насервере Apache Livy запускаются приложения из сред разработки/отладки. Сервер Apache Oozieиспользуется для запуска отлаженных приложений на рабочей среде.

  • Дизайнер трансформаций

    Дизайнер трансформаций - интерфейс для визуальной разработки схем преобразования данных.

    В дизайнере трансформаций поддерживается широкий спектр источников/приемников данных:

    RDBMS источники/приемники данных использующие соединение JDBC (включая хранимыепроцедуры);Иерархические источники/приемники: XML, AVRO и JSON;Специфические форматы файловой системы HDFS: ORC, PARQUET;Источники/приемники данных: CSV, Apache Hive, Apache Kafka.

    Типы преобразований данных:

    Широкий набор операций реляционной алгебры: join, sort, aggregation, union, selection, projections,pivot, explode arrays, sequence generation;Специфические для Spark трансформации: Spark SQL - выполняет произвольные SQL запросы кпотокам данных;Алгоритмы машинного обучения с использованием Spark MLLib (decision trees, SVM, logisticregression и т.д.);Jboss Rules (Drools) - система управления бизнес правилами.

    Основные возможности:

    Поддержка типов данных полей: STRING, DECIMAL, INTEGER, DATE, TIME, DATETIME, BINARY,BOOLEAN, LONG, FLOAT, DOUBLE;Поддержка типов данных STRUCT и ARRAY;Отслеживание происхождения полей потока данных;Частичное выполнение преобразования с просмотром промежуточных результатов;Просмотр сгенерированного кода приложения, его редактирование и запуск на исполнение;Валидация трансформации на основе базы данных часто повторяемых ошибок;Поддержка Spark Catalyst Optimizer.

    Дизайнер Workflow

    Дизайнер Workflow - интерфейс для визуальной разработки потоков управленияпоследовательностями преобразований данных.

    Основные возможности:

    Создание потоков управления для параллельного или последовательного исполненияпреобразований данных, а также потоков управления с возможностью настройки условий длязапуска преобразований;Универсальные элементы управления преобразованиями: shell scripts и java scripts;Возможность создания потоков управления последовательностями преобразований сиспользованием вложенных объектов Workflow;Возможность настройки исполнения Workflow по расписанию или по событиям файловойсистемы.

    Безопасность

    Централизованная аутентификация пользователей с использованием корпоративного серверакаталогов (LDAP);Ролевая авторизация. Возможные роли: developer, operator, viewer;

  • Шифрование паролей доступа к внешним системам;Использование алгоритма аутентификации Kerberos для подключения к исполняющим средам.

    Версионность и teamwork

    Блокировка одновременных обновлений;Интеграция Apache Subversion;Поддержка иерархии проектов;Синхронизация с системой контроля версий TortoiseSVN для выбранного объекта или проекта;Защищенный от обновлений код (определяемый пользователем) сохраняется при обновленииверсии метаданных.

    Поддержка рабочих сред

    Поддержка цикла разработки: разработка->тестирование->Запуск на рабочей среде.

    Импорт/экспорт метаданных;Перенос метаданных между средами как полный, так и отдельного проекта;Перезапись URL-адресов, паролей и т.д. при переносе в новую среду.

    Дополнительные инструменты

    Консоль HDFS: просмотр, сохранение файлов из/в файловой системы HDFS;

    Консоль Livy: просмотр задач на сервере Livy, просмотр журналов, отмена задачи;

    Консоль Oozie: обзор задач workflow и координатора на сервере Oozie, просмотр журналов,отмена или перезапуск задач;

    Обозреватель объектов: просмотр дерева объектов метаданных.

     

    Quick start

    Вход в программу

    Запустите браузер и в адресной строке введите строку:

    http://host:port/cim/ddesigner/build/index.html?

    ,где host - хост сервера, на котором установлена программа, port - номер порта сервера.

    В окне браузера появится форма авторизации пользователя.

    af://n155af://n156

  • Для входа в программу укажите имя пользователя, пароль и нажмите кнопку «Вход». На экранепоявится стартовое окно Neoflex Datagram.

    Создание нового проекта

    af://n165

  • В разделе интерфейса «ETL/Project» создайте объект Project с названием «DemoProject» (остальныеполя оставьте пустыми).

     

    Примечание.

    Атрибуты объектов Project описаны в разделе руководства «Группировка объектов программы».

    Объект «DemoProject» необходимо создать, чтобы в дальнейшем привязать к нему объектыTransformation и Workflow, тем самым объединив их в группу. В последующем данную группуобъектов можно будет переносить между программными средами.

    Создание и настройка трансформации

    Внимание!

    Для выполнения действий, описанных далее, необходимо чтобы в программе были настроеныподключения к базе данных внешней системы и исполняющим средам.

     

    В разделе рассмотрен пример создания объекта Transformation, для переноса данных из CSV файла вфайлы формата JSON.

    Предварительно, в файловой системе HDFS, создайте файл-источник данных Demo.txt:

    1,Иванов,1000.00

    2,Петров,1200.00

    3,Сидоров,1250.00

    В разделе "ETL/Transformation" создайте объект с атрибутами:

    Name - DemoTransformation;Label - DemoLabelTransformation;Project - из списка выберите ранее созданный объект «DemoProject».

    Примечание.

    Атрибуты объектов Transformation описаны в разделе «Объекты Transformation».

     

    af://n174

  • Настройка и запуск трансформации

    Кнопкой откройте дизайнер трансформаций. В дизайнере трансформаций перетащите элементы

    CSV source и Local target в рабочую область и укажите направление процесса переноса данных, какпоказано на рисунке ниже.

     

    На заметку.

    При переносе элементов в рабочую область, программа автоматически задаст им названия.

    Кликните по элементу «CSV_source1», чтобы открыть панель свойств.

    Для элемента «CSV_source1» установите следующие настройки:

    В поле Path укажите путь к файлу, из которого будут переноситься данные (например:/user/Demo.txt);

    В группе CSV в поле Delimeter введите символ, который служит разделителем значений в файле-источнике (в примере это запятая);

    В группе OUT PORT->Fields добавьте три поля:

    id - Integer

    name - string

    salary - decimal

    Для остальных настроек оставьте дефолтные значения.

    Настройте элемент «Local_target2»:

    В списке Local file format выберите JSON;

  • В поле local file name укажите каталог, в который будет записан результат трансформации(пример: /user/demo/demo.json);

    В поле Input fields mapping настройте соответствие полей:

    ID - id

    NAME - name

    SALARY - salary

    В поле Partitions добавьте каталог id, который будет входить в каталог demo.json;

    Для остальных настроек оставьте значения, которые были заданы программой автоматически.

    Примечание.

    Элементы диаграмм трансформаций описаны в разделе «Элементы диаграмм трансформаций».

    Сохраните настройки кнопкой . Откройте список операций кнопкой и запустите операцию

    "Проверить" для автоматической проверки синтаксиса трансформации. Если действия инструкциивыполнены правильно, то программа не обнаружит ошибок.

    На заметку.

    В случае обнаружения программой ошибок проверьте код трансформации, для этоговоспользуйтесь редактором исходного кода.

    Выполните операцию "Запустить" для запуска исполнения трансформации. После запуска объекта наисполнение, в разделе интерфейса "Развертывание/Transformation Deployment" будет созданобъект с названием «autogenerated_tr_DemoTransformation», который выполнит развертывание изапуск исполнения «DemoTransformation» на исполняющей среде Livy Server.

    На заметку.

    По кнопке можно создать новый объект Transformation Deployment.

    Атрибуты объектов Transformation Deployment описаны в разделе «Объекты TransformationDeployment».

    Дождитесь окончания исполнения трансформации - на экране появится сообщение:

    В случае успешного исполнения трансформации, на экране появится окно с сообщением: «Ок».

    Если в ходе исполнения объекта возникнет ошибка, то на экране появится окно с текстом,описывающим ошибку.

    Просмотр результата преобразования данных

    Чтобы просмотреть файлы, полученные в результате исполнения трансформации, перейдите винтерфейс консоли HDFS. Для этого перейдите в раздел "Сервер/Livy", в списке выберите сервер накотором разворачивалась трансформация. На открывшейся странице нажмите кнопку и в списке

    выберите пункт "Консоль HDFS". В консоли перейдите в каталог, который создан в результатевыполнения трансформации (данный каталог указывался в настройках элемента "Local_target2" в поле"local file name").

    af://n252

  • Создание и настройка потока работ

    Создаваемый объект Workflow будет выполнять следующие действия:

    1. Запускать трансформацию «DemoTransformation»;2. Анализировать ее выполнение:

    При успешном выполнении трансформации процесс будет завершен;При обнаружении ошибки процесс будет прерван.

    В разделе "ETL/Workflow" создайте объект с атрибутами:

    Name - DemoWorkflow;Label - DemoLabel;Project - из списка выберите ранее созданный объект DemoProject.

    Примечание.

    Атрибуты объектов Workflow описаны в разделе «Объекты Workflow».

    Настройка диаграммы потока работ

    Кнопкой откройте дизайнер потока работ. В рабочую область дизайнера перетащите элементы

    Start, End, Transformation и Kill. Укажите направление потоков управления, как показано на рисункениже.

    af://n256

  •  

    Настройте элементы схемы:

    Для элемента «transformation» в поле «transformation» выберите значение«DemoTransformation», в остальных полях оставьте дефолтные значения;В настройках элемента «kill» в поле «message» укажите текст сообщения об ошибке, например:«Ошибка! Процесс остановлен». В остальных полях оставьте значения, которые были заданыпрограммой автоматически.

    Примечание.

    Элементы диаграмм потоков работ описаны в разделе «Элементы диаграмм объектов Workflow».

    Сохраните настройки кнопкой . Откройте список операций кнопкой и запустите операцию

    "Проверить", программа автоматически проверит синтаксис настроенной диаграммы объекта«DemoWorkflow». Если проверка прошла успешно (это должно быть именно так, если действия,описанные в инструкции, выполнены правильно), то запустите объект на исполнение (операция"Запустить")

    После запуска объекта на исполнение, в разделе интерфейса «Развертывание/WorkflowDeployment» будет создан объект «autogenerated_wf_DemoWorkflow», который развернет и запуститисполнение «DemoWorkflow» на исполняющей среде Oozie.

    На заметку.

    По кнопке можно создать новый объект Workflow Deployment.

    Атрибуты объектов Workflow Deployment описаны в разделе «Объекты Workflow Deployment».

    Дождитесь окончания исполнения объекта - на экране появится сообщение:

    В случае успешного исполнения, на экране появится окно с сообщением: «Ок».

  • Если в ходе исполнения объекта возникнет ошибка, то на экране появится окно с текстом,описывающим ошибку.

    Инструменты запуска приложений и мониторинга вNeoflex Datagram

    Запуск исполнения объектов Workflow или Transformation выполняется приложением Meta Server исостоит из фаз:

    1. Генерация исходных файлов;2. Компиляция задачи;3. Развертывание задачи на исполняющей среде;4. Запуск исполнения задачи через планировщик задач (Oozie или Livy Server);5. Выполнение задачи на исполняющей среде.

    Фазы 1, 2, 3 выполняются приложением Meta Server .

    Фаза 4 выполняется приложением Meta Server через планировщик задач Spark - Oozie или Livy Server.

    Фаза 5 выполняется в Hadoop.

    Для мониторинга процессов в Neoflex Datagram используются инструменты:

    Logger - отображает в реальном времени логи работы приложения Meta Server (фазы 1, 2, 3 иначало 4).

    af://n306

  • Консоли Livy и Oozie - в интерфейсах консолей выводятся данные о результатах исполненияконкретных объектов Transformation и Workflow на исполняющих средах Hartoonworks DataPlatform (фаза 5).

    Работа с программой

    Подключение Neoflex Datagram к базам данныхвнешних систем

    Для подключения Neoflex Datagram к базе данных внешней системы необходимо создать и настроитьобъекты:

    JDBC Connection;Software System;Deployment;Scheme;JDBC Context.

     

    Объекты "JDBC Connection"

    Объекты "JDBC Connection" хранят параметры подключения к базам данных внешнних систем.

    Настройка объектов выполняется в разделе интерфейса «Подключение/JDBC Connection».

     

    Описание атрибутов объектов "JDBC Connection"

    af://n330af://n332af://n349

  • АтрибутОбязательнозаполнение

    Описание

    Name Да

    Название объекта. При указании имени необходимо учитывать, что оно должноудовлетворять правилам формирования идентификаторов в языкеJava Пример: DemoJdbcConnection

    Project НетПроект, к которому привязан объект "JDBC Connection" Пример: DemoProject

    Url ДаUrl-адрес для подключения к базе данных внешней системы Пример: jdbc:oracle:thin:@192.168.0.198:1522

    Scheme Да scheme в терминах JDBC

    Catalog Нет catalog в терминах JDBC

    User Да

    Имя пользователя, используемое для подключения к базе данныхвнешней системы Пример: system

    Password Нет

    Пароль, используемый для подключения к базе данных внешнейсистемы. Рекомендуется использовать скрытый способ хранения паролей (см.раздел «Хранение паролей в системе»)

    Driver Да

    Название драйвера для подключения к базе данных. Название используемого драйвера зависит от типа и версии БД, ккоторой выполняется подключение Пример: oracle.jdbc.driver.OracleDriver

    Названиеоперации

    Описание

    ПротестироватьОперация выполняет проверку соединения с базой данных внешнейсистемы

     

    Операции, доступные для объектов "JDBC Connection"

    Объекты "Software System"

    af://n402

  • АтрибутОбязательнозаполнение

    Описание

    Name Да

    Название объекта. При указании имени необходимо учитывать, что оно должноудовлетворять правилам формирования идентификаторов вязыке Java и не содержать подчеркиваний Пример: DemoSoftwareSystem

    Project НетПроект, к которому привязан объект "Software System" Пример: DemoProject

    Scheme НетНазвание объекта "Scheme", описывающего базу данныхвнешней системы (см. раздел "Объекты "Scheme"")

    DefaultDeployment

    Нет

    Объект "Deployment", к которому привязан объект "SoftwareSystem" Пример: DemoDeployment

    Названиеоперации

    Описание

    Обновитьсхему

    При запуске операции считываются метаданные БД внешней системы. На основеполученных метаданных обновляется привязанный объект "Scheme", либогенерируется новый и сохраняется в разделе интерфейса «Подключение/Scheme»,одновременно данный объект "Scheme" привязывается к объекту "Software System",из которого запускалась операция

    "Software System" - объекты, описывающие внешние системы, к базам данных которых подключаетсяNeoflex Datagram.

    Действия с объектами "Software System" выполняются в разделе интерфейса«Подключение/Software System».

     

    Описание атрибутов объектов "Software System"

     

    Операции, доступные для объектов "Software System"

    Объекты "Deployment"

    "Deployment" - это объекты, обеспечивающие связь между объектами "Software System" и "JDBCConnection".

    Действия с объектами "Deployment" выполняются в разделе интерфейса«Подключение/Deployment».

    af://n440

  • АтрибутОбязательнозаполнение

    Описание

    Name Да

    Название объекта. При указании имени необходимо учитывать, что оно должноудовлетворять правилам формирования идентификаторов вязыке Java Пример: DemoDeployment

    Project НетПроект, к которому привязан объект "Deployment" Пример: DemoProject

    Connection Нет

    Объект "JDBC Connection", который привязан к объекту"Deployment" Пример:Demo_JdbcConnection

    SoftwareSystem

    Нет

    Объект "Software System", который привязан к объекту"Deployment" Пример: DemoSoftwareSystem

    LoadStoredProcs

    НетПри включении параметра, программа будет выполнять загрузкуметаданных по хранимым процедурам

    Названиеоперации

    Описание

    Обновитьсхему

    Операция посредством объекта "JDBC Connection", который указан в атрибутахобъекта "Deployment", считывает метаданные БД внешней системы. На основеполученных метаданных обновляет имеющийся объект "Scheme", либо генерируетновый и сохраняет его в разделе интерфейса «Подключение/Scheme». Далеепривязывает (обновленный или созданный) объект "Scheme" к объекту "SoftwareSystem", выбранному в настройках объекта "Deployment"

     

    Описание атрибутов объектов "Deployment"

     

    Операции, доступные для объектов "Deployment"

    Объекты "Scheme"

    Объекты "Scheme" хранят следующую информацию о базе данных внешней системы:

    views - список динамически формируемых таблиц;

    af://n481

  • АтрибутОбязательнозаполнение

    Описание

    Name Да

    Название объекта. При указании имени необходимо учитывать, что оно должносоответствовать названию объекта SoftwareSystem и не должносодержать подчеркиваний Пример: DemoSoftwareSystem

    tables - список таблиц базы данных;Stored Procedures - список хранимых процедур БД.

    Данные объекты могут быть созданы:

    Автоматически - при выполнении команды "Обновить схему" объектов "Software System" или"Deployment";Вручную - в разделе интерфейса "Подключение/Scheme".

    Объекты "Jdbc Context"

    "Jdbc Context" - это объекты, обеспечивающие выбор подключения к базе данных внешней системы внастройках элементов дизайнера трансформаций (см. раздел «Элементы диаграмм трансформаций»).

    Действия с объектами Jdbc Context выполняются в разделе интерфейса «ETL/Jdbc Context».

     

    Описание атрибутов объектов "Jdbc Context"

    Подключение Neoflex Datagram к исполняющимсредам

    В зависимости от выполняемой задачи (выполнение преобразований или управление потоком работпо преобразованию данных), Neoflex Datagram может взаимодействовать с одной из исполняющихсред:

    Oozie - исполняет объекты Workflow;Livy Server - исполняет объекты Transformation.

    af://n498af://n513http://oozie.apache.org/docs/4.2.0/https://hortonworks.com/blog/livy-a-rest-interface-for-apache-spark/

  •  

    Для взаимодействия с исполняющими средами в программе Neoflex Datagram должны быть созданы инастроены объекты:

    Oozie;Workflow Deployment;Livy Server (работает со Spark версии 2.Х и выше);Transformation Deployment;Coordinator Deployment - для развертывания заданий планировщика задач Oozie.

    Объекты "Oozie"

    Объекты "Oozie" хранят параметры подключения к серверу Oozie и управления исполняющей средой.

    Действия с объектами "Oozie" выполняются в разделе интерфейса «Сервер/Oozie».

     

    Описание атрибутов объектов "Oozie"

    af://n536

  • АтрибутОбязательно заполнение

    Описание

    Name Да

    Название объекта "Oozie". При указании имени необходимо учитывать, что онодолжно удовлетворять правилам формированияидентификаторов в языке Java Пример: DemoOozie

    Project НетПроект, к которому привязан объект "Oozie" Пример: DemoProject

    Job Traсker ДаUrl-адрес Job Tracker Пример: cloud.neo.ru:8050

    Name Node ДаПараметры доступа к файловой системе HDFS Пример: hdfs://cloud.neo.ru:8020

    Master Да

    Url-адрес для подключения к кластеру (подробноеописание) Пример: spark://192.168.2.65:5310, local[4]

    Mode Нет

    Атрибут определяет вариант развертывания драйвераSpark: client (по умолчанию) - на локальной машине в качествевнешнего клиента; cluster - на рабочем узле; yarn - YARN кластер. Конфигурация кластера задаетсяпеременными окружения

    is Default Нет

    При включенном параметре, объект "Oozie" будетиспользоваться по умолчанию при запуске на исполнениеобъектов "Workflow". В случае если в Neoflex Datagram создано несколько объектов"Oozie", и у всех включен параметр is default, то дляисполнения объекта "Workflow", объект "Oozie" будет выбранслучайно

    Spark 2 НетПараметр требует включения, если используется Sparkверсии 2.1 и выше

    Аутентификация НетПри включенном параметре для подключения к серверуSpark будет использоваться алгоритм аутентификацииKerberos

    https://spark.apache.org/docs/latest/submitting-applications.html#master-urls

  • АтрибутОбязательно заполнение

    Описание

    Путь к keytab Нет Путь к файлу, в котором хранятся пароли principal

    User Principal Нет Principal, под которым авторизуется Meta Server

    HCAT URL Нет Url-адрес Hive metastore

    HCAT Principal Нет Principal, под которым авторизуется Hive

    Num Executors ДаКоличество исполняющих процессов Spark Пример: 5

    Executor Cores Да

    Количество ядер, задействованных для реализацииисполняющего процесса Spark Пример: 2

    Driver Memory Да

    Объем памяти, используемый для инициализацииSparkContext Пример: 512m, 2g

    ExecutorMemory

    Да

    Объем памяти, используемый для каждого исполняющегопроцесса Spark Пример: 512m, 2g

    Queue Нет YARN очередь, в которой будет выполняться задача

    Retry Max НетКоличество попыток запуска на исполнение задачи Spark Пример: 5

    Retry Interval Нет

    Временной интервал между попытками запуска наисполнение задачи Spark Пример: 10

    Cred Нет Учетные данные реализаций (подробнее)

    Sftp Нет

    Параметр не используется. Sftp-адрес сервера, на котором разворачиваются артефактыобъектов "Workflow" Пример: sftp://192.168.2.44

    https://oozie.apache.org/docs/4.2.0/DG_ActionAuthentication.html#Built-in_Credentials_Implementations

  • АтрибутОбязательно заполнение

    Описание

    Http ДаUrl-адрес Oozie API Пример: http://cloud.neo.ru:12000

    Webhdfs НетUrl-адрес HDFS API Пример: http://cloud3.neo.ru:50070/webhdfs/v1

    Home Да

    Каталог в HDFS, используемый для развертывания"Workflow" Пример: /user

    User Да

    Пользователь HDFS, от имени которого разворачиваются"Workflow" Пример: hdfs

    Files Browser Util Нет Url web-консоли Hadoop

    Объекты "Workflow Deployment"

    Объекты "Workflow Deployment" создают комплект файлов, описывающих "Workflow", передают их насервер Oozie и запускают исполнение.

    Действия с объектами "Workflow Deployment" выполняются в разделе интерфейса«Развертывание/Workflow Deployment».

     

    На заметку.

    В списке могут присутствовать объекты "Workflow Deploement" с названием«autogenerated_[workflow name]». Данные объекты создаются автоматически при запуске наисполнение объектов "Workflow" без указания конкретного объекта "Workflow Deployment".

     

    Описание атрибутов объектов "Workflow Deploement"

    http://cloud.neo.ru:12000/http://cloud3.neo.ru:50070/webhdfs/v1af://n656

  • АтрибутОбязательно заполнение

    Описание

    Name Да

    Название объекта. При указании имени необходимо учитывать, что оно должноудовлетворять правилам формирования идентификаторов вязыке Java Пример: DemoWorkflowDeployment

    Project НетПроект, к которому привязан объект "Workflow Deployment" Пример: DemoProject

    Oozie Нет

    Объект "Oozie", описывающий подключение к серверу накотором исполняется объект "Workflow Deploement" Пример: DemoOozie

    Deployments Нет

    Список объектов "Deployment", при помощи которыхосуществляется доступ к базам данных внешних систем Пример: DemoDeployment

    Start Нет Разворачиваемый объект Workflow

    Debug НетПри включенном параметре создаются файлы спромежуточным результатом трансформации

    Slide Size Нет

    Количество данных, которое единовременно записывается вJdbc приемник данных Пример: 500

    Reject Size Нет

    Максимально допустимое количество ошибок при записиданных в Jdbc приемник данных. При превышенииустановленного значения, выполнение трансформации будетпринудительно завершено Пример: 1000

    Fetch Size Нет

    Количество данных, которое единовременно считывается изJdbc источника данных Пример: 100000

    PartitionNum

    Нет

    Количество рабочих процессов, исполняемых при записиданных в Jdbc приемник данных Пример: 4

  • АтрибутОбязательно заполнение

    Описание

    Master Да

    Url-адрес для подключения к кластеру (подробное описание) Данная настройка объекта "Workflow Deployment" имеетприоритет над аналогичной настройкой объекта "Oozie" Пример: spark://192.168.2.65:5310, local[4]

    Mode Нет

    Атрибут определяет вариант развертывания драйвера Spark: client (по умолчанию) - на локальной машине в качествевнешнего клиента; cluster - на рабочем узле; yarn - YARN кластер. Конфигурация кластера задаетсяпеременными окружения Данная настройка объекта "Workflow Deployment" имеетприоритет над аналогичной астройкой объекта "Oozie"

    NumExecutors

    Нет

    Количество исполняющих процессов Spark Данная настройка объекта "Workflow Deployment" имеетприоритет над аналогичной настройкой объекта "Oozie" Пример: 5

    ExecutorCores

    Нет

    Количество ядер, задействованных для реализацииисполняющего процесса Spark Данная настройка объекта "Workflow Deployment" имеетприоритет над аналогичной настройкой объекта "Oozie" Пример: 2

    DriverMemory

    Нет

    Объем памяти, используемый для инициализации SparkContext Данная настройка объекта "Workflow Deployment" имеетприоритет над аналогичной настройкой объекта "Oozie" Пример: 512m, 2g

    ExecutorMemory

    Нет

    Объем памяти, используемый для каждого исполняющегопроцесса Spark Данная настройка объекта "Workflow Deployment" имеетприоритет над аналогичной настройкой объекта "Oozie" Пример: 512m, 2g

    Jvm Opts Нет Опции Java Virtual Machine

    Persist OnDisk

    НетЕсли параметр включен, то при выполнении операции CheckPoint будет происходить сохранение промежуточных данных надиск, а не в память

    https://spark.apache.org/docs/latest/submitting-applications.html

  • АтрибутОбязательно заполнение

    Описание

    DynamicAllocation

    НетПри помощи данного параметра можно включить механизмраспределения ресурсов в зависимости от рабочей нагрузки (поумолчанию выключено)

    ПараметрОбязательно заполнение

    Описание

    Name Да Название параметра

    Expression Нет Не используется для объектов "Workflow Deployment"

    Description Нет Описание параметра

    ПараметрОбязательно заполнение

    Описание

    Name Да Название опции

    Value Нет Значение опции

     

    Описание параметров объектов "Workflow Deployment"

     

    Описание опций Spark

     

    Операции, доступные для объектов "Workflow Deployment"

  • Названиеоперации

    Описание

    ПроверитьNeoflex Datagram выполняет проверку корректности объекта "Workflow" ипривязанных объектов "Transformation"

    СгенерироватьОперация генерирует файлы XML, описывающие объект "Workflow", и код наязыке Scala, описывающий связанные c объектом "Workflow" объекты"Transformation"

    СобратьПри выполнении операции происходит компиляция JAR-файлов из кода языкаScala, описывающего объекты "Transformation" и формирование каталогов сXML и JAR-файлами для передачи на Oozie

    СкопироватьПри выполнении операции файлы XML и JAR копируются с сервера NeoflexDatagram в файловую систему ОС Linux сервера, на котором работает Oozie,далее выполняется копирование файлов в HDFS

    Сгенерироватьи скопировать

    Последовательно выполняет операции: сгенерировать, собрать, скопировать

    Запустить Операция запускает исполнение файлов XML и JAR на Oozie

    Сгенерироватьи запустить

    Последовательно выполняет операции: сгенерировать, собрать, скопировать изапустить

    Собрать изапустить

    Последовательно выполняет операции: собрать, скопировать и запустить

    Объекты "Livy Server"

    Объекты "Livy Server" хранят параметры подключения к серверу Livy и управления исполняющейсредой Spark версии 2.Х. и выше.

    Действия с объектами "Livy Server" выполняются в разделе интерфейса «Сервер/Livy Server».

     

    Описание атрибутов объектов "Livy Server"

    af://n815

  • АтрибутОбязательно заполнение

    Описание

    Name Да

    Название объекта "Livy Server". При указании имени необходимо учитывать, что онодолжно удовлетворять правилам формированияидентификаторов в языке Java

    Project Нет Объект "Project", к которому привязан объект LivyServer

    Http ДаUrl-адрес Livy Server API Пример: http://cloud.company.ru:8090

    Home НетКаталог, используемый для развертывания "Transformation" Пример: /user

    User Нет

    Пользователь HDFS, от имени которого разворачиваются"Transformation" Пример: hdfs

    WebHDFS НетUrl-адрес HDFS API Пример: http://cloud3.company.ru:50070/webhdfs/v1

    Аутентификация Kerberos

    НетПри включенном параметре для подключения к серверуSpark будет использоваться алгоритм аутентификацииKerberos

    Путь к keytab Нет Путь к файлу, в котором хранятся пароли для principal

    User Principal Нет Principal, под которым авторизуется Meta Server

    Num Executors ДаКоличество исполняющих процессов Spark Пример: 5

    Executor Cores Да

    Количество ядер, задействованных для реализацииисполняющего процесса Spark Пример: 2

    Driver Memory Да

    Объем памяти, используемый для инициализацииSparkContext Пример: 512m, 2g

    http://cloud.company.ru:8090/http://cloud3.company.ru:50070/webhdfs/v1

  • АтрибутОбязательно заполнение

    Описание

    ExecutorMemory

    Да

    Объем памяти, используемый для каждого исполняющегопроцесса Spark Пример: 512m, 2g

    is default Нет

    При включенном параметре, объект "Livy Server" будетиспользоваться по умолчанию при запуске на исполнениеобъектов "Transformation". Если в программе создано несколько объектов "Livy Server", и увсех включен параметр "is default", то для исполненияобъекта Transformation объект "Livy Server" будет выбранслучайно

    Объекты "Transformation Deployment"

    Объекты "Transformation Deployment" создают JAR-файлы, описывающие объекты "Transformation", иразворачивают их на сервере Livy.

    Действия с объектами "Transformation Deployment" выполняются в разделе интерфейса«Развертывание/Transformation Deployment».

     

    Примечание.

    В списке могут присутствовать объекты "Transformation Deployment" с названием«autogenerated_[transformation name]». Данные объекты создаются автоматически при запускена исполнение объектов "Transformation" без указания объекта "Transformation Deploement".

     

    Описание атрибутов объектов "Transformation Deployment"

    af://n883

  • АтрибутОбязательно заполнение

    Описание

    Name Да

    Название объекта "Transformation Deployment. Имя объекта должно удовлетворять правилам формированияидентификаторов в языке Java Пример: DemoTransformationDeployment

    Project Нет

    Объект "Project", к которому привязан объект "TransformationDeployment" Пример: DemoProject

    Livy Server Нет

    Объект "Livy Server", который обеспечивает подключение кисполняющей среде Пример: DemoLivyServer

    Transformation Нет

    Объект "Transformation", который обрабатывается объектом"Transformation Deployment" Пример: DemoTransformation

    Deployments Нет

    Объект "Deployment" для доступа к базам данных внешнихсистем Пример: DemoDeployment

    Debug НетПри включенном параметре создаются файлы спромежуточным результатом трансформации

    Slide Size Нет

    Количество данных, которое единовременно записывается вJdbc приемник данных Пример: 500

    Reject Size Нет

    Максимально допустимое количество ошибок при записиданных в Jdbc приемник данных. При превышенииустановленного значения, выполнение трансформации будетпринудительно завершено Пример: 1000

    Fetch Size Нет

    Максимальный объем данных, единовременнозахватываемый из Jdbc источника данных Пример: 100000

  • АтрибутОбязательно заполнение

    Описание

    Partition Num Нет

    Количество рабочих процессов, исполняемых при записиданных в Jdbc приемник данных Пример: 4

    Master ДаUrl-адрес для подключения к кластеру (подробное описание) Пример: spark://192.168.2.65:5310, local[4]

    Mode Нет

    Атрибут определяет вариант развертывания драйвера Spark: client (по умолчанию) - на локальной машине в качествевнешнего клиента; cluster - на рабочем узле; yarn - YARN кластер. Конфигурация кластера задаетсяпеременными окружения

    Num Executors ДаКоличество исполняющих процессов Spark Пример: 5

    Executor Cores Да

    Количество ядер, задействованных для реализацииисполняющего процесса Spark Пример: 2

    Driver Memory Да

    Объем памяти, используемый для инициализацииSparkContext Пример: 512m, 2g

    ExecutorMemory

    Да

    Объем памяти, используемый для каждого исполняющегопроцесса Spark Пример: 512m, 2g

    Persist on disk НетЕсли параметр включен, то при выполнении операции "CheckPoint" будет происходить сохранение промежуточных данныхна диск, а не в память

    is default Нет

    При включенном параметре, объект "Livy Server" будетиспользоваться по умолчанию при запуске на исполнениеобъектов "Transformation". Если в программе создано несколько объектов "Livy Server", и увсех включен параметр "is default", то для исполнения объектаTransformation объект "Livy Server" будет выбран случайно

     

    https://spark.apache.org/docs/latest/submitting-applications.html

  • ПараметрОбязательно заполнение

    Описание

    Name Да Название параметра объекта

    Expression Нет Поле не используется для объектов "Transformation Deployment"

    Description Нет Описание параметра

    Названиеоперации

    Описание

    ПроверитьNeoflex Datagram выполняет проверку корректности привязанного объекта"Transformation"

    СгенерироватьОперация генерирует код на языке Scala, описывающий привязанный объект"Transformation"

    СобратьПри выполнении операции происходит компиляция JAR-файлов из кода языкаScala, описывающего объекты "Transformation" для передачи на Livy Sеrver

    СкопироватьПри выполнении операции JAR-файлы копируются с сервера Neoflex Datagramна исполняющую среду Livy Server

    Сгенерироватьи скопировать

    Последовательно выполняет операции: сгенерировать, собрать, скопировать

    Запустить Операция запускает исполнение файлов JAR на Livy Server

    Сгенерироватьи запустить

    Последовательно выполняет операции: сгенерировать, собрать, скопировать изапустить

    Собрать изапустить

    Последовательно выполняет операции: собрать, скопировать и запустить

    Описание параметров объектов "Transformation Deployment"

     

    Операции, доступные для объектов "Transformation Deployment"

    Объекты "Coordinator Deployment"

    Объекты "Coordinator Deployment" создают файлы, описывающие объект "Co Job", передают их насервер Oozie и запускают исполнение задачи.

    Действия с объектами "Coordinator Deployment" выполняются в разделе интерфейса«Развертывание/Coordinator Deployment».

    Большинство атрибутов, параметров и операций объектов "Coordinator Deployment" аналогичныатрибутам, параметрам и операциям объектов "Workflow Deployment".

     

    af://n1020

  • АтрибутОбязательно заполнение

    Описание

    Coordinator НетНазвание привязанного объекта "Co Job" Пример: DemoCoJob

    Job Id НетИдентификатор привязанного объекта "Co Job" (задаетсяпрограммой автоматически)

    Названиеоперации

    Описание

    Текущее состояниеВыдает сообщение, описывающее текущее состояние исполнения объекта"Co Job"

    Описание уникальных атрибутов объектов "Coordinator Deployment"

     

    Уникальные операции объектов "Coordinator Deployment"

    Трансформация исходных данных

    Объекты "Transformation"

    "Transformation" - это объекты, описывающие логику преобразований данных.

    Действия с объектами "Transformation" выполняются в разделе интерфейса «ETL/Transformation».

     

    Описание атрибутов объектов "Transformation"

    af://n1049af://n1052

  • АтрибутОбязательно заполнение

    Описание

    Name Да

    Название объекта "Transformation". При указании имени необходимо учитывать, что оно должноудовлетворять правилам формирования идентификаторов вязыке Java Пример: DemoTransformationDeployment

    Label НетПримечание или короткий комментарий (например:DemoLabel). Допускается использовать кириллицу

    Project Нет Объект "Project", к которому привязан объект "Transformation"

    Json View Нет Представление объекта в формате json

    Sources НетОписание источников данных (sources), используемых в схеметрансформации

    Targets НетОписание приемников данных (targets), используемых всхеме трансформации

    Transformationsteps

    НетОписание элементов преобразующих данные (datatransformation), используемых в схеме трансформации

    Transitions НетОписание переходов (data flows) между элементами схемытрансформации

    Parameters Нет

    Параметры объекта "Transformation". Name - Название параметра объекта; Expression - Включение параметра означает, что значениеявляется выражением языка Scala. В обратном случае -текстовое значение; Description - Описание параметра

     

    На заметку.

    Для отправки измененных параметров объекта "Transformation" необходимо выполнить операцию«Запустить» для соответствующего объекта "Transformation Deployment".

     

    Операции объектов "Transformation"

  • Названиеоперации

    Описание

    ИмпортИз каталога проекта, имя которого совпадает с именем объекта "Project", ккоторому привязан выбранный объект "Transformation", импортируются данныеобъекта "Transformation"

    ЭкспортВ каталог проекта, имя которого совпадает с именем объекта "Project", к которомупривязан выбранный объект "Transformation", экспортируются данные объекта"Transformation"

    ПроверитьОперация выполняет проверку корректности настроек объекта и логики егоработы

    Запустить Операция запускает исполнение трансформации

    Элементы диаграмм трансформаций

    Группа элементов SOURCES

    Local source

    В качестве источника данных используется файл, хранимый в файловой системе HDFS сервера Oozie.При помощи данного элемента может быть создана схема потоковой обработки исходных данных.

    Описание атрибутов элемента Local source

    af://n1122af://n1124af://n1127

  • АтрибутОбязательно заполнение

    Описание

    Name ДаНазвание элемента. Название должно удовлетворять правилам формированияидентификаторов в языке Java

    Label Нет Краткое описание элемента

    SampleSize

    НетОграничение количества строк выводимых в окне просмотраданных

    Checkpoint Нет

    Включает/выключает функцию сохранения результата,полученного при выполнении данного элемента диаграммытрансформации (см. описание атрибута persistOnDisk объектов"Transformation Deployment")

    Local filename

    ДаПуть к файлу, используемому в качестве источника данных Пример: /user/hdfs/demo/demo.txt

    Local FileFormat

    Да

    Формат записи данных в файле-источнике: JSON; PARQUET; ORC; JDBC; CSV

    Streaming НетПри включенном параметре элемент трансформацииотслеживает появление новых данных и запускает исполнениетрансформации (потоковая обработка данных)

    Options Нет

    Опции элемента трансформации: key - название опции; value - значение опции Пример настройки опции для чтения данных из CSV файла, вкотором в качестве разделителя используется символ «;»: sep - значение поля key; ; - значение поля value

    Outputport

    Да

    Описание формата исходящего потока данных, полученных врезультате выполнения данного элемента диаграммытрансформации и передаваемых следующему элементу (см.приложение «Соответствие типов полей в дизайнеретрансформаций классам языка Scala»)

    Debug list НетСписок отладочных файлов, в которых содержитсяпромежуточный результат выполнения элемента

     

  • АтрибутОбязательно заполнение

    Описание

    Name ДаНазвание элемента. Название должно удовлетворять правилам формированияидентификаторов в языке Java

    Label Нет Краткое описание элемента

    SampleSize

    НетОграничение количества строк выводимых в окне просмотраданных

    Checkpoint Нет

    Включает/выключает функцию сохранения результата,полученного при выполнении данного элемента диаграммытрансформации (см. описание атрибута persistOnDisk объектов"Transformation Deployment")

    HDFS НетВключение параметра указывает на то, что файл-источникхранится в файловой системе HDFS, в обратном случае -используется файловая система хоста

    Path Да Путь к файлу-источнику данных

    Format ДаФормат файла-источника данных: CSV (описание атрибутов CSV); EXCEL (описание атрибутов Excel)

    Header НетЕсли параметр включен, то при извлечении данных из файлабудет пропускаться первая строка (используется, если внеобходимо пропустить заголовок при считывании данных)

    Outputport

    Да

    Описание формата исходящего потока данных, полученных врезультате выполнения данного элемента диаграммытрансформации и передаваемых следующему элементу (см.приложение «Соответствие типов полей в дизайнеретрансформаций классам языка Scala»)

    Debug list НетСписок отладочных файлов, в которых содержитсяпромежуточный результат выполнения элемента

    CSV source

    В качестве источника данных может быть использован CSV файл или таблица Excel.

    Описание атрибутов элемента CSV source

    Атрибуты формата CSV

    af://n1178

  • АтрибутОбязательно заполнение

    Описание

    Charset Да Кодировка, используемая в файле-источнике

    Delimiter ДаСимвол, используемый в качестве разделителя между значениямив CSV

    Quote Нет

    Символы, предназначенные для выделения значения,содержащего символы Delimiter Пример: Если в качестве разделителя используется символ [,], то значение2,5 должно быть обозначено: "2,5"

    Escape НетСимволы, предназначенные для выделения значения,содержащего символы Quote

    Comment НетСимвол, предназначенный для обозначения комментария. Строки,помеченные таким символом, игнорируются при извлеченииданных

    Dateformat

    НетОписание формата Date Пример: dd.mm.yyyy

    Null value НетТекстовое значение, которое интерпретируется как Null при чтенииданных из файла-источника

    Атрибуты формата Excel

  • АтрибутОбязательно заполнение

    Описание

    Data address ДаАдрес данных для начала считывания (по умолчанию: А1) Пример: 'My Sheet'!B3:C35

    Add colorcolumns

    Да Окрашивание колонок (по умолчанию: false)

    Treat emptyvalues asnull

    НетЕсли параметр включен, то при чтении пустые значения будутопределены как Null

    Timestampformat

    НетОписание формата Timestamp Пример: mm-dd-yyyy hh:mm:ss

    Max rows inmemory

    Нет

    Если значение установлено, то будет задействован streamingreader. Используется для считывания данных из большихфайлов Пример: 20

     

    XML source

    В качестве источника используется файл, содержащий данные в формате XML (более подробноеописание). Работа элемента поддержана в версии Spark 2.Х и выше.

    Описание атрибутов элемента XML source

    af://n1291https://github.com/databricks/spark-xml

  • АтрибутОбязательно заполнение

    Описание

    Name ДаНазвание элемента. Название должно удовлетворять правилам формированияидентификаторов в языке Java

    Label Нет Краткое описание элемента

    Sample Size НетОграничение количества строк выводимых в окне просмотраданных

    Checkpoint Нет

    Включает/выключает функцию сохранения результата,полученного при выполнении данного элемента диаграммытрансформации (см. описание атрибута persistOnDisk объектов"Transformation Deployment")

    HDFS НетВключение параметра указывает на то, что файл-источникхранится в файловой системе HDFS, в обратном случае -используется файловая система хоста

    Path Да Путь к файлу-источнику данных

    Charset Да Кодировка, используемая в файле

    Row Tag Нет Тег XML-файла, который будет определен как строка

    SamplingRatio

    Да

    Процент строк для определения типа данных в полях. Пример: так как xml может быть создан без проверки, то его содержимоеможет выглядеть следующим образом: 1 2 3 Январь В результате, если Sampling Ratio установить 75% (без последнейстроки), то тип данных для field1 определится как INTEGER. Если100%, то уже STRING

    ExcludeAttribute

    НетЕсли параметр включен, то при чтении атрибуты элементовбудут исключены

    Treat EmptyValues AsNulls

    НетЕсли параметр включен, то при чтении пустые значения будутопределены как Null

  • АтрибутОбязательно заполнение

    Описание

    Mode Да

    Выбор режима обработки поврежденных записей: PERMISSIVE (по умолчанию) - при обнаружении поврежденнойзаписи в строке устанавливается значение Null. Текстповрежденной строки сохраняетcя в новое поле, указанное впараметре Сolumn Name Of Corrupt Record; DROPMALFORMED - игнорирует поврежденную запись; FAILFAST - при обнаружении поврежденной записи выводитсообщение с предупреждением

    ColumnName OfCorruptRecord

    ДаНазвание поля, в котором сохраняются поврежденные строки врежиме PERMISSIVE

    AttributePrefix

    Да Символ, используемый для обособления атрибутов

    Value Tag ДаТег, используемый в качестве метки для значения атрибутаэлемента, не имеющего наследников

    IgnoreSurroundingSpaces

    НетЕсли параметр включен, то при чтении данных пробелы,окружающие значение будут игнорироваться

  • АтрибутОбязательно заполнение

    Описание

    ExplodeFields

    Нет

    Список полей, по которым будут развернуты строки, т.е. длякаждого элемента внутри указанного массива будет созданастрока во всем наборе данных. Список формируется при помощи параметров: alias - псевдоним поля; path - путь к полю. Пример: Содержимое xml файла: Иванов Петров Сидоров Иванов Петров Сидоров Если не указывать Explode Fields, то будет сформирован наборданных: Dep - employers Бухгалтерия - нечитаемая структура Если настроить Explode Fields: alias – emloyers; path – dep.employers, то сформируется набор данных: Dep - employers.fio Бухгалтерия - Иванов Бухгалтерия - Петров Бухгалтерия - Сидоров HR - Иванова HR - Петрова HR - Сидорова

  • АтрибутОбязательно заполнение

    Описание

    Output port Да

    Описание формата исходящего потока данных, полученных врезультате выполнения данного элемента диаграммытрансформации и передаваемых следующему элементу (см.приложение «Соответствие типов полей в дизайнеретрансформаций классам языка Scala»)

    Debug list НетСписок отладочных файлов, в которых содержитсяпромежуточный результат выполнения элемента

     

    Avro source

    В качестве источника используется файл в формате *.avro.

    Описание атрибутов элемента Avro source

    af://n1378

  • АтрибутОбязательно заполнение

    Описание

    Name ДаНазвание элемента. Название должно удовлетворять правилам формированияидентификаторов в языке Java

    Label Нет Краткое описание элемента

    SampleSize

    НетОграничение количества строк выводимых в окне просмотраданных

    Checkpoint Нет

    Включает/выключает функцию сохранения результата,полученного при выполнении данного элемента диаграммытрансформации (см. описание атрибута persistOnDisk объектов"Transformation Deployment")

    HDFS НетВключение параметра указывает на то, что файл-источникхранится в файловой системе HDFS, в обратном случае -используется файловая система хоста

    Path Да Путь к файлу-источнику данных

    SchemaHDFS

    НетВключение параметра указывает на то, что файл схемы Avroхранится в файловой системе HDFS, в обратном случае -используется файловая система хоста

    SchemaPath

    Нет Путь к файлу схемы Avro, в котором описан формат сообщения

    Charset Да Кодировка, используемая в файле-источнике

    ExplodeFields

    Да

    Список полей, по которым будут развернуты строки. Списокформируется при помощи параметров: alias - псевдоним поля; fields - название поля

    Outputport

    Да

    Описание формата исходящего потока данных, полученных врезультате выполнения данного элемента диаграммытрансформации и передаваемых следующему элементу (см.приложение «Соответствие типов полей в дизайнеретрансформаций классам языка Scala»)

    Debug list НетСписок отладочных файлов, в которых содержитсяпромежуточный результат выполнения элемента

     

    Expression source

    В качестве источника данных используется массив (Array) элементов типа Map на языке Scala.

    Описание атрибутов элемента Expression source

    af://n1437

  • АтрибутОбязательно заполнение

    Описание

    Name ДаНазвание элемента. Название должно удовлетворять правилам формированияидентификаторов в языке Java

    Label Нет Краткое описание элемента

    Checkpoint Нет

    Включает/выключает функцию сохранения результата,полученного при выполнении данного элемента диаграммытрансформации (см. описание атрибута persistOnDisk объектов"Transformation Deployment")

    Expression Нет Выражение на языке Scala

    Outputport

    Да

    Описание формата исходящего потока данных, полученных врезультате выполнения данного элемента диаграммытрансформации и передаваемых следующему элементу (см.приложение «Соответствие типов полей в дизайнеретрансформаций классам языка Scala»)

    Debug list НетСписок отладочных файлов, в которых содержитсяпромежуточный результат выполнения элемента

     

    SQL source

    В качестве источника данных используются результат запроса к реляционной базе данных внешнейсистемы.

    Описание атрибутов элемента SQL source

    af://n1472

  • АтрибутОбязательно заполнение

    Описание

    Name ДаНазвание элемента. Название должно удовлетворять правилам формированияидентификаторов в языке Java

    Label Нет Краткое описание элемента

    Sample Size(Количествовозвращаемыхстрок)

    НетОграничение количества строк выводимых в окне просмотраданных

    Checkpoint Нет

    Включает/выключает функцию сохранения результата,полученного при выполнении данного элемента диаграммытрансформации (см. описание атрибута persistOnDiskобъектов "Transformation Deployment")

    Context ДаОбъект "Jdbc Context