Базы данных как приемник данных являются альтернативой Google BigQuery.
Сейчас в базы данных можно провести загрузку из большинства систем, из которых доступен импорт в Google BigQuery.
Рассмотрим создание потока по передаче данных в базу на примере передачи статистики из Google BigQuery в ClickHouse
Первоначально нам необходимо войти в систему https://feeds.garpun.com/ и нажать на
В качестве источника данных выбираем Google BigQuery, в качестве приемника - Database (PostgreSQL, MySQL, ClickHouse).
После выбора источника и приемника появится выпадающий список с возможными наборами данных. Для каждой системы они могут отличаться в зависимости от метрик, которые передаются.
Чтобы посмотреть, какие параметры будут передаваться, необходимо нажать на значок лупы справа от набора данных.nt_type
2) Настройка источника данных
На втором этапе выбираем аккаунт, или нажимаем кнопку
, для того, чтоб добавить новое подключение, указываем Project ID и используем SQL-запрос, чтоб определить данные, которые будут выгружены3) Настройка приемника данных
- Выбираем существующее подключение в списке, либо добавляем новое с помощью соответствующей кнопки
- Выбираем название базы данных. Это необходимо для корректной передачи информации и создания таблиц.
- Название схемы базы данных. Необходимо заполнять только если ваша база работает на PostgreSQL
- Указываем способ записи данных в таблицу. По умолчанию установлен способ "обновить".
- При выгрузке в ClickHouse можно включить доп.опцию, которая будет создавать реплицированные таблицы в разных узлах кластера для обеспечения сохранности полученных данных
4) Общие настройки
- В графе “Название потока” ввести название либо оставить сгенерированное автоматически
- В графе “Период сбора при автоматическом запуске” можно выбрать за какой период фид будет осуществлять пересбор статистики.
- В графе “Расписание” - выбрать например 8:00 утра, в это время фид будет запускаться ежедневно. При нажатии на кнопку
- Нажать “Готово”
Результат
В результате отработки потока будет создана таблица с указанной схемой.
Параметры движка, а именно сам движок, поле для партицирования, группировка и index_granularity задаются автоматически:
MergeTree – движок по умолчанию
PARTITION BY и ORDER BY – зависят от выбранного в потоке набора данных
index_granularity – 8192
allow_nullable_key – 0 по умолчанию, может быть 1, если на третьем шаге настроек потока поставить чекбокс у настройки "Включить nullable поля для ключевых параметров"
ON CLUSTER `{cluster}` – по умолчанию не используется, можно включить, если на третьем шаге настроек потока поставить чекбокс у настройки "Создавать реплицированные таблицы для Clickhouse"
TTL - может использоваться в некоторых наборах данных, которые подразумевают создание временных таблиц.
В описание таблицы автоматически будет добавлена подобная информация:
Таблица создана автоматически через Garpun Feeds Фид: Yandex Direct -> Database (PostgreSQL, MySQL, ClickHouse) (ID: 11caef1c-ccfb-42de-add8-972c862da48d) Источник: Yandex Direct Connector Пресет: Загрузка расходов CH
ID из описания таблицы можно использовать для того, чтоб найти поток данных, который записывает в конкретную таблицу: