Базы данных как приемник данных являются альтернативой Google BigQuery.
Сейчас в базы данных можно провести загрузку из большинства систем, из которых доступен импорт в Google BigQuery.
Expand | ||
---|---|---|
| ||
Чтобы система могла забирать и загружать данные из базы, её необходимо корректно подключить.
|
Expand | ||
---|---|---|
| ||
Отличия облачного хранения и сервера во внутреннем контуре:
Eсли у вас защищенная база и доступ осуществляется только с разрешенных IP-адресов, просьба обратиться в поддержку Garpun за получением актуального списка наших адресов, с которых ведется подключение к базам. При выгрузке большого объема данных из BQ в ClickHouse(>10 гб в одной партиции) используется мультипоток:
|
Рассмотрим создание потока по передаче данных в базу на примере передачи статистики из Google BigQuery в ClickHouse
Первоначально нам необходимо войти в систему https://feeds.garpun.com/ и нажать на
В качестве источника данных выбираем Google BigQuery, в качестве приемника - Database (PostgreSQL, MySQL, ClickHouse).
После выбора источника и приемника появится выпадающий список с возможными наборами данных. Для каждой системы они могут отличаться в зависимости от метрик, которые передаются.
Чтобы посмотреть, какие параметры будут передаваться, необходимо нажать на значок лупы справа от набора данных.nt_type
2) Настройка источника данных
На втором этапе выбираем аккаунт, или нажимаем кнопку , для того, чтоб добавить новое подключение, указываем Project ID и используем SQL-запрос, чтоб определить данные, которые будут выгружены
3) Настройка приемника данных
- Выбираем существующее подключение в списке, либо добавляем новое с помощью соответствующей кнопки
- Выбираем название базы данных. Это необходимо для корректной передачи информации и создания таблиц.
- Название схемы базы данных. Необходимо заполнять только если ваша база работает на PostgreSQL
- Указываем способ записи данных в таблицу. По умолчанию установлен способ "обновить".
- При выгрузке в ClickHouse можно включить доп.опцию, которая будет создавать реплицированные таблицы в разных узлах кластера для обеспечения сохранности полученных данных
4) Общие настройки
- В графе “Название потока” ввести название либо оставить сгенерированное автоматически
- В графе “Период сбора при автоматическом запуске” можно выбрать за какой период фид будет осуществлять пересбор статистики.
- В графе “Расписание” - выбрать например 8:00 утра, в это время фид будет запускаться ежедневно. При нажатии на кнопку можно добавить дополнительную строку, таким образом фид будет отрабатывать по более гибкому график
- Нажать “Готово”