Выгрузка данных из Spreadsheets в Google BigQuery
На данный момент доступно создание потока по выгрузке любых данных из Spreadsheets в Google BigQuery
Первоначально необходимо зайти в систему Garpun Feeds https://feeds.garpun.com/ под своим логином и паролем и нажать кнопку "+Поток данных".
Алгоритм создания потока из системы Spreadsheets в BQ:
1) Источник данных > Приемник данных
В открывшемся меню выбираем:
- Источник данных - Spreadsheets
- Приемник данных - Google BQ
- Указываем набор данных. Здесь важно понимать, что набор данных индивидуален для каждой схемы в таблице. Для создания набора данных под вашу таблицу можно обратиться к команде технической поддержки.
2) Настройка источника данных
- Вводим id существующего Google Sheet
Для использования уже существующего Google Sheet добавьте его идентификатор в данную графу (идентификатор находится в адресной строке), а также предоставьте доступ к документу на почту garpun@devision-storage.iam.gserviceaccount.com или установите значение 'Доступен для всех'
- Вводим название листа, откуда берутся данные
asd3(
3) Настройка приемника данных
- Выбираем подключение Google BQ, либо добавляем подключение через кнопку "+Добавить"
- Указываем Project ID в BigQuery
- Указываем dataset. Не обязательно создавать Dataset вручную в самом BigQuery, можно ввести название вручную - Dataset будет создан автоматически при запуске потока.
- Выбираем способ записи в таблицу: обновление данных в периоде, полная перезапись таблицы, либо добавление данных в конец.
Обновление данных за период будет опираться на поле для партицирования, которое можно указать ниже. Это поле должно быть датой. Таким образом, из spreadsheets будут отбираться только те строки, где дата в поле для партицирования входит в период задачи.
Например, запуск потока за период "2024-01-01" – "2024-01-31" выгрузит только те данные, где в поле для партицирования есть даты из периода "2024-01-01" – "2024-01-31" "20
24-01-01" – "2024-01-31" "2024-01-01" – "2024-01-31"
4) Общие настройки
- В графе “Название потока” ввести название либо оставить сгенерированное автоматически
- В графе “Период сбора при автоматическом запуске” можно выбрать за какой период поток будет пересобирать статистику. По умолчанию - 30 дней.
- В графе “Расписание” - выбрать например 7:00 утра, в это время поток будет запускаться ежедневно
- Нажать "Готово"