Выгрузка данных из Spreadsheets в Google BigQuery

На данный момент доступно создание потока по выгрузке любых данных из Spreadsheets в Google BigQuery

Первоначально необходимо зайти в систему Garpun Feeds https://feeds.garpun.com/ под своим логином и паролем и нажать кнопку "+Поток данных".

Алгоритм создания потока из системы Spreadsheets в BQ:

1) Источник данных > Приемник данных

В открывшемся меню выбираем:

  • Источник данных - Spreadsheets 
  • Приемник данных - Google BQ
  • Указываем набор данных. Здесь важно понимать, что набор данных индивидуален для каждой схемы в таблице. Для создания набора данных под вашу таблицу можно обратиться к команде технической поддержки.

2) Настройка источника данных

  • Вводим id существующего Google Sheet
    (info) Для использования уже существующего Google Sheet добавьте его идентификатор в данную графу (идентификатор находится в адресной строке), а также предоставьте доступ к документу на почту garpun@devision-storage.iam.gserviceaccount.com или установите значение 'Доступен для всех'
  • Вводим название листа, откуда берутся данные

    asd3(

3) Настройка приемника данных

  • Выбираем подключение Google BQ, либо добавляем подключение через кнопку "+Добавить"
  • Указываем Project ID в BigQuery
  • Указываем dataset. Не обязательно создавать Dataset вручную в самом BigQuery, можно ввести название вручную - Dataset будет создан автоматически при запуске потока.
  • Выбираем способ записи в таблицу: обновление данных в периоде, полная перезапись таблицы, либо добавление данных в конец. 
    (info) Обновление данных за период будет опираться на поле для партицирования, которое можно указать ниже. Это поле должно быть датой. Таким образом, из spreadsheets будут отбираться только те строки, где дата в поле для партицирования входит в период задачи.
    Например, запуск потока за период "2024-01-01" – "2024-01-31" выгрузит только те данные, где в поле для партицирования есть даты из периода "2024-01-01" – "2024-01-31" "20
    24-01-01" – "2024-01-31"
    "2024-01-01" – "2024-01-31"

4) Общие настройки

  • В графе “Название потока” ввести название либо оставить сгенерированное автоматически
  • В графе “Период сбора при автоматическом запуске” можно выбрать за какой период поток будет пересобирать статистику. По умолчанию - 30 дней.
  • В графе “Расписание” - выбрать например 7:00 утра, в это время поток будет запускаться ежедневно
  • Нажать "Готово"
  • No labels