На странице Project вы увидите список созданных вами проектов с некоторой информацией о них:

  • Name — название проекта;

  • Description — описание проекта;

  • Date of creation — дата и время создания проекта;

  • Last result — результаты последнего парсинга со ссылкой на актуальный фид;

  • В столбце Activity отображаются кнопки редактирования  и удаления  проекта.

Для добавления нового проекта введите в поле Project name его название, затем в поле Parser configuration выберите созданный ранее конфигуратор парсера и нажмите Add (добавить). Вы перейдете на страницу редактирования проекта.

Здесь вы сможете при желании отредактировать название проекта и сменить парсер, а также указать ряд других настроек.

  • URLs in Project — здесь необходимо ввести ссылку на страницу для парсинга или ссылку на карту сайта. Чтобы добавить несколько ссылок нажмите на кнопку  справа от поля.

  • Если у вас указана карта сайта, вы можете задать маску URL-ов, то есть фильтр, по которому Текстус будет отбирать страницы сайта, подлежащие парсингу. Для этого переведите переключатель в режим ON и введите в появившееся поле маску URL-а. На текущий момент Текстус поддерживает регулярное выражение в виде * - она означает последовательность произвольных символов в ссылке. По нажатию на кнопку  вы сможете добавить еще одну маску. Чтобы проверить, входит ли какая-либо ссылка в заданную маску, нажмите на кнопку  , в появившейся форме введите URL и нажмите на кнопку Check. Зеленая галочка будет означать, что URL входит в маску, красный крестик — что не входит. При наличии нескольких масок происходит объединение их условий, то есть достаточно, чтобы URL проходил хотя бы под одной из них, чтобы парсер его обошел.

  • Merge results and remove duplicates — при переключении этого контрола в режим ON Текстус будет объединять одинаковые результаты парсинга, удаляя таким образом дубликаты данных.

  • Default format — здесь нужно выбрать один из двух форматов получаемого фида — XML или CSV.

  • Hours when parser is start (every day) — Текстус ежедневно будет обходить ваш сайт в указанный час и обновлять фид.

Существует также возможность выбора нескольких часов — при таком варианте Текстус будет парсить ваш сайт несколько раз в день по указанному расписанию. Однако мы не рекомендуем настраивать таким образом проект, поскольку парсинг сайта создает дополнительную нагрузку на него, притом маловероятно, что контент вашего ресурса обновляется несколько раз за день. По умолчанию эта возможность для вас недоступна, но вы можете ее подключить, обратившись с соответствующей просьбой на support@garpun.com.

По окончании редактирования проекта не забудьте нажать кнопку Save (Сохранить).

После того как вы создали проект, Текстус будет ежедневно парсить ваш сайт, а вы сможете получать актуальные результаты, переходя по ссылке в столбце Last result на странице со списком проектов. В случае выбора XML-фида в настройках проекта, вы получите ссылку на фид. В случае CSV-формата вы сможете скачать CSV-файл с данными в виде таблицы.

Существует также возможность выгрузки результатов парсинга в формате Google Spreadsheets на ваш Google Drive. Для этого при создании или редактировании проекта в настройке Default format выберите вариант CSV и отметьте чекбокс Upload to Google Drive.

Этот чекбокс появится только при подключенном Google Drive к вашему аккаунту. Подключение производится в разделе Settings. После указания всех настроек результаты парсинга будут ежедневно выгружаться в созданный на Google Диске табличный файл.

  • No labels