Интерфейс Текстуса состоит из трех разделов:

  • Проекты (Projects)

  • Конфигурация парсера (Parser configuration)

  • Настройки (Settings)

Давайте начнем знакомство с сервисом с раздела «Конфигурация парсера». Здесь мы создаем парсер и указываем правила, по которым робот (парсер) будет собирать с сайта необходимую нам информацию.

В этом разделе мы видим список имеющихся конфигураторов парсера. Каждый конфигуратор имеет несколько признаков:

  • Name — название парсера, данное ему пользователем.

  • Description — произвольное описание, указанное пользователем.

  • Content — формат содержимого, для которого создан парсер. Это могут быть html-документы либо XML-файлы.

  • Last modify — дата и время последнего изменения парсера.

  • Последний столбец — уровень доступа. Статус Read only означает, что вы можете использовать парсер в своих проектах, но не можете его изменять. Если парсер создан вами, то вместо статуса Read only вы увидите иконку удаления парсера.

Для настройки парсера нажмите на кнопку Add parser. В появившемся блоке укажите следующую информацию:

  • Name — название парсера.

  • Description — описание парсера в свободной форме.

  • Content. Формат данных для парсинга — HTML или XML.

  • Include empty tags — если в результате разбора страницы некоторые теги получаются пустыми, то при активации этого чекбокса они все равно будут включены в XML-файл.

  • Remove HTML symbols — удаление символов HTML-разметки из содержимого тегов.

Далее необходимо задать CSS-пути, по которым нужно забирать содержимое для тегов. 

Каждому указанному CSS-пути будет соответствовать свой тег в финальном фиде. Можно создавать вложенные теги. Если тег вложен в другой тег, то родитель воспринимается как узел, в который входят объекты парсинга. Например, у Вас на странице множество однотипных объектов (карточек, таблиц с описаниями товаров и пр.), которые имеют одинаковые пути, одинаковые названия классов и теги. Их нужно воспринимать как отдельные объекты, а не записывать единым массивом в один результат парсинга.

Для корректного парсинга всех объектов в этом случае в родительском теге укажите общий путь до всех объектов. А затем во вложенных тегах пропишите пути относительно родительского тега. Родительский тег в этом случае не будет содержать значений — они будут прописаны только в дочерних тегах.

Для того, чтобы тег стал вложенным, наведите на соответствующий ему блок курсор, зажмите левую клавишу мыши и сдвиньте блок настройки CSS-пути вправо.

На скриншоте мы видим, что блок со свойством Metro благодаря сдвигу стал вложенным в блок Address. Соответствующие изменения отразились и на примере структуры XML-фида (на скриншоте справа).

Для описания XML-тега нужно указать следующую информацию:

  • Чекбокс Required — при активации этого чекбокса тег будет отображаться с пустым содержанием в случае, если парсер не найдет по указанному пути никакого содержимого; если же чекбокс будет неактивен, а парсер не найдет никакого контента, то в информации по объекту парсинга в фиде данный тег будет отсутствовать.

  • CSS-селектор — поле указания CSS-пути к содержимому сайта, которое нужно записать в создаваемый тег.

  • Property — название тега.

  • Data type — тип данных, которые следует забрать парсеру

    • string — строковый тип данных

    • url — данные в виде ссылки

    • number — числовое значение

  • Source — тип источника в конечном CSS-пути, из которого парсер заберет данные

    • default — тип источника определяется автоматически

    • text — текстовые данные

    • attribute — значение конкретного атрибута html-тега; при выборе этого варианта в появившемся поле Attribute нужно указать атрибут, значение которого заберет парсер

  • По окончании настройки XML-тега не забудьте нажать на иконку  для сохранения или на  для отмены изменений (тег не сохранится).

Вы можете вручную указать CSS-путь к каждому необходимому элементу сайта, но проще скопировать их с помощью браузера. Для этого рекомендуем использовать Google Chrome.

Выделите интересующий вас элемент на сайте, щелкните по нему правой клавишей мыши и выберите пункт («Проверить элемент»). В открывшемся окне с кодом сайта найдите выделенную строчку (она соответствует нужному нам элементу), снова кликните по ней правой клавишей мыши и выберите пункт «Copy CSS path». CSS-путь к элементу скопируется в буфер обмена, и останется лишь вставить его в поле CSS-селектора соответствующего тега.

Обратите внимание! Если в скопированном пути встречаются селекторы tbody и body, удалите их, иначе Текстус не сможет корректно определить положение нужного элемента. 

С уже настроенными тегами можно совершать ряд действий:

  •  - по нажатию на эту иконку откроется форма редактирования XML-тега;

  •  - по нажатию на эту иконку тег удалится;

  •  - по нажатию на эту иконку откроется форма добавления нового тега.

Добавляя настройки для новых тегов и меняя их уровень вложенности, вы зададите структуру будущего XML-фида и сконфигурируете таким образом ваш парсер. В Текстусе можно создать несколько парсеров, которые затем можно использовать в одном или нескольких проектах.

Теперь, когда у нас создан конфигуратор парсера, можем перейти к созданию проекта.

  • No labels