Июл 13

Еще один парсинг сайта надвижке OpenCart (сайт KROSSBERG.RU)

Категория: Разработка ПО | Опубликовано: 13-07-2016

Был написан еще один парсер для сайта на движке OpenCart. В этот раз для сайта KROSSBERG.RU

Сайт занимается торговлей через интернет китайскими подделками обуви известных производителей (Nike, Adidas, Timberlake) по низким ценам.  Скидка -58%, налетай подешевело, осталась последняя пара обуви :)

40 очков! 40 очков! (с) м/ф «Алеша Попович и Тугарин Змей»

40_ochkov_40_ochkov

В отличии от предыдущего парсинга, доступ к товарам был возможен без всяких регистраций, правда несколько страниц товаров не открылись принципиально. Либо ссылка на страницу оказалась недействительной, либо страницу товара удалили. Категории на сайте идут без вложенностей, товаров на странице категории не много.

Так же как и в предыдущем парсинге, получена база товаров в виде двух таблиц — категории и товары.

 

Структура таблицы «Категории» (всего 32 записей):

Name_cat1 — (не используется)
Url_cat1 — (не используется)
Name_cat2 — (не используется)
Url_cat2 — (не используется)
Name_cat3 — Название категории (группа товаров).
Url_cat3 — WEB-адрес (ссылка) категории (группа товаров).
ID_cat3 — Уникальный идентификатор подчиненной категории (группа товаров).

 

Структура таблицы «Товары» (всего 273 записи):

ID_cat3 — Идентификатор подчиненной категории (группа товаров).
ID_tovar — Уникальный идентификатор товара.
Tovar — Название товара.
URL — WEB-адрес (ссылка) страницы товара.
Model — Производитель/Модель/Наличие.
Cena — Цена товара, что «по скидке». Цена, которая больше, с пометкой »до скидки» не парсилась.
Varianti — Варианты размеров.
Opisanie — Описание товара, одинаковое для всей категории товаров (у некоторых страниц это html-таблица с размерами обуви)
Img_url — WEB-адрес (ссылка) на меньшую картинку товара (размером 262 на 262 пикселей, видна у товара при просмотре товаров внутри категорий).
Download_img — признак скачана или нет картинка (по ссылке из Img_url).
Img_url_medium — (не используется)
Download_img_medium — (не используется)
Img_url_big — WEB-адрес (ссылка) на большую картинку товара (размером 830 на 1243 пикселей, находится на странице самого товара.
Download_img_big — признак скачана или нет картинка (по ссылке из Img_url_big).

Внешний вид результата (две таблицы):

nee_opencart_krossberg_category_and_goods

Внешний вид скачанных картинок (650 файлов общим размером 42Мб) при пролистывании результата работы:

nee_opencart_krossberg_images

Для самой большой картинки пришлось сделать отображение в масштабе 50%, иначе не помещается на форме.

Так же как и в предыдущем парсинге — база товаров находится в формате XML + папка с картинками. Можно экспортировать в необходимый формат.

Оставить комментарий