Июл 06

Парсинг сайта на движке OpenCart

Категория: Разработка ПО | Опубликовано: 06-07-2016

В образовательных целях, для прокачивания программерских навыков решил попробовать парсинг сайта интернет-магазина. Было интересно написать парсер интернет-магазина на каком-нибудь популярном движке.

Написать парсер сайта на OpenCart решил по причине его бесплатности и высокой популярности среди владельцев интернет-магазинов. Донором повезло стать сайту интернет-магазина BRIOTTI.RU

Неспешно, в два захода, был написан парсер интернет-магазина на движке OpenCart.

Результат работы самописного парсера — стала база категорий и товаров (две таблицы) + выкачанные картинки:

Структура таблицы «Категории» (всего 11 записей):

Name_cat1 — Название главной родительской категории.
Url_cat1 — WEB-адрес (ссылка) главной родительской категории.
Name_cat2 — Название подчиненной категории (сезон года).
Url_cat2 — WEB-адрес (ссылка) подчиненной категории (сезон года).
Name_cat3 — Название подчиненной категории (группа товаров).
Url_cat3 — WEB-адрес (ссылка) подчиненной категории (группа товаров).
ID_cat3 — Уникальный идентификатор подчиненной категории (группа товаров).

Структура таблицы «Товары» (всего 274 записи):

ID_cat3 — Идентификатор подчиненной категории (группа товаров).
ID_tovar — Уникальный идентификатор товара.
Tovar — Название товара.
URL — WEB-адрес (ссылка) страницы товара.
Model — Артикул (модель) товара.
Cena — Цена товара.
Varianti — Варианты исполнения товара.
Opisanie — Описание товара (html-таблица) с дополнительной информацией (материал верха, внутренний материал, материал стельки, подошвы и т.д.).
Img_url — WEB-адрес (ссылка) на меньшую картинку товара (размером 200 на 200 пикселей, видна у товара при просмотре товаров внутри категорий).
Download_img — признак скачана или нет картинка (по ссылке из Img_url).
Img_url_medium — WEB-адрес (ссылка) на среднюю картинку товара (размером 228 на 228 пикселей, находится на странице самого товара).
Download_img_medium — признак скачана или нет картинка (по ссылке из Img_url_medium).
Img_url_big — WEB-адрес (ссылка) на большую картинку товара (размером 500 на 500 пикселей, находится на странице самого товара, открывается при клике по меньшей).
Download_img_big — признак скачана или нет картинка (по ссылке из Img_url_big).

Вот как выглядит база в парсере:


nee_opencart_briotti_category_and_goods

Картинки: 817 файлов общим размером 15Мб. Несмотря на скромные размеры качество картинок весьма достаточное.

Примечание: Не понятно только, какой был смысл создавать три размера картинок 220х220 пикселей, 228х228 и 500х500 пикселей? Разницы между 220 и 228 пикселей почти никакой.  Еще одна непонятность, зачем разработчики интернет-магазина сделали доступ к товарам только по предварительной регистрации? Не знаю, может магазин предназначался исключительно для оптовиков, но это не помешало выполнить парсинг интернет-магазина на движке OpenCart.

Вот как выглядят картинки при пролистывании таблицы товаров в парсере:
nee_opencart_briotti_images

Дамп (база) товаров интернет-магазина находится в формате XML. При необходимости, есть возможность экспортировать базу в необходимый формат (может пригодиться разработчикам при наполнении своих интернет — магазинов).

Желающие приобрести базу, заказать парсинг интернет-магазина или заказать парсинг сайта на движке OpenCart — стучитесь в комментарии. Само собой, можно заказать парсинг сайта и на любом другом движке.

Комментарии: (1)

Не только лишь все программеры так круто прокачивают скиллы. :) Рекомендую в следующий раз делать парсинг интернет-магазина электроинструмента. :)

Базу товаров можно попробовать продать или еще как использовать…

Только лучше сразу найти несколько сайтов в одной теме и сделать парсинг товаров с каждого, которые потом все запихнуть в свою базу, получится более уникальный контент. Еще лучше — уникализировать этот контент перед запуском, особенно титулы и заголовки.

Оставить комментарий