Фев 11

Cодержимое интернет сайта fitoapteka.com (парсинг)

Категория: Разработка ПО | Опубликовано: 11-02-2016

Был написан парсер интернет магазина-аптеки fitoapteka.com

Результат работы парсера — содержимое интернет сайта (вместе с картинками) в виде базы со следующими полями:

№ п/п  — номер по порядку (всего 2640 уникальных товаров)
Kod - внутренний код товара на сайте fitoapteka.com
NameProduct — наименование продукта
Manufacturer — производитель (в формате «Страна» либо «Фирма (Страна)»)
Price — цена (в грн)
Url — ссылка к странице товара
Category* — категории к которым относится товар (разделены спецсимволом, к примеру: «Препараты ВНУТРЬ#Травы, грибы, сборы, фиточаи#Травы#Здоровое питание#»)
H1 — содержимое тэга <H1>страницы товара
Packing — форма выпуска товара (к примеру: «флакон 25 мл» или «30 капсул»)
Description — текстовое описание товара со страницы товара
SmallImageUrl** — ссылка к маленькой картинке со страницы товара (вместе с именем файла)
BigImageUrl**- ссылка к большой картинке (вместе с именем файла), которая открывается по клику на маленькой картинке

Примечание* — с учетом того, что один и тот же товар может находиться в разных категориях — при формировании прайса выйдет больше 4000 единиц товара.

Примечание** — всего скачано 4843 картинок, общим весом под 700Мб. Поле SmallImageUrl заполнено для 100% записей, BigImageUrl заполнено для 83% записей. Имя файла-картинки такое же, как в ссылке на него. Сами картинки без логотипа  сайта.

На данный момент база находится в формате XML, есть возможность экспортировать в TXT или XLS формат.

Желающие приобрести содержимое сайта fitoapteka.com — стучитесь в комментарии, договоримся.

Оставить комментарий