Парсер предназначался для сбора информации о товарах с немецкого фармацевтического онлайн-магазина apodiscounter.de, с фокусом на актуальные предложения в выбранных категориях.
Структура парсера:
- Основной модуль (еженедельный сбор):
Собирал полную информацию по товарам из заранее заданного списка категорий. В сбор включается: - 🔹Название товар
- 🔹Дозировка и форма выпуска
- 🔹Цена
- 🔹Наличие
- 🔹Артикул и производитель
- 🔹Ссылка на товар
🔹
Результаты сохранялись в .xlsx-файл, который затем использовался как база для ежедневного обновления.
- Ежедневный модуль (обновление цен и остатков):
На основе ранее собранного списка, второй модуль парсера ежедневно обновлял информацию о ценах и наличии товаров.
Новые позиции игнорировались, что позволяло экономить ресурсы и сократить количество запросов.
Технические детали:
- Парсинг выполнялся через HTTP-запросы, эмулируемые с помощью библиотеки curl_cffi, что позволяло обходить базовые защиты и имитировать поведение браузера.
- Использовались немецкие прокси-серверы для повышения стабильности и снижения риска блокировки.
- Итоговые .xlsx-файлы автоматически отправлялись в Telegram-чат через бота, обеспечивая быструю доставку результатов команде.
- Формат выгрузкиДанные выгружаются в один из следующих форматов:
- Excel (.xlsx) — для анализа и работы вручную
- CSV — для загрузки в BI-системы
- JSON — для автоматизации или API-интеграции
Выгрузка может быть разбита по категориям, по дате или по группам товаров.
Можно ли что-то дополнить или убрать в программе парсера ?
Да, перед началом сотрудничества клиент формирует список требований к парсеру. Мы со своей стороны разрабатываем индивидуальный парсер по заказу клиента.