Перед нами стояла цель:
Выгрузить полный список товаров, включая: название, цену, цену со скидкой, цену по карте, рейтинг, количество отзывов, ссылку на карточку, бренд, категорию, наличие, продавца, изображение товара и др.
При этом необходимо было придумать решение по обходу ограничений сбора: 10000 товаров по одному поисковому запросу.
Как мы реализовывали данную задачу:
1.Мы начали с изучения, как устроен поиск на Ozon:
- как формируется страница выдачи;
- какие параметры (фильтры, сортировки, категории) участвуют в запросе;
- где именно хранится нужная нам информация
- параллельно мы проверили ограничения платформы, чтобы не столкнуться с банами или обрезанием результатов.
2. Разработка логики парсера
3. Решение проблемы лимита 10 000 товаров:
Чтобы обойти это ограничение, мы придумали решение:
- разбить один большой запрос (например, “платья”) на подзапросы по фильтрам — цвет, бренд, размер, материал, цена и т.д.;
- таким образом, каждая подкатегория содержит меньше 10 000 позиций, но в сумме мы получаем все товары без потерь;
- далее данные автоматически объединяются в общий файл, без дубликатов.
4. Проверка и очистка данных: это позволило клиенту сразу использовать выгрузку для аналитики и импорта в свои системы.
5. Результат:
- Полностью автоматизированный сбор товаров по любым поисковым запросам на Ozon (аналогично как для WB)
- Возможность собирать более 10000 тысяч
- Выгрузка в Excel с нужными столбцами (название, цена, категория, бренд, ссылка, фото, рейтинг и др.)
Итоги выполнения задачи:
- Получилось реализовать сбор карточек товаров, аналогично как на Wildberries, по определенному поисковому запросу.
- Также реализовали возможность запуска сбора по планировщику(по необходимости).
- Заказчик получил полный список товаров с возможностью дальнейшей обработки и анализа. Это позволило заказчику мониторить рынок в реальном времени и анализировать динамику цен и ассортимента по заданным параметрам.
Пример работы программы:
Задаем тип сбора по поисковому запросу.

После завершения работы программы выбираем итоговый файл.

Более подробную информацию по реализации данного кейса можно найти по
ссылке
Часов понадобилось:
8 часов