1. instagram
  2. facebook
  3. whatsapp
  4. telegram
  5. bot

Парсинг карточек товаров Wildberries: по поисковому запросу

Перед нами стояла цель: Нам необходимо было собрать товары по конкретному поисковому запросу. Мы проверили, что на данный запрос отображается более 10000 карточек. Разработали решение разбить запрос на подкатегории путем фильтрации (задавали фильтры самостоятельно).   Этапы реализации: 1.Анализ структуры сайта Wildberries:
  • Мы проанализировали, как Wildberries обрабатывает запросы и понял, что каждый запрос может вернуть не более 10,000 товаров.
  • Также мы исследовали доступные фильтры на сайте, такие как категория товара, цена, бренд и т.д., которые можно использовать для сегментации результатов
2. Разработка стратегии фильтрации:
  • Для того чтобы собрать все товары по запросу, мы решили использовать фильтрацию по подкатегориям. Например, если искали "кроссовки", то разбивали запрос на несколько фильтров: по размеру, по бренду, по цене, по цвету и другим характеристикам.
  • Каждая подкатегория была настроена так, чтобы собрать до 10,000 товаров в рамках одного фильтра
3.Создание парсера 4.Реализации многозадачности и многопоточности 5.Обработка и сохранение данных:
  • После получения данных мы фильтровали их, удаляя дубликаты и ненужную информацию
  • Данные экспортировались в Excel или Google Sheets, чтобы заказчик мог удобно работать с ними
Результаты:
  • Мы успешно собрали все товары по запросу "кроссовки", несмотря на ограничение Wildberries в 10,000 товаров на запрос
  • Данные были структурированы по подкатегориям и включали ключевые характеристики: наименование, цена, описание, ссылка на товар, рейтинг, бренд и другие параметры.
  • Заказчик получил полный список товаров с возможностью дальнейшей обработки и анализа.Это позволило заказчику мониторить рынок в реальном времени и анализировать динамику цен и ассортимента по заданным параметрам.
  Программа: Для начала работы программы выбираем необходимый тип сбора:   Далее запускаем программу, после завершения выбираем нужный нам итоговый файл.   Подробную информацию по данной программе можно найти по ссылке Часов понадобилось: 8 часов