Перед нами стояла цель:
Разработать программу для автоматического сбора данных с сайта autorus.ru
Извлечь информацию о автозапчастях, такую как цены, характеристики, изображения и другие параметры, сохранить в нормализованном виде в базе данных.
Для этого понадобилось:
Провести анализ структуры сайта для уточнения собираемых данных, методов сбора, технологий и проектирование структуры БД.
Разработать скрипт (или программу) для парсинга страниц сайта и извлечения нужной информации.
Обеспечить обработку возможных ошибок и исключений в процессе парсинга.
Провести тестирование парсера на различных страницах сайта, для проверки корректности извлечения данных.
Исправить ошибки и улучшить производительность на основе результатов тестирования.
Предоставить описание работы парсера, включая инструкции по установке и использованию.
Предоставить документацию по структуре собираемых данных.
Результат: Мы разработали программу, которая собирает информацию, по указанным критериям заказчика.
Как работает программа: Экран черный(консольный), если нет ошибок. При появлении - на экране всплывают уведомления.
Перед тем, как запускать программу. Надо поместить в файл со списком артикулов и брендов в формате Excel.
Пример входного файла:
Так же, наша программа может высчитать рекомендуемую цену, которая является разницей цен между нашей ценой и складом конкурента.
На изображении ниже, показан пример файла с результатом выгрузки:
Первые три столбца - наши входные данные. Далее выделена наша цена и за ней рекомендуемая цена, которая высчитывается по формуле, что запрограммирована в программу. Под названиями "Склад" - находятся наши конкуренты.
- Если наш склад является первым, то рекомендуемая цена будет сравниваться со 2 складом. И в этом случае, будет значение со знаком плюс (Чтобы не конкурировать с самим собой).
Можно ли что-то дополнить или убрать в программе?Да, перед началом сотрудничества клиент формирует список требований к парсеру. Мы со своей стороны разрабатываем индивидуальный парсер по заказу клиента.
Можно ли заказать мониторинг цен с выгрузкой ежедневно/еженедельно/ежемесячно?
Да, мы можем настроить интеграцию, по которой мы будем от вас забирать список артикулов запчастей. По которым нужно мониторить цены и высылать готовый файл вам.
Часов понадобилось:
16 часов
Технологии:
С# - Язык программирования
AngleSharp - библиотека (разбор html-древо страниц сайта)
EPPlus - библиотека (работа с Excel-файлами)
Принимали участие:
Давид Щурко – разработчик C#
Пётр Секриеру – руководитель группы Parsingsite