Перед нами стояла цель:
Разработать программу для автоматического сбора данных с сайта idealista.com
Извлечь информацию о недвижимости, такую как цены, характеристики, расположение, изображения и другие параметры, сохранить в нормализованном виде в базе данных.
Для этого понадобилось:
Провести анализ структуры сайта для уточнения собираемых данных, методов сбора, технологий и проектирование структуры БД.
Разработать скрипт (или программу) для парсинга страниц сайта и извлечения нужной информации.
Обеспечить обработку возможных ошибок и исключений в процессе парсинга.
Провести тестирование парсера на различных страницах сайта, для проверки корректности извлечения данных.
Исправить ошибки и улучшить производительность на основе результатов тестирования.
Предоставить описание работы парсера, включая инструкции по установке и использованию.
Предоставить документацию по структуре собираемых данных.
Результат:
Мы разработали программу, которая собирает информацию, по указанным критериям заказчика.
Города, провинции, на всех языках и со всеми характеристиками, писание, расположение, состояние здания а также возможность 3D просмотра дома с хранением в Базе Данных.
Часов понадобилось:
120 часов
Технологии:
С# - Язык программирования
MySQL - база данных
AngleSharp - библиотека (разбор html-дерева страниц сайта )
EntityFramework - библиотека ( взаимодействие с БД ), Serilog (логгирование )
Принимали участие:
Глеб Шуба – разработчик C#
Пётр Секриеру – руководитель группы Parsigsite