Простой парсинг сайта из консоли chrome

01.03.2015

В работе в очередной раз понадобилось решить следующую задачу: есть некий сайт, на котором информация, которая нам нужна для начального заполнения другого сайта, т.е. нужно эту информацию получить в удобном виде для сохранения в базу данных.

На этом сайте Я обратил внимание на следующие моменты: вся информация, которая нам нужна, размещена на одной странице, на сайте подключена jQuery, все ссылки категорий верхнего уровня имеют класс catName. Я решил что не стоит писать парсер на php с регулярными выражениями, а можно воспользоваться операциями с DOM от jQuery, которая уже и так есть на сайте.

Набросал десяток строк на javascript:

код на javascript

- я хочу вывести все категории и их подкатегории в виде php (объявленного массива на php), который можно будет потом вставить в любом удобном месте проекта, сохранить данные в БД и убрать из кода.

Код написан под структуру целевого сайта-каталога. Сайт имеет вид:

сайт с категориями

Автомобили, бизнес и финансы - это все категории верхнего уровня с классом catName, а под ними идут таблицы со ссылками на подкатегории.

Осталось применить к сайту код, который я написал выше. Для этого проще всего открыть панель разработчика, добраться до консоли (В chrome Ctrl+Shift+J) и вставить код туда:

выполнение в консоли

- в браузере контент сайта заменился на php-код массива со всеми категориями и подкатегориями, что и требовалось. Теперь можно просто скопировать этот код и использовать в своем проекте.

Надеюсь, что такой способ решения задачи был Вам интересен.


2 оценки

Оставить комментарий