Скрипт сбора ссылок с сайтов

Дата публикации: Февраль 3, 2011 - 18:03:13, чт

Написал небольшой скрипт, основной задачей которого является сбор ссылок на страницы любого заданного Вами сайта. Версия немного сырая, возможно в скором времени ее допишу.

Пример запуска скрипта в Ubuntu (для выполнения потребуется PHP5):

  1. ./urlparser.php —base=http://www.test.ru/ —to=/home/username/test.txt

Скрипт предназначен для запуска из консоли. Ниже представлены аргументы и их описание:

  • —base=адрес – адрес сайта, который мы хотим парсить. Обязательный базовый путь в формате “http://домен/” (с завершающим слэшом).
  • —to=путь – путь к файлу, куда в конце будут сохранены все найденные ссылки.

History:

  • 06.05.11 v0.3 – еще больше оптимизировал скорость сборка ссылок (исправил проблему повторной загрузки информации о странице), закомментил вывод служебной информации.
  • 03.02.11 v0.2 – оптимизировал скорость парсинга + добавил служебную информацию в вывод.
  • 03.02.11 v0.1 – initial release.

Скачать urlparser.7z (размер: 1583 байт)

Теги: кодинг php
Просмотров: 852

Комментарии

Александр
Апрель 6, 2011 - 01:19:16, ср
Спасибо, нужный скрипт давно искал ! только работает долго а вы знаете как можно сделать его работу быстрее ?
Wet
Апрель 6, 2011 - 16:58:33, ср
Скорость работы может зависеть от скорости канала и объема страниц на сайте, т. к. скрипт скачивает все страницы.
ygor
Ноябрь 22, 2011 - 08:39:01, вт
А вот этот сайт спарсит? http://51округ.рф

Что скажете?

Имя:
Код Код с картинки: