Написал небольшой скрипт, основной задачей которого является сбор ссылок на страницы любого заданного Вами сайта. Версия немного сырая, возможно в скором времени ее допишу.
Пример запуска скрипта в Ubuntu (для выполнения потребуется PHP5):
./urlparser.php —base=http://www.test.ru/ —to=/home/username/test.txt
Скрипт предназначен для запуска из консоли. Ниже представлены аргументы и их описание:
- —base=адрес – адрес сайта, который мы хотим парсить. Обязательный базовый путь в формате “http://домен/” (с завершающим слэшом).
- —to=путь – путь к файлу, куда в конце будут сохранены все найденные ссылки.
History:
- 06.05.11 v0.3 – еще больше оптимизировал скорость сборка ссылок (исправил проблему повторной загрузки информации о странице), закомментил вывод служебной информации.
- 03.02.11 v0.2 – оптимизировал скорость парсинга + добавил служебную информацию в вывод.
- 03.02.11 v0.1 – initial release.
Скачать urlparser.7z (размер: 1583 байт)
Комментарии