Парсинг. Шерстим интернет :)
Автор: Westblogger, 2009 год.Для начала отвечу на вопрос, что же значит слово парсинг. По википедии это процесс сопоставления линейной последовательности языка с его формальной грамматикой. Насколько же я понял значение этого слова, то это всего лишь поиск какой-то закономерности. К примеру ссылка добавления сайта в каталог выглядит вот так: домен/?add=1. И именно по этому окончанию в урле нам нужно найти сайты в которых встречается ?add=1 . Соответственно если мы их найдем, то это и будет скорее всего наш каталог, так как большинство из них используют стандартные скрипты.
Для поиска потребуется какая-нибудь программка, которая умеет находить сайт по части урла. Лично я скачал вот отсюда программу называемую Aggress Parser. Она бесплатная. И еще нам понадобится знание некоторых операторов (от Googl’a например, т.к. у него они самые функциональные) Самый простой пример, для нахождения части урла по гуглу это:
allinurl:?add=1
Эта команда позволит найти большое количество урлов заканчивающихся на ?add=1.
Например, я посидел повбивал всяких разных команд по типу ?add=1, add_link.php, add.php и т.д. в агресс парсере, и нарыл 18547 урлов, которые придется отбирать судя по всему ручками
Но зато нашел уже около 60 приличных белых каталоов с пузомерками от 2, 20. Все таки сложная эта работа – парсить
Если процесс не автоматизирован, то очень много времени на эти все дела уходит. По аналогии кстате можно парсить не только каталоги, но и гостевые, форумы, в общем что угодно.
Ах да, в аиисубмиттере также есть функция парсинг.
К сожалению больше нету похожих постов.