Для тех кто не в курсе, я пишу софт на заказ. Некоторые из программ я буду выкладывать тут.
Первое что хотел бы предложить вашему внимание — это Query Parser, программа для вытягивания ссылок с возможностью задать множество параметров.
Интерфейс программы
На скриншоте приведен пример работы с Google.com, но гибкость настроек программы позвляет парсить любой другой ресурс.
В поле URL задается список адресов сайтов для парсинга с параметрами [QUERY], [KOL], [N], значения которых задаются немного ниже.
Take URL’s/Take after and before — определяет способ получения ссылок со страницы: в первом случае программа будет вытягивать все активные ссылки, а во-втором то что содержится в рамках соответвующих полей.
Unique Domains — Query Parser будет собирать только ссылки с уникальных доменов.
URL Encode — позволяет превратить коды символов (типа %20, %3D…) в сами символы. К примеру:
off: ……online%20now%20%3Ciframe%20src=//195.225.178.21/t%3E
on: ……online now <iframe src=//195.225.178.21/t>
Забыл в архив вложить важный файлик со списком STOP-слов, а перезаливать нет желания, поэтому просто в дириктории с программой создайте папку data и в ней файл Ignore.txt, в котором с каждой новой строки по стоп слову (фразе)
Прошу прощение за невежество, но уже несколько раз встречат выражение — прарсить ссылки.
а Зачем это нужно. сорри если что не так спросил…
парсить = вытащить (если грубо перевести)
Ну.. К примеру нужно нам собрать большую базу форумов (для хрумера, например)
Вот еще хорошее дополнение для парсера. http://www.zu1.ru/forum/showthread.php?p=1088 — прога для отсева битых ссылок с XSS, правда уже не бесплатная 😀
Но наверно действительно такие инструменты да еще и все бесплатно в паблик выкладывать не стоит, а то школьники задавят))
[…] Query Parser — парсер с системой гибких настроек. Все загрузки […]
А вот т пишеш СОФТ, где ты этому научился? В универе?
Учился дома по книжкам еще когда в школу ходил. В универе политика была такова, что там ты уже должен знать.
Спасибо. Софтина помогла
Автор, а вы случайно не из Москвы?
Ммм.. нет 🙂 А что?
Все понятно — с настройками разобрался. Но что означают настройки [QUERY], [KOL], [N] не знаю — подскажеш, что они означают, или где почитать?
Глянь на скрин. Это макроязык, соответствующие значения подставляются вместо [KOL], [N] и т.д.
Так вместо [QUERY] — подставляются запросы по очереди.
Вместо [KOL] — числовое значение указанное в настройках
Вместо [N] — диапозон чисел от начального до конечного.
Из примера на скрине видно как распарсится 10 страниц ([N] = 1..10) гугла, на каждой странице будет выведено 100 результатов ([KOL]) и все это произойдет для одного запроса «Query Search» (можно указать их сколько угодно, каждый с новой строки)
Программа супер, спасибо. Не помешало бы в нее встроить задержку м/у запросами на всякий случай. Хотя парсил Яшу (всю выдачу, 20 страниц по 50 сайтов на одной) и капча не вылетала, как такое сделано? Чистка куков и рандомайз юзер агентов?
PS: плагин подписку на комменты не помешало бы поставить.
Ничего особенного не делал, просто браузерная основа играет большую роль. В этой программе уже врядле что-либо буду менять, есть порядком более совершенный парсер с массой полезных фич по работе с текстами. Когда-нибудь выложу.
Спасибо за интерес 🙂 плагин для подписки на комменты уже установил)
Будем ждать