Февраль
1

Поиск ресурсов для спама в промышленном масштабе

29.07.2006 09:10 wheaten

привет

вот сижу, чешу репу: как организовать масштабный поиск ресурсов для спама? парсить Гугл на предмет "inurl:что-то там" как-то становится уже некузяво

итак, в порядке бреда:

предположим, я написал программку, которая, пользуясь словарем, сгенерит мне, скажем, 1 млн запросов, без всяких "опасных" inurl, allinurl

далее, скармливаю этот миллион запросов в Гугл. или в Яху. при скорости 5 запросов в секунду должно занять около 3-х суток. ну пусть, неделю-две с паузами.

допустим, вытащу я после парсинга результатов и фильтрации дубликатов не менее 100-300 млн. сайтов. или менее? оценивал наугад.

далее я натравливаю своего паука на результаты и тот обходит все сайты, сохраняя только урлы, по которым есть форма и кнопка submit.

сколько из эти 100-300 млн. сайтов останется? вряд ли больше 1%. но и это внушительный результат.

далее я заряжаю их в более интеллектуальный чекер, который отделяет уже ресурсы, пригодные для спама.

реализация требует ресурсов, безусловно. пока сложно оценить, каких. будет ли вообще стоить овчинка выделки?

программист я хороший, реализовать такой механизм смогу, факт.

что скажете? предлагаю обсудить, покритиковать и т.д.

в таком вот аксепте.


29.07.2006 09:54 arma

Что сказать- работай, раз программер.
Вещь очень полезная- безусловно, к чему здесь вопросы вообще. Сам бы обзавелся такой штукой- все с домашнего компа ресурсы проверяю на предмет остался ли линк на сайте или нет.
Здесь же можешь добавить разделение баз на типы где линк получаешь только через ввод в поле homepage, на ресурсы поддерживающие хтмл в постах, на ресурсы bbcode поддерживающие.

Есть две бесконечных вещи: Вселенная и человеческая глупость. Причем насчет первой я не уверен… (А. Эйнштейн)


29.07.2006 09:58 RedHorse

Думаю ты не напарсишь 100-300млн уникальных доменов.
Причём половина из них будет – доры.
А станет это тебе, имхо, болше, чем 1к зелёных…

Лучше подумай над интелектуальным составлением запросов…


29.07.2006 10:01 Giber

Я не совсем понял, ты хочешь формировать запросы не опираясь на конкретные типы ресурсов?
Надоело спамить?


29.07.2006 10:25 [b

Сообщение от [b
Цитата[/b] ]Думаю ты не напарсишь 100-300млн уникальных доменов.
Причём половина из них будет – доры. почему не смогу напарсить? весь вопрос в количестве запросов и их разнообразии.

опять же, у меня уже есть мощный многопоточный паук. я могу опираясь на результаты выдачи, запускать паука для дальнейшего самостоятельного поиска. или же для начальной базы распарсить dmoz, dir.google.com и т.д.

грубо говоря, не пользоваться решетом гугла в виде inurl, а делать свое решето, опираясь на индекс гугла.

это масштабная и ресурсная задача, но она себя вполне может оправдать.

Мэтт Катс у себя в блоге где-то писал, что спамеры станут очень опасны, если начнут запускать своих пауков. так что это не моя идея даже

Сообщение от [b
Цитата[/b] ]Лучше подумай над интелектуальным составлением запросов…рано или поздно все упрется в бан гугла при запросе inurl.

весь смысл в том, чтобы черпать частой сеткой, ничего не пропуская, а не пытаться вилами в воде рыбу ловить


29.07.2006 10:28 [b

Сообщение от [b
Цитата[/b] (Giber @ Июл 29 2006,14:01)]Я не совсем понял, ты хочешь формировать запросы не опираясь на конкретные типы ресурсов?да. использовать запросы для получения выдачи и дальнейшего самостоятельно поиска по ней страниц с формой.


29.07.2006 11:03 Giber

Это очень ресурсоемкая задача IMHO, хотя много зависит от правильной реализации.

Применяя паука ты найдешь ресурсы, которые отсутствуют в выдаче, но будет ли смысл постинга туда, это вопрос?

Допустим ты напарсишь немеряно форм. Ты будешь постить во все подряд? IMHO это неразумно. Если нет, то тебе надо будет как-то определять что это за форма, и здесь уже возникает задача как отделить нужные не привязываясь к конкретным типам ресурсов.

Если ты видишь, как решить эти проблемы, то это стоящее дело безусловно.
Надоело спамить?


29.07.2006 11:08 [b

Сообщение от [b
Цитата[/b] ]почему не смогу напарсить? весь вопрос в количестве запросов и их разнообразии.почему? да потому что по запросам "buy old car" и "buy new car" будет 50% одни и те же паги тока на разных позициях, а 30% – те же домены, тока другие страницы
(числа не точные, но порядок тот)
проверь

Сообщение от [b
Цитата[/b] ]рано или поздно все упрется в бан гугла при запросе inurl.хех… а про inurl я ничего не говорил

Сообщение от [b
Цитата[/b] ]весь смысл в том, чтобы черпать частой сеткой, ничего не пропуская, а не пытаться вилами в воде рыбу ловить зато некоторым на вилы акулы попадаются, которые рвут сетку…

ЗЫ: я с тобой полность согласен в плане необходимости в таком аппарате, и у меня уже есть наброски по подобному автомату…
Первый результат уже есть.
Из 54к ресурсов при 150к постах всего 700 себя показали (хотя вчера было 600 )…
имхо, не ахти, хотя с другой стороны – не плохо для полного автомата…
Просто по прикидкам, эти 54к с виду были 100% рабочей базой. Можно конечно пинять на прокси, но всё же.


29.07.2006 11:09 Net_Prosto

мне кажется это уже слишком. с программной точки зрения такое пишется за месяц максимум (сужу по себе, хотя не считаю себя мегамозгом пхп). но зачем это надо? проще через inurl искать. или же написать паука, который сам не спеша бродит по сети и ищет новые ресурсы для спама, а если находит куда получилось проспамится, то создает запрос для этого типа ресурсов и парсит поисковики.
SG Managed – всё как надо :)


29.07.2006 15:13 ICOOGLE Project

зачем изобретать велосипед?
беретё mnogosearch или его аналог от той же команды разработчиков, переделываете немного и запускаете. Краулер там грамотный, но слегка глючный
База до 5М ресурсов заполняется без особой нагрузки.

Только 2 момента, на мой взгляд:
1. существуют более простые варианты сбора.
2. потратьте это время на создание более качественных доров и более качественных ссылок.
[b][url=\"icoogle.com/registration.php\"]ICOOGLE :: DVD-NETWORK НОВОГО ПОКОЛЕНИЯ[/url]
Уникальная система конвертации SE адалт траффика. Есть нишевые фиды и все необходимые инструменты для успешной работы. Многолетний опыт работы с movies/video траффиком.[/b]


0