Ноябрь
30

Бот Гугля – всегда ли представляется собой? в смысле, как gooblebot
Действие ссылок в гугле

06.01.2007 08:43 O.R.Z.

Кто-нибудь замечал, что в индексе гугла появляются страницы, а в логах не было юзерагента googlebot? Есть подозрения, что гугл шифруется? Речь не про заходы индусов-модераторов , а именно про паука.


06.01.2007 09:10 smsm

давно уже это. с год назад кое-что у меня под клоакой пряталось – а в серп попадало


06.01.2007 13:41 SLYplix

ходит гуглбот и под агентом IE…


06.01.2007 14:55 [b

Сообщение от [b
Цитата[/b] (SLYplix @ Янв 06 2007,08:41)]ходит гуглбот и под агентом IE…На днях это видел
http://www.friends.nnov.ru/img/sm/new_russian.gif
Рефам:
Дорген
Спамилка
Небольшая база


06.01.2007 15:49 Nobody0

Ага есть такое явление с пустым рефевером приходит… гад…
Помогаем каждому! Нах… :)
Блог который помогает…


06.01.2007 15:54 arma

Ага, доброе утро) Давно как ходит, ныкается и шифруется, партизан гугл- бот
Есть две бесконечных вещи: Вселенная и человеческая глупость. Причем насчет первой я не уверен… (А. Эйнштейн)


06.01.2007 18:49 StalkerS

Есть фичи, что ходит как обычный серчер, типа приходит со своего серпа, с ключевиком многомиллионником, ходит по страницам дора, его не редиректит, а он просто ходит(в реферер идут записи с других страниц дора), только фишка в том, что в серпе дора нету, дор не спамился, всего одна ссылка на дор с другого сайта, в индексе тоже дора нету, вообщем пытается наебать как может.


06.01.2007 18:58 [b

Сообщение от [b
Цитата[/b] (StalkerS @ Янв 06 2007,15:49)]Есть фичи, что ходит как обычный серчер, типа приходит со своего серпа, с ключевиком многомиллионником, ходит по страницам дора, его не редиректит, а он просто ходит(в реферер идут записи с других страниц дора), только фишка в том, что в серпе дора нету, дор не спамился, всего одна ссылка на дор с другого сайта, в индексе тоже дора нету, вообщем пытается наебать как может.такое еще мснбот делает.


06.01.2007 19:01 O.R.Z.

Ставлю вопрос иначе: какие способы отлова? Юзер-агент, хттп запросы, IP (те, о которых нам известно )… что еще?


06.01.2007 19:29 [b

Сообщение от [b
Цитата[/b] (O.R.Z. @ Янв 06 2007,16:01)]Ставлю вопрос иначе: какие способы отлова? Юзер-агент, хттп запросы, IP (те, о которых нам известно )… что еще?все вместе или капчу показывать перед отдачей страници )))


06.01.2007 19:32 Stup

Переодически вижу гугльбота с NetName: GOOGLE, который прикрывается ИЕ агентом или Мозилла агентом.
Shelby GT500 2007 говно, Lexus IS350 рулит.


06.01.2007 19:49 !alex!

отловить просто
делаем картинку или флэш или js файл
при запросе к которому мы в заголовках отдаем куки

у юзера куки эти будут и при запросе страницы
а робота нет
Люди неглупые живут по принципу: сейчас или никогда.

Глупые: потом или никогда


06.01.2007 20:56 O.R.Z.

Да, разумно, но не всегда применимо (да и сервера нагрузит). Задача именно в том, чтобы отловить бота без использования дополнительных средств, в рамках HTTP. Пока что удается отловить порядка 70% заходов. Мало


06.01.2007 23:02 StalkerS

Вприниципе, если серчер приходит на дор, то он приходит в большинстве случаев с СЕ, значит в переменной HTTP_REFERER что-то должно быть, можно делать перед отдачей сервером запрос на СЕ и парсить выдачу на предмет запрашиваемого с сервера урла, если такового нету – значит бот, т.к. нормальному вменяемому юзверю никогда в жизни не дойдет набирать длинный адрес дора по памяти(что-то по типу http://subdomen.megadomen.com/keywor…ine-now.html). Метод будет кушать ресурсы, но если грамотно продумать кэш, то можно их минимизировать для высокочастотников.

По http-заголовкам отловить бота будет довольно трудно, если сравнивать с пользователем, то местами заголовки у обоих практически не отличаются.

А собстна какая задача, а то наугад давать ответы сложновато, не зная истиной сути вопроса.


07.01.2007 10:20 O.R.Z.

Задача – своеобразный клоакинг.


07.01.2007 10:28 [b

Сообщение от [b
Цитата[/b] (O.R.Z. @ Янв 06 2007,03:43)]Кто-нибудь замечал, что в индексе гугла появляются страницы, а в логах не было юзерагента googlebot? Есть подозрения, что гугл шифруется? Речь не про заходы индусов-модераторов , а именно про паука.вопрос:
нах ему шифроватся при первом заходе ?
spbteam


07.01.2007 12:14 O.R.Z.

При первом, возможно, и не шифруется. А вот насчет всех последующих такой уверенности уже нет


07.01.2007 23:53 Ded

афтор топика утверждает что гуглябот шифруется с самого начала.
я слабо верю что именно так и было.
я чаще вижу как раз обратную картинку. т.е. когда левые боты шибруюся под гуглебота.
spbteam


0