Май
14

Кто попробует написать ? генератор контента

27.10.2006 07:33 GreenWood

На основании этого
http://www.miislita.com/informa….ial.pdf

ps
есть устойчивое мнение, что именно это в гугле является методом для определения семантической связи
Приходи и зарабатывай достойно
Всякие новости и по SE тоже.


27.10.2006 14:36 menvil

Скажем так в этом документе написано как определять какой документ релевантнее относительно другого. То есть это чисто теория. Это первое. Второе допустим даже это так то данный документ только подтверждает ту мысль, что чем больше плотность ключевика тем более релевантна страница относительно запроса. Данный алгоритм показывает только как понять какой документ релевантнее относительно какого-то запроса.
Что бы написать генератор контента по заданному алгоритму то сделать надо примерно следующее. Взять первую 10-ку сайтов, посчитать для каждого из них вектор. Подогнать алгоритм, который бы с заданной вероятностью постоянно подтачивал текст таким образом что бы конечный вектор получился как минимум равен длине вектора первого сайта в выдаче относительно данного запроса.
Вся эта теория конечно хороша но имхо такая реализация скажем в моем исполнении потянет не на одну сотку баксов это раз.
Второе идея носит чисто исследовательский характер и на фоне того что ссылочным ранжированием можно сделать сейчас практически все данная теория может быть хоть и правильной но в конечном итоге слабоощутимой на фоне спам аттак на гесты, которые предпринимают конкуренты.
Гораздо более инетерснее было бы узнать по каким признакам гугл определяет что перед ним дор. Лично я считаю, что в конечном итоге бан сводится к анализу контента, так как если бы простым спамом можно было бы убить сайт, то конкурентов бы спамили кому не попадя.
Да конечно он смотрит откуда идут беки но это выступает как дополнительный фактор при решении вопроса о бане. Да он смотрит на джава скрипт и как многие думают он его исполняет. На самом деле я считаю что он ищет там ссылки и если много сайтов из одной кучки ссылаются и возможно редиректят на фид — то по всей видимости это дор. (По ссылкам гугль ходит и ищет он ссылки в яваскрипте, а играться с менюшками выпадающими на каждом топовом сайте ему просто напросто некогда). Так что и редирект не может выступать неким критерием при бане. Дофига сайтов с редиректом. Да и полно доров без редиректа. Остается на мой взгляд единственный верный и решающий фактор это контент. Но как с помощью данного алгоритма генерить непалимый контент ответа я не нашел и додумать пока не смог. Уидел только подтверждение того неоспоримого факта, о котором каждый и так знает, что чем больше плотность ключевика тем данный текст будет релевантнее относительного другого при заданном запросе.
Я бы сейчас проводил эксперимент если честно на тему дор без редиректа никакого яваскрипта + покупные ссылки с белых (серых) сайтов. Что будет в таком случае. Если то же бан после небольшого топа, то тогда подтвердится теория что в конечном итоге бан получается за контент.
Хороший дорвейщик постоянно пиздячит лопатой, а плохой — тоже пиздячит лопатой, но на стройке. (alligator дело подсказал).


27.10.2006 16:13 GreenWood

может как раз и надо смотреть относительно других на плотность, что бы к примеру плотность у дора по теме конкурентов из топа не была скажем 40 % а всегро лишь 7%, что больше всего лишь на 1% чем у самого релевантного к примеру ?
Приходи и зарабатывай достойно
Всякие новости и по SE тоже.


27.10.2006 16:16 menvil

ну видишь ты сам ответил на свой вопрос берешь меряешь среднюю плотность у конкурентов из топа
и пытаешься делать доры с плотностью на 1% больше.
доры конечно будут сделаны не по науке как там написано. но общая суть алгоритма исказится не сильно.
просто в том алгоритме все слова учитываются при расчете релевантности.
Хороший дорвейщик постоянно пиздячит лопатой, а плохой — тоже пиздячит лопатой, но на стройке. (alligator дело подсказал).


27.10.2006 16:41 Set

Как раз конкурентов спамом убить можно… правда конкурент конкуренту рознь.
Ave Satanas! Regie Satanas!


27.10.2006 18:02 [b

Сообщение от [b
Цитата[/b] (menvil @ Окт 27 2006,12:16)]ну видишь ты сам ответил на свой вопрос берешь меряешь среднюю плотность у конкурентов из топа
и пытаешься делать доры с плотностью на 1% больше.со средней не получится – это как средняя температура по больнице
Приходи и зарабатывай достойно
Всякие новости и по SE тоже.


27.10.2006 21:25 Buckster

Надо брать максимум. Хотя если он на грани бана – можно его и схлопотать. Поэтому лучше все же годами выверенное и ежедневно проверяемое значение. Все же кеев много, гугл один. Под каждый кей он подстраиваться не будет особо. Некоторые вещи меняются в алгоритме в зависимости от кея – спору нет. Но тем кто в теме эти все вещи давно известны и особой ценности не представляют. Мне вот больше интересно с чем связан последний глобальный бан всего что только можно… Вот эту бы загадку решить, а остальное – ерунда. Контента нагенерить в любимой гуглом форме – это не пробема…


27.10.2006 21:48 menvil

2Buckster, ты немного не понял суть проблемы. В том документе описана достаточно красивая математическая модель как ранжировать документы по отношению друг к другу при заданном запросе. Это мы себе для упрощения задачи поставили некую релевантность типа 5% 10%. На самом деле в алгоритме который там описан и я действительно склонен поверить в то что он имеет место быть ничего не сказано про проценты. Там совсем другой подход определения какой документ наиболее релевантен данному запросу и так же дается ответ почему именно этот в данном случае а ни другой. Плотность ключевика как понятия там вообще не существует. Чистая математика :-)
Хороший дорвейщик постоянно пиздячит лопатой, а плохой — тоже пиздячит лопатой, но на стройке. (alligator дело подсказал).


27.10.2006 22:15 Buckster

Скажу честно – вдумчиво не читал, так пробежался… Идея довольно интересная, но все же ресурсоемкая и на практике просто не применимая. Гугл считает релевантность в лоб. Это подтверждено не теоретичесими выкладками, а надежной практикой. При прочих равных – больше кеев – выше в выдаче. Переборщил немного – в бане. Но это, естественно, далеко не все. Есть еще множество факторов, но это не про этот документ. Он интересен теоретически. За практику не возьмусь, потому что это выкинутое время. Представьте себя на месте гуглевского руководства. Ранжирование – это тупо однонаправленный граф со взвешенными узлами. Нужно что-то большее? Зачем? Это идеал. Максимум скорости, максимум правдоподобности. Плюс – семантика. Плюс – линковое ранжирование. Плюс – ранжирование по уровням доверия, плюс еще много чего, НО! Это все линейные величины, которые не грузят сервера. И это хорошо. При использовании более интересных алгоритмов мы усложняем все на порядки. Оно надо? К тому же нестабильность, к тому же внешняя неадекватность.
В общем, алгоритм в теории хорош, но на практике вряд ли кто-то его будет всерьез реализовывать в коммерческом проекте. Если у кого есть реальный интерес – можем даже попробовать провести серию экспериментов чтобы понять насколько далек гугл от такого рода алгоритмов и насколько он приближен к тупой линейности.


0