Главная » Статьи » Статьи и материалы о Seo » Материалы [ Добавить статью ]

PageRank vol.2

Послесловие от Александра Садовского
Несмотря на многие замечания, высказанные в сторону Криса, я благодарен ему за столь большой труд, который заставил задуматься и лучше понять этот интересный алгоритм PageRank. Тем не менее, ряд вопросов остался еще за рамками обсуждений.

Как лучше понять PageRank?
Народная мудрость гласит, что лучше сто раз пощупать, чем один раз увидеть. Поэтому только работа с моделями PageRank позволяет прочувствовать этот алгоритм до конца. «А если тут добавить ссылку? Или поставить ссылку на внешний сайт? Может, лучше сделать кольцо из ссылок?..» Все это реально опробовать на модели. Я предлагаю вам для изучения две модели.

Первая модель сделана мной в Excel 2000 (скачать модель) и дает возможность работать с 12 страницами (этого достаточно для всех примеров из данной статьи). Формулы не скрываются, поэтому, при необходимости, число страниц довольно легко расширить до необходимого количества. Если у вас есть Excel, это, пожалуй, лучший вариант, так как вы можете полностью контролировать вычисления и изменять структуру моделируемого сайта так, как вам угодно.

Вторая модель написана Марком Хоррэлом и работает только в онлайне, но она также стоит внимания. Модель позволяет задать связи до 50 страниц, выбрать для них имена, начальный вес PageRank и просчитать веса PageRank с количеством итераций вплоть до 100.

Как удержать вес PageRank внутри сайта?
Рассказывая о сложных структурах, помогающих сохранить вес PageRank внутри сайта, Крис не упоминает о двух простых методах.

Первый предложен мной — использование JavaScript. Поисковики не индексируют его (причина довольно очевидна — интерпретация JS для каждой страницы потребует гигантские вычислительные ресурсы). Следовательно, любая внешняя ссылка, оформленная на JS будет нормально восприниматься пользователями (99% работают со включенным JS), но при этом не учитываться поисковиками, а, значит, и не принимать участие в расчетах PageRank. Таким образом, для поисковой машины ваш сайт будет без единой внешней ссылки, и проблема удержания веса исчезает полностью.

Второй метод не менее изящен и предложен самим Крисом. Если все внешние ссылки сосредоточены на нескольких страницах, то достаточно всего лишь запретить их индексацию с помощью файла robots.txt, и поисковая машина не будет знать, что у вас на сайте есть внешние ссылки.

Безусловно, такое поведение будет нечестным, если вы договариваетесь об обмене ссылками с каким-либо сайтом. Однако, во всех остальных случаях, когда вы ставите ссылки добровольно, чтобы сделать работу пользователей удобней, никто не мешает вам сохранить вес PageRank внутри сайта.

Как выбирать сайты для получения ссылок?
Рекомендация Криса была такой: «...получайте ссылки с сайтов, которые кажутся подходящими и имеют хорошее качество, независимо от их текущего веса PageRank». Это верно, но как оптимизировать соотношение качества ссылок и затрат времени на их получение? Решение есть. Качеством ссылок, как показал Крис, управлять практически невозможно, значит, необходимо сократить затраты времени на их добывание. Вспомните для начала, что временные потери складываются из двух факторов: во-первых, времени на написание просьбы о ссылке, и, во-вторых, числа положительных результатов (какой процент ссылок реально добавлен). Написание просьбы о ссылке существенно оптимизировать нельзя, так как рисковать сайтом, рассылая спам, зачастую неоправданно. Следовательно, ускорить добывание ссылки можно только в том случае, когда процент положительных результатов будет максимальным.

И для этого я пользуюсь своим методом, который называю «делай, как все». Суть его проста: вначале нужно получить относительно большой список конкурирующих сайтов — хотя бы 50-100 конкурентов — это можно сделать, например, задав целевой запрос в поисковике или заглянув в соответствующий раздел каталога. На основе этих данных легко получить через поисковик список страниц, ссылающихся на каждого из конкурентов. Отсортировав его в порядке убывания числа упоминаний и исключив страницы, которые уже ссылаются на ваш сайт, получаем перечень страниц, которые согласились дать ссылку большому числу конкурентов. Так почему же они откажутся дать ссылку вам? Скорее всего, это будут тематические каталоги, обзоры, сайты ассоциаций и объединений, где вы быстро и без труда получите ссылку. Если при этом учесть, что через Google вы можете узнать только ссылки, у которых Тулбаровский PageRank больше или равен 3, то в вашу выборку автоматически попадают страницы только с высоким весом. Неплохо, правда?!

Не забывайте о цели!
После того как ссылки получены, не забывайте о цели своей работы — получить высокий вес PageRank для сайта. Следовательно, поисковик должен знать про страницу, которая добавила вашу ссылку. Конечно, можно надеяться, что рано или поздно он ее сам найдет, но не лучше ли добавить эту страницу в базу сразу же? Если ссылок получается очень много, имеет смысл создать страницу, на которой перечислить все ссылающиеся на ваш сайт страницы, и вносить в поисковик именно страницу-список.

Не забывайте также регулярно изучать логи и смотреть, откуда к вам ходят. Почти треть незнакомых мне ссылок, по которым пришли на мой сайт, оказывались незарегистрированными в поисковике.

Авторские права
Вы можете воспроизводить этот документ или его мысли, целиком или по частям, указав, что вы взяли информацию у «Chris Ridings, www.searchenginesystems.net». Если воспроизводимая информация берется из комментариев или послесловия, вы должны также указать, что информация предоставлена «Александром Садовским, http://digits.ru»

Последнюю версию этой статьи вы всегда можете найти по адресу http://digits.ru/articles/promotion/pagerank.html.

--------------------------------------------------------------------------------

1 Детали реализации действительно скрыты, но сам алгоритм PageRank не является секретом и прекрасно описан в статьях «The PageRank Citation Ranking: Bringing Order to the Web», а также «The Anatomy of a Large-Scale Hypertextual Web Search Engine», написанных создателями Google — Сергеем Брином и Лоренсом Пэйджем (какая подходящая фамилия!) [Прим. А. С.]

2 Крис не упомянул партнерские программы магазинов, а также широко распространенные в русскоязычном Интернете баннерные сети и счетчики, сайты которых за счет обратных ссылок могут «незаслуженно» иметь большой вес. [Прим. А. С.]

3 Крис употребляет термин «PageRank» в двух разных смыслах. Первый — это алгоритм PageRank. Второй — это собственно вес страницы, вычисленный на основании данного алгоритма. Это связано с тем, что «page rank» означает «ранг страницы», то есть вес, и в английском тексте нет смысла повторять слово дважды. Но в русском переводе это не очевидно, поэтому, чтобы избежать путаницы, в дальнейшем, где это будет необходимо, во втором смысле будет использоваться термин «вес страницы» или «вес PageRank». [Прим. А. С.]

4 Автор подразумевает, что каждая страница, ссылаясь на другую страницу, «голосует» за нее. Голосующая способность тем больше, чем больше вес PageRank у ссылающейся страницы. [Прим. А. С.]

5 Поисковая система Апорт вычисляет вес PageRank для каждой страницы, но учитывает только одну ссылку с каждого домена второго уровня. То есть даже если на ваш сайт указывают 100 ссылок с разных сайтов на хостинге narod.ru (site1.narod.ru, site2.narod.ru и т. д.), то Апорт все равно зачтет их как одну ссылку. [Прим. А. С.]

6 Аналогичную возможность для русскоязычного Интернета предоставляет Yandex.Bar. Яндекс.Бар показывает «взвешенный индекс цитирования» гораздо точнее, чем это делает Google — данные отображаются с точностью до сотых. В то же время, показываемое число касается только главной страницы сайта, и не зависит от веса его конкретной страницы, которая в данный момент загружена в окне браузера.
Еще один источник информации про вес PageRank для русскоязычных сайтов — каталог поисковой системы Апорт. Если сайт присутствует в каталоге, то рядом с его описанием указывается ИЦ главной страницы сайта. [Прим. А. С.]

7 Еще раз подчеркну, эти числа просто придуманы Крисом, для того, чтобы показать, что такое нелинейное представление тем, кто о нем не знает. Никакого отношения к реальным весам PageRank они не имеют. [Прим. А. С.]

8 Одно из основных отличий демонстрационного MiniRank от настоящего PageRank в том, что вычисленный на новой итерации вес добавляется к весу страницы, полученному во время предыдущей итерации, в то время как в PageRank новый вес заменяют старый. Еще одно отличие — в MiniRank к новому весу не прибавляется (1-d). Из-за этого эффект «обратной связи», столь привлекательный в примерах с MiniRank, на практике (где используется PageRank) во многих случаях может иметь заметно меньшее значение. [Прим. А. С.]

9 Как уже было сказано в примечании 8, оригинальный алгоритм PageRank не добавляет новый вес, вычисленный на предыдущей итерации, к старому, а заменяет им старый вес. Следовательно, какой бы начальный вес мы ни задавали страницам, это лишь увеличит время работы алгоритма на несколько итераций, но результат будет тем же самым. Утверждение Криса верно лишь для его упрощенного алгоритма MiniRank, который неприменим в поисковиках. Дело в том, что у MiniRank отсутствует сходимость, т. е. в работе алгоритма нет такой точки, когда можно сказать, что значения весов страниц на данной итерации вычислены с нужной точностью. Он будет работать вечно. Поэтому, воздействие на вес сайта невозможно до начала работы алгоритма PageRank.

Если коррекция все-таки происходит, есть два очевидных способа ее осуществления. Первый — корректировать веса нужных страниц на каждой итерации. Но как? Устанавливать в фиксированное значение? Какое? Или увеличивать пропорционально реальному весу? Мало того, что такие действия замедлят работу алгоритма, так еще неизвестно, как это повлияет на его сходимость. Второй способ — корректировать вес нужных страниц после окончания работы алгоритма — тоже не подходит, потому что тогда теряется суть идеи — увеличение веса хороших сайтов, которые, в данном случае, являются сайтами, вручную проверенными командами Yahoo и DMOZ, за счет поднятия веса самих каталогов.

Однако, есть еще менее очевидный способ, который позволяет не только поднять вес Yahoo и DMOZ, но и сохранить идеологию PageRank (вес страницы — это вероятность посещения ее пользователем). Его предложил Марк Хоррэл (Mark Horrell). Существует понятие висящих ссылок (dangling links) — это такие ссылки, которые указывают на страницы, не содержащие ни одной ссылки. Они мешают работе алгоритма, потому что неясно, как должен распределяться вес таких страниц. Согласно оригинальному PageRank, эти ссылки просто убираются до начала вычислений, и возвращаются после их окончания. Так вот, Марк предположил, что, вероятно, ссылки могут не убираться, а просто их вес направляется на хорошие сайты (Yahoo, DMOZ). Например, таким образом, как если бы на тупиковых страницах было лишь две ссылки — на эти каталоги. Если вдуматься, то это очень логично. Логично с точки зрения пользователя — попав на страницу, где нет ни одной ссылки, куда он перейдет? Скорее всего, наберет в браузере адрес какого-либо хорошего сайта. А ведь именно таким сайтам оказывается поддержка за счет увеличения веса каталогов! Логично с точки зрения поисковика — мы избегаем нескольких лишних итераций алгоритма (на убирание висящих ссылок и их восстановление). Вполне может быть, что Марк набрел на истину. [Прим. А. С.]

10 Под словами «мы можем» автор имеет в виду «Google может», точнее, это по силам тому, кто способен воздействовать на реализацию алгоритма PageRank в конкретном поисковике. [Прим. А. С.]

11 Во-первых, Крис смешивает эффект обратной связи с техникой удержания веса внутри сайта. Ранее он определил обратную связь как эффект возрастания веса страницы во время очередной итерации на значение, тем большее, чем больше был вес данной страницы на одной из предыдущих итераций. В основе эффекта лежит передача веса рассматриваемой страницы одной или нескольким страницам, которые с помощью ссылок составляют с данной страницей кольцо. Удержание веса внутри сайта — это всего лишь техника, заключающаяся в простановке максимального числа ссылок на страницы своего сайта на тех страницах сайта, где встречаются ссылки на чужие (внешние) сайты, а также избегание простановки ссылок на те страницы сайта, где встречаются внешние ссылки. В основе техники лежит факт, что вес страницы распределяется равномерно между всеми ссылками, следовательно, чем больше ссылок будут указывать на свои страницы, тем больше веса останется внутри сайта.

Каков же вклад каждого из эффектов? Нетрудно проверить, что если четыре добавленных страницы будут указывать на главную страницу, но страница «Ссылки» останется прежней (т. е. обратной связи не будет), то после третьей итерации суммарный MiniRank вес сайта станет равным 44,63. Значит, 90% разницы в весе сайта обеспечивается не за счет обратной связи, а за счет новых страниц. При этом вес главной страницы будет равным 21,19 (95% разницы в весе дают новые страницы), а вес основных страниц — 6,48 (99% разницы в весе за счет новых страниц). Аналогично можно проверить вклад техники удержания веса — сравнив веса для разных структур сайта, я получил, что ее доля в увеличении веса сайта равна 6%, следовательно, на долю обратной связи остается лишь 4%.

Казалось бы, отсюда можно сделать вывод, что основное внимание следует уделять лишь созданию новых страниц, указывающих на самые важные страницы сайта. Не спешите! Помните, что MiniRank во многом отличается от PageRank, да и конкретная структура сайта очень сильно влияет на показатели. При тех же исходных данных для PageRank получается, что новые страницы дают только 64% разницы в весе, техника удержания веса — 1%, и 35% увеличения веса дает эффект обратной связи. Причем не меняя число страниц сайта и внешние ссылки, лишь проставляя внутренние ссылки, за счет эффекта обратной связи можно добиться увеличения веса данного сайта еще на 30%.

Выводы следующие: так как точные расчеты зачастую провести невозможно, следует использовать все три приема сохранения веса внутри сайта в следующей очередности: 1) добавление максимального числа страниц, 2) создание эффекта обратной связи, 3) применение техники удержания веса. Думая о структуре сайта, следует помнить, что теория только тогда воплощается на практике, когда все страницы сайта известны поисковику. Поскольку ручная регистрация всех страниц сайта в поисковике слишком хлопотна, следует обратить внимание, чтобы в сайте не было страниц, к которым нельзя пройти от главной страницы по ссылкам. [Прим. А. С.]

Ниже приведена формула расчета, которая была ранее предоставлена Google. Сложно судить, насколько она изменилась или не изменилась сегодня. Но вряд ли были сделаны глобальные изменения.


PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

  1. PR(A) — PageRank страницы A (тот вес, который мы хотим вычислить),

  2. D — это коэффициент затухания, который обычно устанавливают равным 0,85,

  3. PR(T1) — вес PageRank страницы, указывающей на страницу A,

  4. C(T1) — число ссылок с этой страницы,

  5. PR(Tn)/C(Tn) - мы делаем это для каждой страницы, указывающей на страницу A.

Категория: Материалы | Добавил: admin (24 Мая 2010) | Автор: Максим
Просмотров: 841 | Теги: pagerank, как раскрутить страницу, раскрутка страницы, ранг страницы | Рейтинг: 0.0/0
Всего комментариев: 0
Имя *:
Email *:
Код *: