Посещаемость сайта – притча во языцех всех немногочисленных поколений веб-разработчиков. Через посещаемость сайта пытаются определить его стоимость, рекламную привлекательность, рейтинг, влияние на окружающий мир – короче, все на свете.
И это, в общем-то, правильно. Перефразируя классиков, мы должны сделать конфетку из того, что есть – потому что больше ее все равно сделать не из чего.
Разберемся, однако, несколько подробнее с тем, что такое посещаемость и стоит ли на нее так уж сильно полагаться.
Хосты, хиты и другие непонятные слова.
Одна из базовых проблем в вопросах посещаемости сайта – что именно нужно измерять. Дело в том, что сайт физически находится в одном месте, человек, который на него зашел – в другом, а счетчик, в общем случае – в третьем. И даже если представить на месте счетчика не тупого робота, а интеллектуального человека, то и ему, с его умом, будет сложно определить, зашел ли на сайт тот же самый человек, что и пол-часа назад, или же компьютер, с которого осуществлен заход, находится в компьютерном классе с проходимостью тысяча человек в сутки, и за ним за эти пол-часа сменилось уже пятеро.
В попытках определиться в этих вопросах специалисты по посещаемости – будем называть их хостологи – ввели ряд терминов, которыми стоит оперировать и нам, если мы не хотим выглядеть совсем уж дилетантами.
Базовое понятие посещаемости – хост. Само по себе слово "хост" относится скорее не к сайтам, а к компьютерам, и означает отдельный компьютер, с которого посетитель зашел на сайт. Упрощенно говоря, практическим (хотя и не точным) синонимом слова "хост" в применении к вопросам посещаемости является словосочетание "уникальный посетитель". Это словосочетание предполагает, что любое количество посетителей, пришедших с одного и того же IP-адреса, будет считаться за какой-то промежуток времени как один хост.
Необходимо сразу оговориться, что и хосты, и хиты, и прочие характеристики посещаемости считаются именно за какой-то период времени. При этом число хостов за сутки, умноженное на 30, совершенно не будет равно числу хостов за месяц. Если подумать, то это положение очевидно, хотя бывают случаи, когда эти две цифры примерно равны.
Казалось бы, с первого взгляда хост является отличной характеристикой для определения посещаемости сайта. Однако это – только на первый взгляд. Безусловно, именно хост близок к показателю того количества реальных людей, которые посетили ваш сайт. Однако следует помнить, что хосты считаются именно по IP-адресам, и вот тут стоит очень серьезная ловушка для любителей подсчетов. К примеру, при каждом соединении с провайдером через обычный модем, то есть по коммутируемой линии, провайдер выдает вашему компьютеру новый IP-адрес – в разумных пределах, конечно, в результате чего вы можете десять раз соединиться и десять раз зайти на сайт – и счетчик хостов увеличится ровно на десять. Хотя и компьютер, и человек за ним будет один и тот же.
С другой стороны, существует ряд корпоративных решений, основанных на прокси-серверах. В такой системе хостом является именно прокси-сервер, который и имеет уникальный IP-адрес, видимый снаружи, независимо от того, сколько компьютеров и пользователей находится во внутренней локальной сети этой компании. При этом ни один счетчик не способен отличить такой прокси-сервер от обычного компьютера. Более того – в зависимости от настроек прокси-сервера внутренние компьютеры могут либо сообщать, либо не сообщать свой собственный, внутренний IP-адрес, в результате чего счетчик все-таки может – или не может - идентифицировать вход на сайт из внутреннего компьютера сети по паре системных переменных HTTP_X_FORWARDED_FOR и REMOTE_ADDR.
Описанное явление, с ростом числа и объема компьютерных сетей, может принять значительные масштабы и свести на нет всю идею измерения хостов. К примеру, на конец 2005 года во внутренней сети Байкальского университета находилось 1300 компьютеров, имеющих выход в Интернет, но любой счетчик определял вход с любого из этих компьютеров как один хост – а именно, хост прокси-сервера. Таким образом, даже если заставить всех студентов БГУЭП, сидящих за компьютерами, одновременно зайти на какой-то сайт – счетчик хостов этого сайта увеличится лишь на единицу. Зато счетчик хитов – об этом ниже – на 1300.
Между тем именно хосты являются определяющей характеристикой сайта в разговоре с рекламодателями и именно потому ценятся владельцами рекламных Интернет-площадок. Как правило, рекламодатель разбирается в технологии подсчета посещаемости значительно слабее владельца сайта, и сложные рассуждения о неточности вычисления числа хостов его не интересуют. Рекламодателя интересует конкретная цифра, показанная на конкретном счетчике.
В поисках истины и денег хостологи ввели новую единицу измерения – посетителя. В задачу новой единицы вошло определение реального человека, сидящего за компьютером, а не абстрактного IP-адреса. Как правильно заключают хостологи, при учете хостов бесследно исчезает масса людей, сидящих в Интернет-центрах и компьютерных классах и сменяющихся с определенной периодичностью. При этом счетчик считает такой компьютер за один хост, хотя число посетителей за ним меняется, соответственно меняются и все расклады в отношении рекламной привлекательности сайта.
Само собой, пример с Интернет-центрами общего доступа не исчерпывает все причины появления такой единицы измерения, но он демонстрирует суть проблемы. Идея была правильной – посчитать не IP-адреса, а именно реальных людей. А вот как эту идею реализовать – никто, видимо, в полной мере еще не решил. Практически все счетчики считают как хосты, так и посетителей, причем число посетителей, как правило, несколько больше числа хостов, однако технологию вычисления числа посетителей все счетчики держат за семью печатями. И, наверное, правильно делают, так как очевидно, что такая система подсчета весьма условна и приблизительна, и основана преимущественно на эмпирических данных, а, следовательно, публикация подобных методик подсчета посетителей может привести к грандиозному скандалу, так как окажется, что рекламодатели платят за приблизительных посетителей весьма конкретные деньги.
Мы можем лишь предполагать, какие именно методы используют счетные серверы при определении числа посетителей. Безусловно, там задействованы Cookie, которые ставятся на время жизни сессии браузера, в результате чего вход на сайт с того же компьютера, но после перезагрузки браузера, считается за нового посетителя. При этом не следует забывать, что около 6% браузеров в России работают с отключенными Cookie и, соответственно, вносят существенную поправку в общие показатели посещаемости. Вероятно, существует также некий тайм-аут, после которого повторный вход на сайт тоже считается за нового посетителя. Но – повторюсь – сайты-счетчики не публикуют алгоритмы этих подсчетов.
Гораздо проще считать хиты – общее число входов на сайт, или число перезагрузок страниц сайта. Сами по себе хиты не могут дать какой-либо пищи для размышлений и анализа, и используются они в основном в сочетании с другими параметрами. Нельзя, правда, не заметить, что некоторые недобросовестные владельцы сайтов демонстрируют некоторым не очень информированным рекламодателям именно цифру хитов, хотя очевидно, что ее можно увеличить чисто механическими методами, к примеру, поставив робота на перезагрузку страницы или включив в состав сайта чат, являющийся идеальным генератором хитов.
Мощнейшей характеристикой посещаемости сайта является глубина просмотра, определяемая как отношение хитов к хостам или к посетителям. Фактически глубина просмотра показывает, сколько каждый посетитель сайта в среднем просматривает страниц. Естественно, такая характеристика где-то сродни средней температуре по больнице, однако в условиях усредненной статистики другого просто не дано.
Глубина просмотра, близкая к единице, должна являться тревожным симптомом для сайта, так как она свидетельствует о том, что на сайт зашли и вышли, не посмотрев больше ни одной страницы. Как правило, это случается при плохой навигации сайта, отсутствии ссылок на другие разделы или документы с каждой страницы, неприятном ли раздражающем дизайне. В случае с сайтами СМИ низкая глубина просмотра может говорить о том, что на сайт заходят только с поисковых серверов, то есть у сайта нет имени, брэнда, узнаваемости. Может быть и другой случай, когда сайт, получивший привлекательный домен второго уровня, сам по себе ничего не представляет, и посетитель заходит на первую страницу напрямую, набрав адрес – и уходит с нее.
Неплохая глубина просмотра сайта начинается с трех-пяти. Как правило, такое число просмотренных страниц свидетельствует об интересе посетителей к сайту и о том, что, просмотрев одну страницу, пользователь смотрит также и другие страницы и разделы. Для новостных СМИ и сайтов новостей глубина просмотра, превышающая 3-4, является важнейшим показателем читаемости сайта.
Высокие показатели глубины просмотра – у сайтов форумов, знакомств, поиска работы и вообще любых сервисных сайтов, где происходит просмотр одной страницы за другой. Наиболее высокие показатели глубины просмотра – у чатов.
Между тем глубина просмотра также является весьма лукавой величиной, как и любая относительная величина, потому что она совершенно не показывает связь реальной посещаемости сайта и популярности его страниц. Существуют попытки связать посещаемость с глубиной просмотра, к примеру, в виде показателя deep@host, представляющего собой обратную вторую производную от хитов по хостам, однако такие характеристики далеки от понимания как рекламодателями, так и рядовыми владельцами сайтов.
Аудитория.
А теперь, как говорится, на все, что было сказано выше – наплевать и забыть. Потому что мы совершенно забыли про то, для чего сделан наш ненаглядный сайт. А сделан он для людей, и именно люди, а не абстрактные цифры, должны стоять на первом месте в вопросе о посещаемости.
Речь идет о том, кто именно и с какой целью приходит на ваш сайт. И в этом вопросе обычных цифр посещаемости мало. По большому счету, показатели общей посещаемости и глубины просмотра целесообразны лишь для сайтов общей направленности, то есть для региональных порталов, разного рода фотосайтов, каталогов, электронных библиотек, почтовых сервисов и общественно-политических СМИ, причем для региональных сайтов все-таки имеет значение еще и география посетителей, то есть то, откуда пришел посетитель. В самом деле, если для иркутских рекламодателей интересно размещение рекламы именно на иркутских сайтах, то логично было бы ожидать, что и владельцы сайтов заинтересованы в том, чтобы на их сайт заходили именно иркутяне, а никак не москвичи. Однако Интернет сам по себе границ не имеет, поэтому на самом деле на сайт ходят все, кому не лень, и если на сайт, к примеру, с эротическими картинками не сложно привлечь посетителей со всей России и даже мира, то привлечь большой процент этих посетителей преимущественно из Иркутска на такой сайт весьма затруднительно.
Еще более важна оценка аудитории для специализированных сайтов, ориентированных на какую-то специфическую услугу или продажу продукта. К примеру, на сайт по продаже автомобилей Мерседес достаточно легко привлечь широкую аудиторию, однако эта аудитория, заходящая посмотреть на красивые фотографии автомобилей, владельца сайта совершенно не интересует. Владельцу было бы гораздо важнее получить не тысячу посетителей в сутки, а всего два-три, но таких, чтобы хотя бы один из них купил автомобиль.
Именно поэтому смотреть на "голые" цифры посещаемости, по большому счету, имеет смысл только в случае с сайтами общего профиля. Как только речь идет о какой-то специализации – как сразу наибольшую значимость начинает принимать профильный посетитель, посетитель, который нужен на сайте, а не просто цифра в счетчике.
Я бы в счетчики пошел... Взгляд изнутри.
Счетчик представляет собой достаточно сложную программную систему. Основная сложность счетчика не в алгоритме подсчета – в этом как раз особых затруднений нет. Большая проблема заключается в том, что счетчик, установленный на сайте, при каждой перезагрузке страницы посылает на сервер счетчика некое сообщение, несущее весьма большой объем информации.
Сам счетчик, как правило, программируется на языке JavaScript, хотя возможны и другие варианты, но они встречаются реже. Задача счетчика – узнать IP-адрес компьютера посетителя сайта, проверить наличие и поставить в случае отсутствия Cookie, переслать серверу различные переменные среды - HTTP_REFERER, HTTP_USER_AGENT и другие.
В общем виде сервер счетчика должен, при получении всех этих данных, первым делом проверить, является ли посетитель уникальным и не подпадает ли он под ситуацию, когда хост еще уникален, а посетитель уже сменился. После этого он должен записать всю статистику в базу данных, и вот как раз в этом и есть камень преткновения всех счетчиков.
Дело в том, что любая база данных, даже самая совершенная, имеет предельную нагрузку и скорость работы. Статистика HotLog, к примеру, ежедневно обрабатывает около 90-100 миллионов хитов, что в случае со стандартным алгоритмом дает более 2 тысяч запросов к базе данных в секунду. Следует учесть еще и то, что российские счетчики работают в основном на территории России, Украины и Белоруссии, то есть ночью нагрузка на них снижается на порядок, а днем – вырастает до 10-15 тысяч запросов к базе данных в секунду. Такие нагрузки вряд ли выдержит какая-либо база, и разработчики счетчиков идут на различные ухищрения, в первую очередь на распределение базы данных по нескольким серверам. Одним из традиционных способов является также использование каких-то буферных хранилищ статистических данных, обрабатываемых затем в фоновом режиме.
Некоторые счетчики подсчитывают не только хиты и хосты, но и производят более мощный анализ, выводя статистику по географии посетителей, операционным системам, разрешениям мониторов, точкам входа на сайт и т.д. Вся эта информация при умелом использовании может дать очень много для опытного веб-разработчика.
Одной из штатных функций большинства счетчиков является демонстрация результатов подсчета в виде небольшой графической картинки, как правило, размером 88 на 31 пиксель. Поместить какие-то подробные данные на такую небольшую площадку затруднительно, поэтому на таком счетчике обычно показываются только хиты, хосты и сумма хостов с момента установки счетчика.
Генерация столь небольшой картинки, в общем-то, не представляет особых затруднений, однако в случае массированного использования счетчика это также становится одним из факторов высокой загрузки сервера счетчика.
В принципе написание своего счетчика – это задача, которую хотелось бы порекомендовать каждому начинающему веб-программисту. Однако дальше тренировки или использования на своем сайте для подробного анализа посещаемости отдельных страниц такая разработка уйдет вряд ли – и проблема в первую очередь именно в том, что региональные провайдеры не смогут поддерживать столь мощные базы данных, требуемые для широкого распространения счетчика.
Драм-кружок, кружок по фото...
Немного о разновидностях счетчиков.
Счетчики бывают разные... и этим, пожалуй, этот раздел можно было бы и закончить.
Споры о том, какие счетчики лучше, по своей активности и бесконечности, наверное, не уступают спорам между приверженцами языков PHP и Perl. Основная проблема заключается в том, что счетчики считают по разным алгоритмам, не сообщая при этом пользователям сущность этих алгоритмов, поэтому рассуждать о точности тех или иных счетчиков можно до скончания веков. В общем же случае в отношении счетчиков существует общее правило: лучший счетчик – тот, который считает.
Еще недавно одним из лидеров рынка счетчиков был SpyLog, который наряду со стабильной работой давал весь спектр статистической информации по анализируемым сайтам. Однако несколько лет назад SpyLog совершил, по мнению некоторых его пользователей, удар в спину, перейдя на коммерческие рельсы и оставив бесплатной только статистику по общим цифрам посещаемости. Логика этих действий, в принципе, понятна: содержание счетного сервера российского масштаба является совсем не дешевым удовольствием, и как-то должно окупаться.
Впрочем, свято место пусто не бывает, и на смену SpyLog пришел другой, пока что совершенно бесплатный счетчик HotLog. Как и SpyLog, HotLog дает полную статистику по городам, странам, точкам входа, поисковым системам и прочая, и к его недостаткам можно отнести лишь его грандиозную популярность, из-за чего база данных счетчика часто оказывается недоступной.
По большому счету, этого счетчика должно хватать с лихвой на все задачи, которые могут придти в голову веб-разработчику. Однако на некоторых сайтах можно увидеть целую гирлянду счетчиков, которые дружно показывают совершенно разные цифры, наподобие разладившихся экспонатов музея часов.
Некоторый смысл, в этом, безусловно, есть, так как, как уже было сказано выше, счетчики считают по разным алгоритмам. Большинство профессионалов используют, кроме HotLog или SpyLog, еще и счетчик сервера Mail.Ru, который, хотя и не дает такой широкий спектр аналитики, но зато позволяет сравнивать счетчики разных сайтов друг с другом, а главное – умеет рисовать очаровательные графики посещаемости сайтов, старательно потворствуя любимой забаве начинающих сайтовладельцев – фаллометрии.
Особое место в ряду счетчиков занимают региональные рейтинги сайтов, основанные на счетчиках. Смысл их заключается в том, что вычленить из рейтинговых таблиц общероссийских счетчиков региональные сайты весьма затруднительно, а гораздо проще разработать свой, региональный счетчик и поставить его на местные сайты. Впрочем, до разработки собственного счетчика доходит редко, обычно такие рейтинговые сайты заключают договор с SpyLog или HotLog и строят свои рейтинги на основе анализа их статистики. В этом случае, однако, возникают дополнительные проблемы в том, что далеко не на всех местных сайтах могут стоять именно эти счетчики.
Наглядным примером иркутского рейтингового сайта является "Индекс иркутских сайтов", находящийся по адресу http://index.babr.ru/. Он совмещен в одну систему с региональным каталогом сайтов "Ирлист" (http://babr.ru/irlist/) таким образом, что при регистрации в каталоге владелец сайта, установивший кнопку счетчика, автоматически попадает и в рейтинг. Согласно этому рейтингу, за 2005 год пятерка лидеров иркутских сайтов по хостам выглядит так (данные взяты на дату написания статьи):
1. Иркутский региональный портал БАБР.RU - 92579
2. Автомобильный еженедельник "Автомаркет" - 69339
3. Работа в Иркутске и области - 67874
4. Новости БАБР.RU - 65191
5. ROSSIBNEFT.ru - 62226
При этом пятерка лидеров года по хитам выглядит несколько иначе, хотя и в рамках той же пятерки:
1. Работа в Иркутске и области - 702984
2. Иркутский региональный портал БАБР.RU - 318083
3. Автомобильный еженедельник "Автомаркет" - 219347
4. ROSSIBNEFT.ru - 176978
5. Новости БАБР.RU - 174203
Пятерка лидеров по глубине просмотра сайтов выглядит вообще фантастично:
1. Саянский Городской Форум - 28.74
2. SIB-EROS - 24.76
3. Информационные Системы и Технологии | БрГУ | г.Братск - 11.18
4. Работа в Иркутске и области - 10.35
5. Керамик-Сити - Керамогранит из Китая – 8.25
А вот так выглядит статистика по синтетическому параметру deep@host, учитывающему и посещаемость по хостам, и глубину просмотра сайта:
1. Иркутский региональный портал БАБР.RU - 26859.77
2. Новости БАБР.RU - 25813.46
3. Автомобильный еженедельник "Автомаркет" - 21864.47
4. ROSSIBNEFT.ru - 21751.95
5. Информационное агентство "Телеинформ" - 15224.37
При этом, однако, очевидным недостатком любого регионального рейтинга является неполная информация по сайтам, так как сайты, не зарегистрированные в системе или не установившие счетчик, тем самым не участвуют в рейтинге. Так, например, в рейтинге "Индекс иркутских сайтов" не участвуют два крупнейших иркутский проекта WWWoman и Cooler, присутствие которых однозначно изменило бы взаимное расположение лидеров рейтинга.
Вставлять или не вставлять?
В большинстве случаев счетчик ставить надо. В самом деле, находиться в блаженном неведении относительно числа посетителей собственного сайта попросту неприлично – не говоря уже о том, что при отсутствии таких знаний и речи быть не может о каком-то зарабатывании денег на сайтах – розовой мечте и начинающих, и маститых сайтостроителей.
Существует три причины, почему люди не ставят себе счетчики на сайт.
Первые две – объективные.
Некоторые просто не умеют это делать. На самом деле это просто – достаточно зайти на сайт www.hotlog.ru и внимательно его изучить. Как любят говорить системные администраторы, там все написано.
Вторая причина – то, что счетчики, пусть и немного, но притормаживают загрузку сайта. Вообще-то это не очень критично, но есть некоторые люди, которые даже к задержке в пару миллисекунд относятся крайне трепетно и подходят к выбору счетчика именно по критерию скорости загрузки. С другой стороны, в чем-то они правы, так как в моменты пиковых нагрузок отдельные счетчики увеличивают загрузку страницы на пару-тройку секунд. А об этом уже не стоит думать свысока.
Третья причина субъективна, прозаична и неприлична. Некоторые владельцы сайтов не хотят показывать потенциальным рекламодателям истинное положение дел с посещаемостью их сайта и либо вообще отказываются от счетчиков, либо делают невидимые счетчики – благо при некотором знании JavaScript такое можно сделать практически с любым кодом. Вот только делать это не стоит, так как обычно это является нарушением соглашения об установке счетчика и может повлечь его отключение.
Как правило, владельцы таких сайтов что-то рекламодателю все-таки показывают, но это либо далекая от реальности подтасовка, либо какие-то другие показатели, не имеющие напрямую отношения к посещаемости – например, индекс цитирования Яндекса. В любом случае такая деятельность – это прямой обман покупателя, и по большому счету является преступлением.
В общем и целом отсутствие хорошо видимого счетчика на всех страницах сайта должно говорить о том, что его владельцу есть что скрывать. Далеко не всегда это вызвано, кстати, желанием пустить пыль в глаза – некоторые владельцы сайтов просто считают, что счетчик портит дизайн их сайта.
... и о рекламе.
У счетчика, работающего на сайте, две основные функции. Первая – это подробная статистика по посетителям сайта. Вторая – это объективная информация для рекламодателя, желающего разместить свою рекламу на таком сайте.
В отношении рекламы и посещаемости все сайты четко делятся на две категории. Первая – это сайты общего назначения, на которые ходят все. На сегодняшний день в России такие сайты с посещаемостью менее 1000 хостов в сутки, как правило, в качестве рекламных площадок не рассматриваются. При этом рекламодатель еще и внимательно смотрит, откуда именно идут посетители на сайт и как этот поток посетителей соотносится с потребностями рекламодателя. Для сайта общего назначения с посещаемостью более 1000 хостов в сутки можно попробовать поискать рекламодателя в своем регионе. Если же посещаемость сайта превышает 5000 хостов в сутки – есть шанс и получить хороший столичный заказ на рекламу.
Вторая категория сайтов – это специализированные сайты с низким количеством посетителей и со специфической аудиторией. Для этих сайтов число хитов и хостов, как правило, некритично, и грамотный рекламодатель это понимает. Для специализированных сайтов гораздо важнее анализ аудитории, посещающей сайт, и вот здесь счетчики пасуют. Для серьезного анализа аудитории требуется большая и кропотливая работа по анкетированию, опросам, общению с посетителями. Соответственно, для поиска рекламодателя для такого сайта необходимо более серьезное общение с продавцами и производителями соответствующих товаров.
В завершение хотелось бы напомнить, что рынок Интернет-рекламы, как и вообще рынок Интернет в России, растет стремительными темпами. Именно у нынешних владельцев сайтов есть все шансы успеть на этот поезд…
Контакт с автором: [email protected]