Лог-файлы web-сервера - что в них?

В тот момент, когда пользователь Сети набирает в браузере адрес того или иного ресурса, браузер, получая страницу с web-сервера, соответствующую адресу, генерирует как минимум один запрос, обрабатываемый web-сервером. Сведения о каждом запросе браузера web-сервер записывает в особый файл, называемый "лог-файлом" (от англ. log - судовой журнал, в данном случае).

Обычно одному запросу в лог-файле соответствует одна текстовая строка, отформатированная особым образом. Получение каждого файла, в том числе и графических изображений, порождает отдельный запрос. А поскольку страница современного сайта содержит множество изображений, то получение браузером одной web-страницы сопровождается несколькими запросами к web-серверу, а не единственным, как можно подумать.

Записи в лог-файле сохраняются в общепринятом формате, который, однако, не является стандартом. Отметим лишь, что в каждой записи обычно содержатся сведения об IP-адресе источника запроса (посетителя), о времени запроса, о типе запроса и результатах его выполнения, о типе клиентского (пользовательского) браузера, о типе операционной системы на клиентском компьютере, о запрашиваемом элементе страницы. Сохраняется и другая информация.

Не все поля сохранённой в лог-файл записи достоверны. Так, браузер передаёт информацию о себе самом (так сказать, представляется) и о типе операционной системы из которой он, браузер, работает. Конечно, web-сервер не может проверить эту информацию и принимает её как есть. В подавляющем большинстве случаев данные, передаваемые с компьютера посетителя, верны. Но иногда они могут быть изменены находчивым продвинутым пользователем. IP-адрес источника запроса также достоверен лишь с какой-то степенью точности, по нынешним временам не высокой: вовсе не обязательно, что исходный компьютер, пославший запрос, имеет именно тот IP-адрес, который в запросе указан. Дело в том, что между web-сервером и компьютером посетителя очень часто оказывается специальный узел-ретранслятор, по тем или иным причинам не просто передающий пакеты данных, но и скрывающий исходный адрес (вовсе не обязательно, что это делается для целей обеспечения анонимности).

А вот данные о запрошенной с web-сервера странице, её адресе - точны, ведь эти данные и составляют основной предмет запроса. Несмотря на все возможные неточности, лог-файлы web-сервера остаются самым полным источником статистики посещаемости просто потому, что все другие методы сбора этой статистики предоставляют ещё более туманные данные.