вторник, 22 апреля 2014 г.

Виртуальный мир: особенности невидимого Интернета

Какого размера наша Вселенная? Вопрос сложный. Всё, что мы можем сказать о границах реального мира, является лишь нашими предположениями. Совсем иначе обстоит дело с миром виртуальным. Всемирная паутина фактически разделена на две части и имеет вполне конкретные габариты, которые можно измерить.

Виртуальный мир

Сегодня мы отвлечемся от темы бизнеса и немного поговорим о глубоких недрах Интернета, о существовании которых, возможно, вы даже не знаете.

Вам интересно?

Тогда читайте дальше.

Итак,

Существует видимый и невидимый Интернет. К видимому Интернету относятся ресурсы, содержимое которых можно обнаружить при помощи поисковых машин. Интернет невидимый, это ресурсы, существующие в Глобальной Сети и доступ к которым возможен, если знать местонахождение этих ресурсов. Найти ресурсы невидимого Интернета поисковые машины не могут.

Некоторые исследователи считают, что только 20-30% информации в Сети относится к видимому Интернету, а основные ресурсы сосредоточены в невидимой части Интернета. Эту часть Интернета составляет так называемый "глубокий веб" (deep web), в основе которого лежат анонимные пользовательские сети.

Какие же причины способствуют существованию невидимого Интернета?

Его существование связано с причинами как технического, так и организационного характера.

Понятие невидимого Интернета трудно точно зафиксировать в конкретных, специфических терминах. Некоторые страницы созданы в таком формате, что они не поддерживаются поисковыми машинами, иногда сами владельцы ограничивают доступ к своим страницам. Бывают виды контента, не индексируемые информационными системами.

Сегодня владельцы веб-сайтов сами определяют, какая часть их контента будет попадать в индекс поисковых систем, а какая нет. В случае если владелец ресурса закроет доступ к нему поисковым роботам или не позволит незарегистрированным пользователям читать страницы, то его информация не сможет появиться в списках итоговых результатов поиска. Даже в том случае, если на эту страницу будут ссылаться несколько десятков тысяч сайтов. В обычных условиях поиск гарантированно показал бы контент в результатах выдачи.

глубокий веб

Хорошо иллюстрируют "глубокий веб" каталоги библиотек. Несмотря на то что перечень книг и журналов публикуется в основном на традиционных, устоявшихся веб-серверах, посетить их можно только после регистрации и, естественно, такую регистрацию поисковые системы выполнить не могут. Для поисковых машин это, будто бы, запертая снаружи дверь. Помимо библиотек сюда можно отнести различные базы данных, например, об авиасообщениях, производственной документации, специальных медицинских материалах и т.д.

Правда иногда случается, что хозяева ресурсов допускают технические ошибки, в результате которых информация, которая не должна была попасть в Сеть, оказывалась в результатах поиска.

Например, зафиксирован случай, когда некоторые SMS-сообщения, посланные с сайта компании "Мегафон" абонентам мобильного оператора, были проиндексированы службой "Яндекс". Случилось это по причине того, что во время индексации поисковой системой не оказалось файла, в котором содержится команда на запрет индексации конфиденциальных разделов сайта.

Чтобы добраться до недр Интернета следует воспользоваться специальными поисковыми системами, например Pipl.com или Spokeo.com. Устройство этих поисковых систем существенно отличается от Google и Яндекс, что позволяет им обнаруживать сведения в таких базах данных, которые недоступны обычным поисковикам.

Новые возможности поиска связаны с созданием передовых поисковых роботов. Они могут генерировать достаточно осмысленные и понятные запросы к базам данных и вследствие применения специфичных языков могут заполнять формы вместо пользователя.

Сегодня цель традиционных поисковых систем добраться до информационных пластов, находящихся в глубоком невидимом Интернете, что неудивительно, ведь "глубокий веб" в 5 раз больше обычного интернета. По оценкам компании IDC (International Data Corporation), размер видимого мирового интернета составляет более 3 зеттабайт (1 зеттабайт = 1 млрд гигабайт).

Практически вся информация в видимом интернете является открытой и, соответственно, бесплатной. Никаких регистраций, подписок и лишних, как правило, ненужных вопросов.

Вместе с тем поисковики постепенно будут находить и индексировать все большие объемы информации, находящейся в невидимой части Интернета. И грань между "поверхностным" и "глубоким вебом" со временем размоется. Останется недоступной для поиска только та часть, где платный контент может быть предоставлен только по подписке.

Понравилась статья? Поделись с друзьями!
Поделиться с друзьями

ПОЛУЧАЙТЕ НАШИ НОВЫЕ СТАТЬИ НА СВОЙ E-MAIL!

Комментировать в ВКонтакте

Комментировать в Facebook

0 Оставьте свой комментарий:

Отправить комментарий