Хранение и обработка информации поисковой системой Google

хранение информации

Автор: Roman Kroutman

Дата: 05/03/2013

Теги: google, spanner, база данных

Google редко публикует информацию о количестве обрабатываемых запросов. В 2012 году в одной из презентаций представителей компании мелькнула цифра в 100 триллионов запросов в месяц. Для того, чтобы справиться с такой нагрузкой на систему поиска в корпорации разработали уникальную технологию хранения и синхронизации данных Spanner. База данных, созданная по этой технологии, способна работать с информацией, хранящейся на множестве компьютеров в разных странах на всех континентах (и да… в Антарктиде, насколько известно, нет серверов Google). Это позволяет распределить нагрузку между множеством компьютеров с одной стороны, а с другой: поддерживать актуальность и целостность хранимых данных.

google spanner

Хранимые данные не только разбросаны по всему земному шару, но и разложены на составляющие, гарантирующие быстрый и качественный поиск по поступающим в систему запросам.

Когда поисковые роботы приносят тексты, видео, изображения и другие данные с сайтов, их перед сохранением анализируют и разбивают на множество отдельных элементов. Например, тексты разделяются на заголовок, краткое пояснение, выделенные различным образом фразы, а также ссылки на другие страницы в интернете. Учитываются сотни различных параметров: где географически находится сайт, основной язык текстов, ошибки в коде сайта и т.д. Все это впоследствии принимается в расчет при формировании ответов на поступающие запросы. В результате некоторые сайты попадают на первую страницу выдачи поисковой системы по требуемым запросам, а некоторые остаются далеко позади. Здесь было место для рекламы, но мы будем скромны :)

В следующей части будет обсуждаться способность поисковой системы Google возвращать релевантные запросам сайты практически моментально: .