Как работают поисковые системы

Как работают поисковые системы

Как работают поисковые системы (принцип работы)
Поисковая система — это большая база контента со всего интернета, которая представляется пользователям в виде поисковой выдачи (та страница, куда вы попадаете вводя ту или иную фразу).
Основные составляющие поисковой системы
Поисковые роботы — обходят все сайты, осуществляют поиск новой информации (контента), которая до этого еще не была известна поисковой системе. Вся информация передается индексатору.
Индексаторы — анализируют документ, предварительно разбив его на зоны. Все зоны (мета-теги, текст и другие элементы) анализируются по отдельности.
Поисковая выдача — на основе данных полученных от индексатора, а также применяя собственные алгоритмы, поисковая система формирует поисковую выдачу, сортируя сайты в порядке от самого
релевантного до менее релевантного. В поисковой системе «Яндекс» выдача обновляется -два раза в неделю — это называется апдейтом. В поисковой системе «Google» апдейты происходят ежедневно.
Основная цель поисковых систем — предоставить пользователям максимально качественный и полный ответ на их вопрос. Для решения своей основной задачи и предоставлять пользователю быстрые ответы, поиск разделен на две части:
Базовый поиск
Метапоиск
Базовый поиск — программа, которая производит поиск по своей части индекса и предоставляет все соответствующие запросу документы.
Метапоиск — программа, которая обрабатывает поисковый запрос, определяет региональность пользователя, и если запрос популярный, то выдает уже готовый вариант выдачи, а если запрос новый, то выбирает базовый поиск и отдает команду на подбор документов, далее методом машинного обучения ранжирует найденные документы и предоставляет пользователю.
Для того, чтобы понять какой ответ должен быть предоставлен пользователю, поисковая система должна понять, что ему нужно. Для этого анализируются поисковые запросы, которые вводит пользователь. В первую очередь, поисковый запрос анализируется по таким параметрам:
География
Популярность
Конкурентность
Длина
Орфография запроса
Далее определяется тип запроса. Запросы можно разделить на такие типы:
Информационные — когда ищут ответ на какой-либо вопрос (как приготовить борщ)
Транзакционные — когда хотят что-то купить (купить холодильник)
Навигационные — когда ищут информацию о местоположении (где вкусно поесть)
Брендовые — когда ищут информацию по определенному бренду (pride marketing)
Мультмедийные — когда ищут фото или видео (видео-обзор холодильника Anston)
Общие — общая информация, по которой невозможно однозначно определить цель пользователя (холодильник)
На основе типа запроса формируется поисковая выдача
Если вводиться общий запрос, то в поисковую выдачу подмешиваются разные типы документов. Соответственно конкуренция по общим запросам запредельно высокая и продвигаясь только по ним, вы рискуете не попасть даже в ТОП 10.
Но даже если по некоторым общим запросам вы попадете в ТОП, то не факт что это принесет полезных результатов для вас — такие запросы по понятным причинам менее конверсионные.
МатриксНет
Машинное обучение МатриксНет — алгоритм, введенный в 2009 году Яндексом, подбирающий функцию ранжирования документов по определенным запросам.
С помощью Матрикснета можно построить очень длинную и сложную формулу ранжирования, которая учитывает множество различных факторов и их комбинаций. Другие методы машинного обучения позволяют либо строить более простые формулы с меньшим количеством факторов, либо нуждаются в большей
обучающей выборке. Матрикснет строит формулу с десятками тысяч коэффициентов. Это позволяет сделать существенно более точный поиск.
Первичные данные для оценки эффективности формулы ранжирования собирает отдел асессоров. Это специально обученные люди, которые оценивают выборку сайтов по экспериментальной формуле по следующим критериям.
По каким критериям оценивается сайт?
Витальный — официальный сайт. Поисковому запросу соответствует официальный сайт, группы в социальных сетях, информация на авторитетных ресурсах.
Полезный (оценка 5) — сайт, который предоставляет расширенную информацию по запросу
Обобщим под понятием «суперсайт» некий информационный ресурс, предоставляющий максимально релевантную запросу информацию (о товаре, услуге и т.п.). Соответственно, полезный сайт должен содержать следующую информацию
Что такое «суперсайт»
Размеры суперсайтов
Фотографии суперсайтов
Цены на суперсайты
Возможность заказа суперсайта
Что-то еще, чего нет у конкурентов (например, форма расчета размера суперсайта)
Другие критерии качества
Условно их можно охарактеризовать так:
Релевантный + (оценка 4) — это оценка означает, что страница соответствует поисковому запросу
Релевантный — (оценка 3) — страница не точно соответствует поисковому запросу
Нерелевантный (оценка 2) — страница не соответствует запросу.
Например, когда по названию фильма выводится название другого фильма. Чтобы продвинуть ресурс по общему или информационному запросу, нужно создавать страницу соответствующую оценке «полезный». Для четких запросов достаточно соответствовать оценке «релевантный*».
Релевантность достигается за счет текстового и ссылочного соответствия страницы поисковым запросам.

Поделиться: