Як працюють алгоритми пошуку

В Інтернеті доступний великий обсяг інформації, тому знайти потрібні дані без певної допомоги та сортування було б майже неможливо. Системи позиціювання Google сортують сотні мільярдів веб-сторінок в індексі Пошуку, щоб знаходити найбільш релевантні результати за частку секунди та показувати їх у зручний для вас спосіб.

Ці системи позиціювання складаються з низки алгоритмів. Щоб надати найкориснішу інформацію, алгоритми Пошуку зважають на багато факторів, зокрема на слова в запиті, релевантність і зручність використання сторінок, компетентність джерел, а також ваші місцезнаходження й налаштування. Значимість кожного фактора залежить від характеру вашого запиту. Наприклад, свіжість вмісту відіграє більшу роль у відповідях на запити про актуальні теми новин, ніж у запитах про визначення слів у словниках.

Щоб алгоритми Пошуку відповідали високим стандартам щодо релевантності та якості, ми розробили a ретельний процес, що включає онлайн-тести. Також у ньому беруть участь досвідчені зовнішні експерти з оцінки Пошуку з усього світу. Ці експерти дотримуються чітких загальнодоступних інструкцій, у яких указано наші цілі для алгоритмів Пошуку.

Докладніше про основні фактори, які впливають на результати пошуку.

  • Аналіз введених слів

    Аналіз введених слів

    Щоб надати вам правильні відповіді, ми маємо розуміти суть вашого запиту. Тому, щоб знайти сторінки з доречною інформацією, ми спершу аналізуємо значення слів у вашому пошуковому запиті. Ми створюємо мовні моделі, щоб розшифрувати, які набори слів потрібно шукати в індексі.

    Це включає такі прості дії, як тлумачення орфографічних помилок і спроби зрозуміти тип пошукового запиту, який ви ввели. Для цього застосовуються найновіші дослідження, спрямовані на природне розуміння мови. Наприклад, наша система синонімів допомагає Пошуку зрозуміти, що ви маєте на увазі, навіть якщо слово має декілька значень. Ця система створювалася впродовж понад 5 років. Вона постійно покращує результати для більш ніж 30% пошукових запитів різними мовами.

    Ми також намагаємося зрозуміти, яку категорію інформації ви шукаєте. Це певний пошуковий термін чи запит на загальну тему? Чи містить він такі слова, як "огляд", "зображення" чи "години роботи", які б указували на певний тип інформації під час пошуку? Чи шукаєте ви популярні ключові слова, що стосуються вмісту, опублікованого в певний день? Можливо, ви шукаєте компанії поблизу й інформацію про них?

    Особливо важливою одиницею класифікації цього запиту є аналіз того, чи пошук стосується оновленого вмісту. Якщо ви виконуєте пошук за популярними ключовими словами, наші алгоритми актуальності розумітимуть це як сигнал того, що оновлена інформація буде кориснішою, ніж застарілі сторінки. Це означає, що під час пошуку новин про "результати НФЛ", "танці із зірками" або "прибутки exxon" ви бачитимете останню інформацію.

  • Підбір релевантних сторінок

    Підбір релевантних сторінок

    Після цього ми шукаємо веб-сторінки, які відповідають вашому запиту. Під час пошуку наші алгоритми шукають серед основної інформації пошукові терміни в індексі, щоб знайти відповідні сторінки. Вони аналізують, як часто та де на сторінці з’являються ці ключові слова – у назвах, заголовках чи основній частині тексту.

    Основний показник того, що інформація на веб-сторінці важлива – це наявність у ній тих самих ключових слів, що й у пошуковому запиті. Якщо вони з’являються в заголовку чи основній частині тексту, імовірно, інформація є доречною. Крім простої відповідності ключових слів, ми використовуємо сукупні й анонімні дані про взаємодію, щоб дізнатися, чи результати пошуку пов’язані із запитами. Ми перетворюємо ці дані на сигнали, які допомагають нашим системам машинного навчання краще оцінювати релевантність.

    Як і відповідні ключові слова, алгоритми шукають підказки, щоб визначити, наскільки потенційні результати пошуку доречні для користувачів. Коли ви шукаєте за запитом "собака", вам, імовірно, не потрібна сторінка, де сотні разів повторюватиметься це слово. Ми намагаємося визначити, чи сторінка містить відповідь на ваш запит, а не просто повторює його. Тому алгоритми Пошуку аналізують, чи сторінки містять доречний вміст, як-от зображення собак, відео чи навіть список порід. Наприкінці ми перевіряємо, чи збігаються мови сторінки та вашого запитання, щоб надати перевагу сторінкам вибраною мовою.

    Слід пам’ятати, що під час пошуку цих кількісних показників для оцінки релевантності наші системи не аналізують суб’єктивні поняття, як-от точка зору чи симпатія щодо вмісту сторінки.

  • Ранжування релевантних сторінок

    Ранжування релевантних сторінок

    Для звичайного запиту в мережі є тисячі або навіть мільйони веб-сторінок із потенційно доречною інформацією. Щоб розмістити найкращі сторінки на початку, ми також пишемо алгоритми, які визначають, наскільки корисними є ці веб-сторінки.

    Ці алгоритми аналізують сотні різних факторів, щоб показувати найкращу інформацію в Інтернеті – від новизни вмісту до кількості разів, коли з’являвся ваш пошуковий термін, а також до взаємодії користувачів зі сторінкою. Щоб оцінити надійність і авторитетність теми, ми шукаємо сайти, які, на думку користувачів, можуть бути значимими для схожих пошукових запитів. Якщо інші відомі веб-сайти з цією темою переспрямовують на сторінку – це добрий знак того, що інформація якісна.

    В Інтернеті є чимало сайтів, що розповсюджують спам. За допомогою таких методів, як багаторазове повторення ключових слів і покупка посилань, які успішно проходять перевірку алгоритмом PageRank, вони намагаються зайняти верхні позиції в результатах пошуку. Ці сайти низькоякісні та навіть можуть завдати шкоди користувачам Google або ввести їх в оману. Тому ми пишемо алгоритми, що виявляють спам, і видаляємо з наших результатів сторінки, які порушують Інструкції для веб-майстрів Google.

  • Показ найкращих результатів

    Показ найкращих результатів

    Перш ніж показувати вам результати, ми визначаємо доречність усієї інформації: скільки тем серед результатів пошуку – лише одна чи декілька? Чи багато сторінок пов’язано з одним вузьким тлумаченням? Ми намагаємося показувати різну інформацію у форматах, що найбільш корисні для вашого типу пошукового запиту. А оскільки вміст в Інтернеті змінюється, ми вдосконалюємо наші системи позиціювання, щоб показувати кращі результати для більшої кількості запитів.

    Ці алгоритми аналізують сигнали, які вказують на те, що всі наші користувачі можуть переглянути результат, наприклад, чи сайт правильно відображається в різних веб-переглядачах; чи він створений для пристроїв усіх типів і розмірів (зокрема, комп’ютерів, планшетів і смартфонів); і чи сторінка завантажується швидко, якщо з’єднання з Інтернетом повільне.

    Оскільки власники можуть покращувати зручність використання своїх веб-сайтів, ми докладаємо всіх зусиль, щоб заздалегідь повідомити їх про важливі й ефективні зміни в наших алгоритмах Пошуку. Наприклад, у січні 2018 року ми оголосили про те, що алгоритми враховуватимуть оптимізацію завантаження сторінок на сайтах, і через 6 місяців опублікували цю зміну. Щоб допомогти власникам веб-сайтів, ми надали їм докладні інструкції й інструменти, як-от PageSpeed Insights і Webpagetest.org. Так власники мали змогу перевірити, чи потрібно було щось змінювати на своїх сайтах, щоб краще оптимізувати їх для мобільних пристроїв.

    Докладнішу інформацію про ці інструменти й поради Google для власників сайтів можна переглянути тут.

  • Врахування даних про користувачів

    Врахування даних про користувачів

    За допомогою інформації (як-от вашого місцезнаходження, історії минулих пошуків і налаштувань Пошуку) ми підбираємо для вас найдоречніші та найкорисніші результати в момент пошуку.

    Ми використовуємо інформацію про вашу країну та місцезнаходження, щоб показувати вам вміст, доречний у вашій місцевості. Наприклад, якщо ви перебуваєте в Чикаго та шукаєте за запитом "футбол", найперше ви побачите результати про американський футбол і команду "Чикаго Беарс". Якщо ви шукаєте за запитом "футбол", перебуваючи в Лондоні, у Google спершу з’являться результати про футбол і Прем’єр-лігу. Налаштування Пошуку – також важливий показник того, які результати ймовірно корисні для вас. Наприклад, якщо ви налаштували основну мову або ввімкнули Безпечний пошук (інструмент, за допомогою якого можна фільтрувати результати відвертого характеру).

    У деяких випадках ми також можемо персоналізувати ваші результати за допомогою інформації про вашу нещодавню активність у Пошуку. Наприклад, якщо ви шукаєте за запитом "Барселона", а нещодавно шукали за запитом "Барселона проти Арсеналу", це може бути важливою підказкою про те, що вас цікавить інформація про футбольний клуб, а не місто. Ви можете контролювати, які пошукові запити використовуватимуться для покращення результатів Пошуку, зокрема вказати, які дані зберігатимуться в обліковому записі Google на сторінці myaccount.google.com.

    Пошук також включає функції для персоналізації результатів на основі активності в обліковому записі Google. Наприклад, якщо ви шукаєте "події поруч", Google може підбирати рекомендації щодо категорій подій, які, на нашу думку, можуть вас зацікавити. Ці системи створені для того, щоб показувати доречніші результати, але не для того, щоб дізнаватися ваші конфіденційні характеристики, як-от раса, релігія чи політичні переконання.

    Ви можете контролювати, які пошукові запити використовуватимуться для покращення результатів Пошуку, зокрема вказати, які дані зберігатимуться в обліковому записі Google, на сторінці myaccount.google.com. Щоб вимкнути персоналізацію результатів Пошуку на основі активності в обліковому записі, вимкніть Історію додатків і веб-пошуку.