Created a website, but can't find it in search engines? No problem! In this article, you will learn how to index a site in Yandex and Google in the shortest possible time. Probably, it is unnecessary to talk about the advantages of quickly getting into the index of search engines. After all, anyone understands that the sooner his site will be shown in search results, the faster new customers will appear. And for this to work, you need to get into the database of search engines.
By the way, thanks to the right approach, the new materials of our site are quite well, and most importantly, are always quickly indexed by search engines. Perhaps you also got to this page after applying the corresponding request in the search bar. From lyrics, let's move on to practice.
How to find out if the site is indexed?
The first thing to do is to find out if the site is indexed by search engines. It may be that the site is simply not on the first page of the search for the query that you entered. These can be high-frequency requests that you need to work on, and not just make and launch a site to be shown.
So, to check, we go into everything search engines, which makes sense to enter ( Yandex, Google, Mail, Rambler) and enter the site address in the search query string.
If your resource has not yet been indexed, nothing will be shown in the search results, or other sites will appear.
How to index a site in Yandex?
To begin with, we will tell you how to index a site in Yandex. But before adding your resource, check that it works correctly, opens correctly on all devices and contains only unique content. For example, if you add a site at the development stage, you can simply fall under the filter - this happened to us once and we had to wait a whole month for Yandex to understand that we have a quality site and lift the sanctions.
To inform Yandex about a new site, you need and , the first tool is responsible for additional information about the resource ( region, structure, quick links) and the way the site looks in the results of organic issuance, the second for collecting data on the site ( attendance, behavior, etc.), which, according to our experience, also affects the indexing of the site and its position in the search. And be sure to make a sitemap and specify it in the webmasters panel.
How to index a site in Google?
Most often, Google itself quickly finds new sites and drives them into the search, but waiting for Google to come and do all the work for us is too arrogant, so let's figure out how to index a site in Google.
First up is the Google Webmasters Dashboard, and . We adhere to the same goals - to give maximum information about the site to search engines.
After the sites are added, it should pass 3 to 7 days before search engines update the data and index the site.
You always want new site pages to show up in search results as quickly as possible, and for this there are several secret (and very simple) ways to speed up the indexing of site pages in search engines.
3. To do the manipulation described in paragraph 2, only for the Google search engine, go to the Search Console. Select "Scan" and "See how Googlebot"-add the address of a new page and click "Scan", after that we request indexing.
Website indexing analysis
In conclusion, it should be noted that even after the successful indexing of the site in search engines, the work does not end there. It is necessary to periodically analyze the indexing of the site, as well as remove positions for popular queries. This will allow you to keep your finger on the pulse and not be in a situation where a significant part of the traffic from organic issuance simply disappeared.
This is what happened to many older sites that used the old promotion methods when . At the same time, Yandex announced in advance that it was launching this algorithm and re-optimized pages would be excluded from the search, while Google never announced the release of new algorithms. Therefore, only relentless control will allow you to remain the leader of the topic or become one!
So, you have created a site, filled it with unique content, and then added this site to the most popular search engines, such as Yandex and Google, but for some reason the site is poorly indexed or not indexed at all. In this article, I will tell you about the main reasons for poor site indexing, as well as give you some tips that can speed up the process of getting site pages into search engines.
Before we panic, let's find out how long a site can be indexed after it's been listed in the search engines, and when to start getting nervous.
In most cases, the site begins to be indexed somewhere in 2-4 weeks. Sometimes even faster (even the next day!). If the site is not indexed for more than a month, then it is already necessary to start taking measures to eliminate the reasons that prevent the indexing of the site. It is better, of course, to initially make sure that there are no such obstacles ...
Why the site is not indexed
First, let's look at the main reasons why indexing a site can be difficult:
Non-unique content. Articles on the site must be unique, i.e. they should not be found on other sites. Especially search engines do not like sites with non-unique content that sell links. Such sites sooner or later (and Lately this happens very often) fall under the PS filter, from which it is almost impossible to get out and the pages of such sites disappear forever from the search. If the site had non-unique content, but links from it were not sold, then there is a chance that the site will be indexed and ranked normally after unique articles appear on your site.
Re-optimization, spamming. Don't overdo the amount key phrases in the article, as well as tags , , , etc. Everything should look natural and at ease.
Poor quality content. I think that it is not necessary to explain what low-quality content is. Each of us knows what kind of article he wrote - for people or for search robots ...
The site is a mirror of another site. This refers to the situation when there is a site with absolutely unique content, but in terms of meaning and structure, it completely or partially copies another site. Such sites can also be filtered by search engines. At the very least, Yandex does not like such sites very much and, if it notices, “glues” them with the “main mirror” of all sites.
Site indexing is prohibited in the robots.txt file. It happens that the webmaster can accidentally disable indexing of the site in the robots.txt file. So check this file first. If you don’t know what robots.txt is, then in the section “Using robots.txt” from the Yandex.Webmaster service, everything is very well described.
Site indexing is prohibited in meta tags. Be sure to check the HTML code of the site page. If there is a code in the code , this means that search robots are prohibited from indexing the page, as indicated by the noindex command, and from following links on the page (nofollow command). There is a similar meta tag . This meta tag also prohibits indexing text and following links on the page.
Sale of links from the site. Yandex is not against the fact that the site owner earns a little (or a lot) by selling links from his site. But, if you sell too many links (and how many, this is “too much”, only Yandex knows), then this may lead to a massive loss of pages from the index. You should also understand that if you want to make money on a site by selling links, then this site should be really useful for Internet users (well, or at least a little useful), and, of course, the site should have unique articles. I can't say the same for Google. In general, the Google search engine tries to index everything that is possible and impossible - a sort of indexing monster (it happens that Google indexes even those pages that are prohibited for indexing in the robots.txt file if they have links), but it does not rank all pages well (takes into account). There is also an opinion that the page's weight is lost if it has too many external links - this is another reason to NOT turn the site into a link dump.
Link explosion. If one fine day thousands of resources begin to link to an unknown site at once, then this may entail severe sanctions from the search engines, both in relation to the site to which they link, and to the referring sites. Basically, everyone gets hurt!
Hosting blocks search engine robots. Unfortunately, this also happens. So, use the services of trusted hosts that have a good reputation.
The domain you bought was previously banned (blocked) by search engines. If there is an opportunity to study the history of the purchased domain, then be sure to study it.
The site mistakenly fell under the PS filter. This does not happen so often, but it happens (in about 1-2% of cases). If you are sure that your site meets all the requirements of the quality standard of search engines, then you can write them a letter, and after a while (possibly after a long correspondence) your site will be indexed.
Many other reasons, of which there are so many that everything simply does not fit in one article. Turn on the logic, analyze the site, and you yourself will be able to identify the reasons that prevent the site from being indexed in the PS.
How to speed up site indexing
If you are sure that your site does not violate the rules of the game (let's call it that), but it is still not indexed for quite a long time, then search robots simply cannot find your site. Well, they can't and that's it! In this case, you need to help the search engine find the pages of your site, which we will talk about next.
So, how to speed up site indexing in Yandex and Google search engines:
Step 3: Specify in the Sitemap file all the pages that need to be indexed. Many web masters neglect this file, considering it not so significant in the process of site indexing, but in vain. Sometimes it is the Sitemap file that can help the site to be indexed. And I was recently convinced of this when I was given 3 sites for work, which had one common problem - within 6 months each site had only 2-3 pages indexed in the Google search engine. Moreover, all these sites have long been added to the Google Webmaster Center and Yandex.Webmaster, and many pages from different sites have already been linked. Oddly enough, these sites have long been successfully indexed in the Yandex PS, but Google, for some reason, bypassed them. Then I decided to add sitemap files to all sites. And what do you think - in just 2-3 weeks, all 3 sites began to be indexed in Google. I also noticed that if you add a site to the webmaster panel and specify the path to the Sitemap file in the same place, then the site is often indexed in just 1 day! If you don't know what a Sitemap is, you can read about it. Almost every engine has its own plugins that generate a Sitemap file, but if your engine does not have this capability, then you can generate a Sitemap file using a special service such as XML Sitemaps Generator. Just enter the site address and click Start, then download this file and upload it via ftp to the root folder of your site. Then specify the path to the sitemap file in the webmaster panel.
Step 5 (optional): Speed up site indexing with external links. Most effective method indexing the site using external links is to make sure that various (preferably thematic) blogs link to the most significant pages of your site, since they are indexed the fastest (if the blog is popular and frequently updated, then it can be indexed every 2 hours!). You can get eternal links from blogs to the site (2-3 links per page are enough) using the Blogun service or any other services.
What to do if the site is still not indexed?
If all these tips did not help, and your site has not been indexed after another month, then there is only one thing left - to write to search engine workers:
- Write to Yandex. Practice shows that in most cases they answer the following: "improve the quality of your site ...". But do not despair if you were given a template answer - this means, most likely, one thing, that there was no time at all to review the site. If necessary, enter into a long correspondence with Yandex and defend your rights. Let them know that you care about your site. If you are absolutely sure that your site is of high quality, then sooner or later the filter will be removed from it.
- Write to Google. You can ask Google a question in Russian, but they will answer you in English and most often with a standard answer. The 1st response will be something like this: “We have accepted your request for a site review…etc. and so on.". The 2nd response, if everything is fine with your site, will be something like this: “We reviewed your site and did not find the presence of spam. Wait for the site to be indexed.
Finally, I would like to give you one last piece of advice. Do not give your site address on various forums, blogs and other resources, and do not tell anyone that your site has not yet been indexed. Dishonest people can take advantage of this by stealing the entire content from your site. Also, you should not register a non-indexed site in directories, because. directory owners can check your site for pages in the search and also steal site pages.
I wish you successful indexing!
Note Popularity: 34%
If you liked the materials of the site, and you want to thank the author of this resource, then copy the banner code below and paste it on any page of your site.
34 comments on the post "Why the site is not indexed, or what should have been taken care of in advance"
-
Добрый день!
Впервые занялась наполнением собственного сайта, до этого работала копирайтером, то есть писала для других. Сначала сайт располагался на домене 3 ур, а месяц назад его перенесли на нормальный домен. Адрес сайта cool2.ru
Hello, at the expense of point 3, I have a site on ucoz, but for some reason only 2 pages were indexed in Yandex, and although there are files there
In general, sites made with ucoz are quite well indexed in search engines due to the high trust in ucoz. Sometimes it's enough just to add a site to Yandex.Webmaster and Google Webmaster Center and the site is indexed without any problems in 2-4 weeks, if, of course, it has unique content. Try adding an XML Sitemap file with links to the site pages - maybe that will help. True, I don’t know if sites on ucoz have such an opportunity.
How long has the site not been indexed?
Hello. The article is very good, thanks! But I still have a question that no article can answer (it's not written anywhere). My site on uCoz domain is free and VAREZ theme. I add only unique news, I write it myself, errors are only in the names of the main characters of films or games, that is, the search engine does not know these names or phrases. Yandex robots often miss some news, I will add 10 unique films and skip 2! It just skips and is not in the issue. Sometimes after a few months he notices these pages, sometimes he doesn't. Also, you have to wait from a week to 2 months to scan new news. Of course, because of this, I add them RARELY actually the question is: If I add 1 or more new unique news every day, will this problem be corrected? On the site there are 2 sitemap xml maps from the bottom of the yukoz itself and the actual manual map, it has links to all the pages that need to be indexed (I just installed it after 3 months of creating the site. And now the site is already 7 months old)
errors only in the names of the main characters of films or games, that is, the search engine does not know these names or phrases
Are you making these mistakes on purpose? It is better that all names are correct. Search engines still know the largest part of the names and titles, and if the name is incorrectly typed in the search, then the PS automatically corrects it. If the site has a lot of incorrect names and errors, then this can adversely affect the indexing of the site.
If I add 1 or more new unique news every day, will this problem be fixed?
That's not the problem. The search engine just needs time to find all the pages of the site. There can be many reasons why a site does not index any pages for a long time. It's hard to tell what the problem is when you don't even know the website address. But, judging by your post, your site is indexed normally, but not as fast as you would like. Sooner or later, all pages of your site will be indexed - you just need to wait
Thanks for the clear presentation of the information!
But I would like to ask you a question: what to do if the search engine partially indexes the site? More precisely, for some reason, the address does not go beyond the 3rd level for some reason, although all the unique content is located on the 3rd-4th tier...
What to do if the search engine partially indexes the site? More precisely, for some reason, the address does not go beyond the 3rd level for some reason, although all the unique content is located on the 3rd-4th tier...
There is only one thing left - to do everything to speed up indexing using the methods presented in this article, and then wait for the pages to be indexed. If within 1-2 months the pages do not get into the index, then something is wrong - perhaps something is preventing the indexing of the site. First of all, check the robots.txt file - very often it is the incorrectly configured robots.txt file that prevents the site from indexing pages. For example, if a Level 3 page is named /indeksaciya-sajta/pochemu-sajt-ne-indeksiruetsya.html, and Disallow: /indeksaciya-sajta is written in the robots.txt file, then this page is unlikely to ever be indexed.
Hello again, I would like to ask a script that blocks the right button on the page, copying and dragging images, here it is:
document.ondragstart = test;
//запрет на перетаскивание
document.onselectstart = test;
//запрет на выделение элементов страницы
document.oncontextmenu = test;
//запрет на выведение контекстного меню
function test() {
Только скрипт почему то не полностью вставился!
Не вставился, потому что при добавлении комментарий автоматически удаляются коды, где присутствуют команды, заключённые в скобки < >. Если бы код вставился, как он есть, то на данной странице, тогда бы заработал данный скрипт. Я подправил, как нужно.
Я его себе установил и закрыл ноу индексем, он не повредит сайт? Роботы будут с ним нормально индексировать страницу? Установил его, чтобы хоть быть на 80% уверенным, что не украдут уник обычные копипастеры, которые зарабатывают на файлообменнике.
Ноуиндексом этот код бесполезно закрывать, т.к. он размещается между тегами
и .noindex лучше убрать. JavaScript легко можно отключить в браузере и скопировать контент не составит тогда особого труда. Единственный способ защитить контент — заверять его в нотариусе и отслеживать, чтобы его не воровали на других сайтах. Роботы должны нормально индексировать такие страницы.Ваш сайт не был проиндексирован из-за запрета в файле robots.txt.?
подскажите что сделать??плиииззз
Объясните по порядку, что случилось???
Евгений, у вас значит сайт на uCoze, нужно в ПУ зайти в «платные услуги» и там купить за 3$ пакет платных услуг на месяц и файл Robots.txt разрешит индексацию страниц.
добрый день! сайт был выложен неделю назад. индексации нет. сайт зарегистрирован через веб-мастер на яндексе. но всё равно не индексируется. уточнение — домен был куплен год назад, могло ли это повлиять на данную ситуацию?
добрый день! сайт был выложен неделю назад. индексации нет. сайт зарегистрирован через веб-мастер на яндексе. но всё равно не индексируется. уточнение - домен был куплен год назад, могло ли это повлиять на данную ситуацию?
То, что домен был куплен когда-то давным-давно, никоим образом не должно влиять на индексацию сайта. Вот если у сайта в течение года и более была всего одна страница, и он был проиндексирован, то индексация может быть затянута, т.к. поисковые роботы в этом случае редко заходят на сайт, потому что знают — на сайте только одна страница и нет смысла заходить на него часто. Если же сайт не был до этого проиндексирован, то волноваться не о чем — через 2−3 недели, если Вы всё сделали правильно, сайт должен проиндексироваться. Прошла всего одна неделя — в большинстве случаев сайты индексируются в Яндексе не раньше, чем через 2 недели.
сайт ikanta.com
два месяца сайту и до сих пор не проиндексировал яндекс. не понятно по какой причине. отправил три письмо Платону. ответили только на последнее — пишут -извините, что мол долго не отвечали, спасибо за сигнал, мы обязательно разберемся, что же не так и почему нет индексации. и все:) шикарный ответ. индексация так и не произошла(
сайт ikanta.com
два месяца сайту и до сих пор не проиндексировал яндекс. не понятно по какой причине. отправил три письмо Платону. ответили только на последнее - пишут -извините, что мол долго не отвечали, спасибо за сигнал, мы обязательно разберемся, что же не так и почему нет индексации. и все:) шикарный ответ. индексация так и не произошла(
Через 1−2 недели Яндекс Вам ответит, почему сайт не индексируется. То письмо, которое Вы получили, присылается всем, кто отправил письмо Платону — оно автоматическое.
Ваш сайт состоит из одних пустых страничек. Такие сайты Яндекс не любит. Я бы на Вашем сайте сделал бы хотя бы 10 информационных страничек. Ещё дал бы ответы на вопросы, чтобы страницы не состояли из одних вопросов без ответов. В таком случае у Вашего сайта будет больше шансов проиндексироваться.
Через 1−2 недели Яндекс Вам ответит, почему сайт не индексируется. То письмо, которое Вы получили, присылается всем, кто отправил письмо Платону - оно автоматическое.
Спасибо за ответ. Простите, а что Вы имеете ввиду — сайт состоит из пустых страничек? На сайте в данный момент 260 вопросов и 160 ответов. Разве 160 ответов — это не информационные странички? Если нет, тогда что вы имеете ввиду. Спасибо за ответ
Спасибо за ответ. Простите, а что Вы имеете ввиду - сайт состоит из пустых страничек? На сайте в данный момент 260 вопросов и 160 ответов. Разве 160 ответов - это не информационные странички? Если нет, тогда что вы имеете ввиду. Спасибо за ответ
Я имел в виду странички, где есть только вопросы. Получается, что на Вашем сайте из 260-ти — 100 страниц пустых. Я думал у Вас меньше ответов. Тогда получает, что на Вашем сайте 160 страниц по 200−700 символов и 100 пустых страниц без ответов. В принципе 160 ответов — это нормальное количество для индексации, пусть, даже если они имеют короткие ответы. Но хотя бы 7−10 страниц по 2000—3000 символов желательно иметь на сайте. Причём эти страницы не должны быть, где то в архиве ответов, а нужно сделать статичные странички, ссылки на которые нужно поставить где-нибудь в меню, чтобы это были страницы 2-ого уровня. Страницы 2-ого уровня — это те, на которые ссылаются с главной страницы. Страницы 3-ого уровня — это те, на которые ссылаются со страниц 2-ого уровня. Это, чтобы было понятно, о чём я говорю. Какие можно сделать странички? Ну, например:
Какими вопросами люди чаще всего задаются?
Как правильно задать вопрос?
Что делать, если не можешь найти ответа на вопрос?
Самые интересные вопросы и ответы на них
Часто задаваемые вопросы маленьких детей
На какие вопросы до сих пор нет ответов
Даже семи таких страничек будет достаточно.
Это я так, что первое пришло в голову, накидал для примера.
Вот эти пункты меню можно в правую колонку запихнуть или левую колонку создать. В разделе «Статьи» также можно добавлять разные интересные статьи обо всём на свете. В общем, задача такая — сделать так, чтобы на сайте помимо страничек с коротким текстом, были информационные страницы по 2000—3000 символов. Необязательно, чтобы их было много, но минимальное количество таких страниц должно быть. Это хорошо с точки зрения оптимизации сайта. Ну и в принципе такие странички не помешают.
Вот эти пункты меню можно в правую колонку запихнуть или левую колонку создать. В разделе «Статьи» также можно добавлять разные интересные статьи обо всём на свете. В общем, задача такая - сделать так, чтобы на сайте помимо страничек с коротким текстом, были информационные страницы по 2000-3000 символов. Необязательно, чтобы их было много, но минимальное количество таких страниц должно быть. Это хорошо с точки зрения оптимизации сайта. Ну и в принципе такие странички не помешают.
Спасибо огромное за помощь! Фронт работы наметил, приступаю к работе. Если интересно, по результатам смогу отписаться здесь — что вышло после проделанной работы.
Спасибо огромное за помощь! Фронт работы наметил, приступаю к работе. Если интересно, по результатам смогу отписаться здесь - что вышло после проделанной работы.
Буду рад, если Вы расскажете о результатах своей работы в данном посте. Буду ждать от Вас вестей о Вашем сайте.)
У Вас также на сайте я заметил, что адреса страниц состоят из русских символов — кириллицы, например: ikanta.com/453/олимпийские-игры-откуда-пошло. Это тоже нежелательно. Лучше всем страницам давать название латинскими буквами, т.е. так: ikanta.com/453/olimpiiskie-igri-otkud-poshlo.
Из-за того, что у Вашего сайта названия страниц состоят из кириллицы. Это также затрудняет индексацию страниц.
Если Платон ответит, что их алгоритмы решили не принимать Ваш сайт в поиск, то сначала модернизируйте сайт, а потом пишите Платону снова. Скажите, что Вы выявили все ошибки сайта, и теперь он соответствует требованиям поисковой системы Яндекс. Если опять Ваш сайт не пройдёт модерацию, то исправляете ещё ошибки и снова пишите Платону. И так до тех пор, пока Ваш сайт не попадёт в индекс.
Добрый день!
Проблема в том, что раньше он индексировался нормально в яндексе. Со сменой домена старый сайт был удален из вебмастера, новый добавлен. Прошел месяц, но «Загруженные страницы» так и показывает «1».
В гугле, как я понимаю, сайт проиндексировался. А вот в яндексе, видимо, не хочет...
Можете подсказать, в чем дело? Заранее спасибо!
Многие пользователи, особенно новички, задают одни и те же вопросы, на различных форумах, сайтах – почему не индексируются страницы поисковыми системами Яндекс и Google , либо же – почему плохо индексируется сайт или совсем перестал индексироваться сайт . В связи с этим разворачиваются огромные споры, так как причин, по этому поводу может быть масса и так сразу дать ответ не получиться, придется анализировать свой ресурс и выявлять конкретную причину.
Поэтому, давайте рассмотрим самый распространенные причины, по которым Ваш сайт может не индексироваться, либо же вылететь совсем из индекса.
Почему сайт не индексируется поисковыми системами?
Ускорение индексации. Не забывайте о том, чтобы Ваш сайт быстрее индексировался, необходимо добавлять , закладки и другие сервисы.
Можно еще добавить ссылку на аддурилку в поисковой системы, но некоторые говорят, что в этом случае, поисковая система поставит Ваш сайт в конец очереди для индексации. Хотя, если на Ваш сайт давно не заходил поисковой робот, то стоит это сделать.
Файл robots. txt. Возможно, у Вас не правильно составлен файл robots.txt, поэтому необходимо его просмотреть (возможно, закрыта в нем страница для индексации или вообще весь сайт).
Мета-теги. Возможно, у Вас страница закрыта от индексации с помощью мета-тегов, таких как: none, noindex, nofollow и так далее. Необходимо проверить и исправить ситуацию.
Вирус на сайте. Может быть такое, что на Вашем сайте поселился вирус, соответственно и выпал из выдачи, либо совсем не индексируется, поэтому Вам стоит .
Структура. У вас совсем не правильная структура на сайте. Возможно, нарушено правило трех кликов. То есть, чтобы добраться до конкретной статьи на сайте (страницы), необходимо произвести больше трех кликов.
Хостинг. Может быть такое, что Ваш проводит какие-то работы, в связи с этим поисковая система не может получить доступ к сайту (поисковой робот не может получить доступ к сайту) и возникают ошибки такого рода. Если поисковой робот Яндекс не может получить доступ к сайту, то прочитайте .
Домен. Может быть и такое, что Вы купили свой домен, на который были наложены санкции со стороны поисковых систем. Вам необходимо проверять доменное имя перед его покупкой.
Контент сайта. Самая распространенная причина, почему Ваш сайт не индексируется – на нем присутствует не уникальный контент. Вам стоит писать качественный и уникальный контент для сайта, а не копировать с других.
Как проверить страницу в индексе поисковых систем?
Существует масса вариантов, масса сервисов, но самый простой – это скопировать часть статьи (ее название или URL) и вставить в строку поиска и найти ее. Если Ваша страница появиться на первых страницах поиска, значит она проиндексирована, если нет – то увы.
Что такое индексирование? Это процесс получения роботом содержимого страниц вашего сайта и включение этого содержимого в результаты поиска. Если обратиться к цифрам, то в базе индексирующего робота содержится триллионы адресов страниц сайта. Ежедневно робот запрашивает миллиарды таких адресов.
Но этот весь большой процесс индексирования Интернета можно разделить на небольшие этапы:
![](https://i2.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.11.52.png)
Во-первых, индексирующий робот должен узнать о появлении страницы вашего сайта. Например, проиндексировав другие страницы в Интернете, найдя ссылки, либо загрузив файл set nemp. О страничке мы узнали, после чего планируем обход этой страницы, отправляем данные к вашему серверу на запрос этой страницы сайта, получаем контент и включаем его в результаты поиска.
Этот весь процесс – это процесс обмена индексирующим роботом с вашим сайтом. Если запросы, которые посылает индексирующий робот, практически не меняются, а меняется только адрес страницы, то ответ вашего сервера на запрос страницы роботом зависит от многих факторов:
- от настроек вашей CMS;
- от настроек хостинг провайдера;
- от работы промежуточного провайдера.
Этот ответ как раз меняется. Прежде всего при запросе страницы робот от вашего сайта получает такой служебный ответ:
![](https://i0.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.12.12.png)
Это HTTP заголовки. В них содержится различная служебная информация, которая дает роботу понять передача какого контента сейчас будет происходить.
Мне хочется остановиться на первом заголовке – это HTTP-код ответа, который указывает индексирующему роботу на статус страницы, которую запросил робот.
Таких статусов HTTP-кодов несколько десятков:
![](https://i0.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.12.22.png)
Я расскажу о самых популярных. Наиболее распространенный код ответа – это HTTP-200. Страница доступна, ее можно индексировать, включать в результаты поиска, все отлично.
Противоположность этого статуса – это HTTP-404. Страница отсутствует на сайте, индексировать нечего, включать в поиск тоже нечего. При смене структуры сайтов и смене адресов внутренних страниц мы советуем настраивать 301 сервер на редирект. Как раз он укажет роботу на то, что старая страница переехала на новый адрес и необходимо включать в поисковую выдачу именно новый адрес.
Если контент страницы не менялся с последнего посещения страницы роботом, лучше всего возвращать код HTTP-304. Робот поймет, что обновлять в результатах поиска страницы не нужно и передача контента тоже не будет происходить.
При кратковременной доступности вашего сайта, например, при проведении каких-либо работ на сервере, лучше всего настраивать HTTP-503. Он укажет роботу на то, что сейчас сайт и сервер недоступны, нужно зайти немножко попозже. При кратковременной недоступности это позволит предотвратить исключение страниц из поисковой выдачи.
Помимо этих HTTP-кодов, статусов страниц, необходимо еще получить непосредственно контент самой страницы. Если для обычного посетителя страница выглядит следующим образом:
![](https://i1.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.12.38.png)
это картиночки, текст, навигация, все очень красиво, то для индексирующего робота любая страница – это просто набор исходного кода, HTML-кода:
![](https://i2.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.12.54.png)
Различные метатеги, текстовое содержимое, ссылки, скрипты, куча всякой информации. Робот собирает ее и включает в поисковую выдачу. Кажется, все просто, запросили страницу – получили статус, получили содержимое, включили в поиск.
Но недаром в службу поискового сервиса в Яндексе приходит более 500 писем от вебмастеров и владельцев сайтов о том, что возникли определенные проблемы как раз с ответом сервера.
Все эти проблемы можно разделить на две части:
Это проблемы с HTTP-кодом ответа и проблемы с HTML-кодом, с непосредственным содержимым страниц. Причин возникновения этих проблем может быть огромное множество. Самая распространенная – это блокировка индексирующего робота хостинг-провайдером.
![](https://i1.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.13.12.png)
Например, вы запустили сайт, добавили новый раздел. Робот начинает посещать ваш сайт чаще, увеличивает нагрузку на сервер. Хостинг-провайдер видит это на своих мониторингах, блокирует индексирующего робота, и поэтому робот не может получить доступ к вашему сайту. Вы заходите на ваш ресурс – все отлично, все работает, странички красивенькие, все открывается, все супер, робот при этом проиндексировать сайт не может. При временной недоступности сайта, например, если забыли оплатить доменное имя, сайт отключен на несколько дней. Робот приходит на сайт, он недоступен, при таких условиях он может пропасть из поисковой выдачи буквально через некоторое время.
Некорректные настройки CMS, например, при обновлении или переходе на другую CMS, при обновлении дизайна, так же могут послужить причиной того, что страницы вашего сайта могут пропасть из выдачи при некорректных настройках. Например, наличие запрещающего метатега в исходном коде страниц сайта, некорректная настройка атрибута canonical. Проверяйте, что после всех изменений, которые вы вносите на сайт, страницы доступны для робота.
В этом вам поможет инструмент в Яндекс. Вебмастере по проверке ответа сервера:
![](https://i0.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.13.30.png)
Можно посмотреть какие HTTP заголовки возвращает ваш сервер роботу, непосредственно содержимое страниц.
![](https://i0.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.13.45.png)
В разделе «индексирование» собрана статистика, где вы можете посмотреть какие страницы исключены, динамику изменения этих показателей, сделать различную сортировку и фильтрацию.
![](https://i0.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.13.55.png)
Так же, уже сегодня говорил об этом разделе, раздел «диагностика сайта». В случае, если ваш сайт стал недоступен для робота, вы получите соответствующее уведомление и рекомендации. Каким образом это можно исправить? Если таких проблем не возникло, сайт доступен, отвечает кодам-200, содержит корректный контент, то робот начинает в автоматическом режиме посещать все страницы, которые он узнает. Не всегда это приводит к нужным последствиям, поэтому деятельность робота можно определенным образом ограничить. Для этого существует файл robots.txt. О нем мы и поговорим в следующем разделе.
Robots.txt
Сам по себе файлик robots.txt – это небольшой текстовый документ, лежит он в корневой папке сайта и содержит строгие правила для индексирующего робота, которые нужно выполнять при обходе сайта. Преимущества файла robots.txt заключаются в том, что для его использования не нужно особых и специальных знаний.
Достаточно открыть Блокнот, ввести определенные правила по формату, а затем просто сохранить файл на сервере. В течении суток робот начинает использовать эти правила.
Если взять пример файла robots.txt простенького, вот он, как раз на следующем слайде:
![](https://i2.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.14.12.png)
Директива User-Agent:” показывает для каких роботов предназначается правило, разрешающие\запрещающие директивы и вспомогательные директивы Sitemap и Host. Немножко теории, хочется перейти к практике.
Несколько месяцев назад мне захотелось купить шагометр, поэтому я обратился к Яндекс. Маркету за помощью с выбором. Перешел с главной страницы Яндекс на Яндекс. Маркет и попал на главную страницу сервиса.
![](https://i0.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.14.31.png)
Внизу вы видите адрес страницы, на которую я перешел. К адресу самого сервиса еще добавился идентификатор меня, как пользователя на сайте.
Потом я перешел в раздел «каталог»
![](https://i2.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.15.38.png)
Выбрал нужный подраздел и настроил параметры сортировки, цену, фильтр, как сортировать, производителя.
Получил список товаров, и адрес страницы уже разросся.
Зашел на нужный товар, нажал на кнопочку «добавить в корзину» и продолжил оформление.
За время моего небольшого путешествия адреса страниц менялись определенным образом.
![](https://i1.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.16.27.png)
К ним добавлялись служебные параметры, которые идентифицировали меня, как пользователя, настраивали сортировку, указывали владельцу сайта откуда я перешел на ту или иную страницу сайта.
Такие страницы, служебные страницы, я думаю, что не очень будут интересны пользователям поисковой системы. Но если они будут доступны для индексирующего робота, в поиск они могут попасть, поскольку робот себя ведет, по сути, как пользователь.
Он переходит на одну страничку, видит ссылочку, на которую можно кликнуть, переходит на нее, загружает данные в базу робота свою и продолжает такой обход всего сайта. В эту же категорию таких адресов можно отнести и личные данные пользователей, например, такие, как информация о доставке, либо контактные данные пользователей.
Естественно, их лучше запрещать. Как раз для этого и поможет вам файл robots.txt. Вы можете сегодня вечером по окончанию Вебмастерской прийти на свой сайт, покликать, посмотреть какие страницы действительно доступны.
Для того, чтобы проверить robots.txt существует специальный инструмент в Вебмастере:
![](https://i0.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.17.05.png)
Можно загрузить, ввести адреса страниц, посмотреть доступны они для робота или нет.
![](https://i1.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.17.17.png)
Внести какие-то изменения, посмотреть, как отреагирует робот на эти изменения.
Ошибки при работе с robots.txt
Помимо такого положительного влияния – закрытие служебных страниц, robots.txt при неправильном обращении может сыграть злую шутку.
Во-первых, самая распространенная проблема при использовании robots.txt – это закрытие действительно нужных страниц сайта, те, которые должны находиться в поиске и показываться по запросам. Прежде чем вы вносите изменения в robots.txt, обязательно проверьте не участвует ли страница, которую вы хотите закрыть, не показывается ли по запросам в поиске. Возможно страница с каким-то параметрами находится в выдаче и к ней приходят посетители из поиска. Поэтому обязательно проверьте перед использованием и внесением изменений в robots.txt.
Во-вторых, если на вашем сайте используются кириллические адреса, в robots.txt их указать не получится в прямом виде, их обязательно нужно кодировать. Поскольку robots.txt является международным стандартным, им следуют все индексирующие роботы, их обязательно нужно будет закодировать. Кириллицу в явном виде указать не получится.
Третья по популярности проблема – это различные правила для разных роботов разных поисковых систем. Для одного индексирующего робота закрыли все индексирующие страницы, для второго не закрыли совсем ничего. В результате этого у вас в одной поисковой системе все хорошо, в поиске нужная страница, а в другой поисковой системе может быть трэш, различные мусорные страницы, еще что-то. Обязательно следите, если вы устанавливаете запрет, его нужно делать для всех индексирующих роботов.
Четвертая по популярности проблема – это использование директивы Crawl-delay, когда в этом нет необходимости. Данная директива позволяет повлиять на чистоту запросов со стороны индексирующего робота. Это практический пример, маленький сайт, разместили его на небольшом хостинге, все прекрасно. Добавили большой каталог, робот пришел, увидел кучу новых страниц, начинает чаще обращаться на сайт, увеличивает нагрузку, скачивает это и сайт становится недоступным. Устанавливаем директиву Crawl-delay, робот видит это, снижает нагрузку, все отлично, сайт работает, все прекрасно индексируется, находится в выдаче. Спустя какое-то время сайт разрастается еще больше, переносится на новый хостинг, который готов справляться с этими запросами, с большим количеством запросов, а директиву Crawl-delay забывают убрать. В результате чего робот понимает, что на вашем сайте появилось очень много страниц, но не может их проиндексировать просто из-за установленной директивы. Если вы когда-либо использовали директиву Crawl-delay, проверьте, что сейчас ее нет и что ваш сервис готов справиться с нагрузкой от индексирующего робота.
![](https://i2.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.17.36.png)
Помимо описанной функциональности файл robots.txt позволяет еще решить две очень важные задачи – избавиться от дублей на сайте и указать адрес главного зеркала. Об этом как раз мы и поговорим в следующем разделе.
Дубли
![](https://i0.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.17.47.png)
Под дублями мы понимаем несколько страниц одного и того же сайта, которые содержат абсолютно идентичный контент. Самый распространенный пример – это страницы со слешом и без слеша в конце адреса. Так же под дублем можно понимать один и тот же товар в различных категориях.
Например, роликовые коньки могут быть для девочек, для мальчиков, одна и та же модель может находиться в двух разделах одновременно. И, в-третьих, это страницы с незначащим параметром. Как в примере с Яндекс. Маркетом эта страничка «идентификатор сессии», такой параметр не меняет контент страницы в принципе.
Чтобы обнаружить дубли, посмотреть к каким страницам робот обращается, вы можете использовать Яндекс. Вебмастер.
![](https://i0.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.18.09.png)
Помимо статистики есть еще и адреса страниц, которые робот загрузил. Вы видите код и последнее обращение.
Неприятности, к которым приводят дубли
Чем же плохи дубли?
Во-первых, робот начинает обращаться к абсолютно идентичным страницам сайта, что создает дополнительную нагрузку не только на ваш сервер, но и влияет на обход сайта в целом. Робот начинает уделять внимание дублирующим страницам, а не тем страницам, которые нужно индексировать и включать в поисковую выдачу.
![](https://i2.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.18.25.png)
Вторая проблема – это то, что дублирующие страницы, если они доступны для робота, могут попасть в результаты поиска и конкурировать с основными страницами по запросам, что, естественно, может негативно повлиять на нахождение сайта по тем или иным запросам.
Как можно бороться с дублями?
Прежде всего я советую использовать “canonical” тег для того, чтобы указать роботу на главную, каноническую страницу, которая должна индексироваться и находиться в поиске по запросам.
Во втором случае можно использовать 301 серверный редирект, например, для ситуаций со слешом на конце адреса и без слеша. Установили перенаправление – дублей нет.
![](https://i2.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.18.42.png)
И в-третьем, как я уже говорил, это файл robots.txt. Можно использовать как запрещающие директивы, так и директиву Clean-param для того, чтобы избавиться от незначащих параметров.
Зеркала сайта
Вторая задача, которую позволяет решить robots.txt – это указать роботу на адрес главного зеркала.
![](https://i0.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.18.57.png)
Зеркала – это группа сайтов, которые абсолютно идентичны, как дубли, только различные два сайта. Вебмастера обычно с зеркалами сталкиваются в двух случаях – когда хотят переехать на новый домен, либо, когда для пользователя нужно сделать несколько адресов сайта доступными.
Например, вы знаете, что пользователи, когда набирают ваш адрес, адрес вашего сайта в адресной строке, часто делают одну и ту же ошибку – опечатываются, не тот символ ставят или еще что-то. Можно приобрести дополнительный домен для того, чтобы пользователям показывать не заглушку от хостинг-провайдера, а показывать тот сайт, на который они действительно хотели перейти.
Остановимся на первом пункте, потому что именно с ним чаще всего и возникают проблемы в работе с зеркалами.
Весь процесс переезда я советую осуществлять по следующей инструкции. Небольшая инструкция, которая позволит вам избежать различных проблем при переезде на новое доменное имя:
Во-первых, вам необходимо сделать сайты доступными для индексирующего робота и разместить на них абсолютно идентичный контент. Так же убедитесь, что о существовании сайтов роботу известно. Проще всего добавить их в Яндекс. Вебмастер и подтвердить на них права.
Во-вторых, с помощью директивы Host указывайте роботу на адрес главного зеркала – тот, который должен индексироваться и находиться в результатах поиска.
Ждем склейки и переноса всех показателей со старого сайта на новый.
![](https://i1.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.19.16.png)
После чего уже можно установить перенаправление со старого адреса на новый. Простенькая инструкция, если вы переезжаете, обязательно используйте ее. Надеюсь, проблем не возникнет с
переездом.
Но, естественно, при работе с зеркалами возникают ошибки.
Прежде всего самая главная проблема – это отсутствие явных указаний для индексирующего робота на адрес главного зеркала, тот адрес, который должен находиться в поиске. Проверьте на ваших сайтах, что в robots.txt у них указана директива хоста, и она ведет именно на тот адрес, который вы хотите видеть в поиске.
Вторая по популярности проблема – это использование перенаправления для того, чтобы сменить главного зеркала в уже имеющейся группе зеркал. Что происходит? Старый адрес, поскольку осуществляет перенаправление, роботом не индексируется, исключается из поисковой выдачи. При этом новый сайт в поиск не попадает, поскольку является неглавным зеркалом. Вы теряете трафик, теряете посетителей, я думаю, что это никому не нужно.
![](https://i1.wp.com/o-es.ru/wp-content/uploads/2018/03/2018-03-06-11.19.31.png)
И третья проблема – это недоступность одного из зеркал при переезде. Самый распространенный пример в этой ситуации, когда скопировали контент сайта на новый адрес, а старый адрес просто отключили, не оплатили доменное имя и он стал недоступен. Естественно такие сайты склеены не будут, они обязательно должны быть доступны для индексирующего робота.
Полезные ссылки в работе:
- Больше полезной информации вы найдете в сервисе Яндекс.Помощь .
- Все инструменты, о которых я говорил и даже больше – есть бета-версия Яндекс.Вебмастера .
Ответы на вопросы
«Спасибо за доклад. Нужно ли в robots.txt закрывать индексацию CSS-файлов для робота или нет?».
На текущий момент мы не рекомендуем закрывать их. Да, CSS, JavaScript лучше оставить, потому что сейчас, мы работаем над тем, чтобы индексирующий робот начал распознавать и скрипты на вашем сайте, и стили, видеть, как посетитель из обычного браузера.
«Подскажите, а если url’ы адресов сайта будут одинаковые, у старого и у нового – это нормально?».
Да, ничего страшного. По сути, у вас просто обновление дизайна, добавление какого-то контента.
«На сайте есть категория и она состоит из нескольких страниц: слеш, page1, page2, до 10-ти, допустим. На всех страницах один текст категории, и он, получается, дублирующий. Будет ли этот текст являться дубликатом или нужно его как-то закрывать, новый индекс на вторых и далее страницах?».
Прежде всего, поскольку на первой странице пагинации, а на второй странице контент, в целом-то, отличаются, они дублями не будут. Но нужно рассчитывать, что вторая, третья и дальше страницы пагинации могут попасть в поиск и показывать по какому-либо релевантному запросу. Лучше в страницах пагинации я бы рекомендовал использовать атрибут canonical, в самом лучшем случае – на странице, на которой собраны все товары для того, чтобы робот не включал страницы пагинации в поиске. Люди очень часто используют canonical на первую страницу пагинации. Робот приходит на вторую страницу, видит товар, видит текст, страницы в поиск не включает и понимает за счет атрибута, что надо включать в поисковую выдачу именно первую страницу пагинации. Используйте canonical, а сам текст закрывать, думаю, что не нужно.
Источник (видео): Как настроить индексирование сайта - Александр Смирнов
Магомед Чербижев
Поделиться:В этой статье мы расскажем, почему Яндекс может не индексировать конкретную страницу на сайте, раздел или весь проект целиком. Описанные проблемы могут повлиять и на индексацию в Google, и в любых других поисковых системах. Выпадение страниц из индекса – серьезная проблема, поскольку напрямую влияет на потенциальное количество переходов, которое может получить ресурс из поисковых систем.
1. Яндекс не индексирует сайт полностью
Если у вас новый сайт, то он появится в поисковой системе не сразу – может пройти от 2-3 недель до месяца. Как правило, Google быстрее находит и индексирует новые проекты, Яндекс – медленнее.
Если 2-3 недели прошло и все равно Яндекс не индексирует сайт – возможно, он просто о нем не знает:
- Добавьте ссылку на сайт в специальную форму: http://webmaster.yandex.ru/addurl.xml
- Добавьте сайт в сервис Яндекс.Вебмастер: http://webmaster.yandex.ru
- Добавьте на сайт Яндекс.Метрику
- Разместите на сайт ссылки из социальных сетей и блогов (роботы поисковых систем активно индексируют новый контент в социальных сетях и блогах);
1.2. Старый сайт частично или полностью выпал из индекса
Данную проблему вы заметите, сравнив число страниц на сайте и количество страниц в индексе поисковой системы (можно посмотреть через сервис Яндекс.Вебмастер).
Если из индекса выпало большинство страниц, и осталась только главная страница или главная и несколько внутренних – проблема скорее всего в наложенном фильтре АГС . Яндекс посчитал контент вашего сайта неуникальным или мало привлекательном для пользователей. Необходимо переработать содержание сайта.
Помимо наложения фильтров, Яндекс может не индексировать сайт по следующим причинам:
- Случайно запретили индексацию в файле Robots.txt . Проверьте его содержание.
- Робот не может получить доступ к сайту по причине нестабильной работы хостинга или IP-адрес робота случайно забанили (например, сайт отражал DDOS-атаку и робота поисковой системы приняли за атакующего).
2. Яндекс не индексирует страницы на сайте
Данная проблема встречается чаще, чем выпадение всего сайта из индекса. Из типичных проблем, при которых Яндекс может не индексировать страницу, можно выделить:
- Робот поисковой системы не доходит до страницы из-за запутанной структуры сайта или высокого уровня вложенности. Постарайтесь сделать так, чтобы на любую страницу сайта можно было попасть, сделав два щелчка мышкой. Создайте карту сайта.
- На странице мало уникального, интересного контента, и поисковая система не считает ее полезной для посетителей. Проверьте уникальность текста, доработайте его, сделайте более полезным.
- Количество страниц на сайте превышает лимит, выделенный поисковой системой для проекта. Например, Яндекс готов взять в индекс с вашего сайта 10 тысяч страниц, а на вашем проекте – 15 тысяч страниц. В любом случае 5 тысяч страниц в индекс не попадут. Старайтесь развивать проект, чтобы повысить лимит – и закрывайте от индексации ненужные, служебные страницы, чтобы освободить место в индексе для продвигаемых страниц.
- На страницу нет ссылок – соответственно, поисковая система не может ее найти.
- Страница запрещена к индексации в файле Robots.txt . Проверьте содержание файла.
- Страница содержит атрибут noindex в мета-теге robots, поэтому не индексируется поисковыми системами. Проверьте код страницы.
- Меню сайта сделано на флеше, который поисковые системы не обрабатывают. Соответственно, Яндекс не индексирует страницы сайта, ссылки на которые спрятаны во флеше. Необходимо сделать альтернативное меню, ссылки в котором будут доступы для роботов поисковых систем.