скачать рефераты

скачать рефераты

 
 
скачать рефераты скачать рефераты

Меню

Реферат: Яндекс - основные сведения по популярному индексу скачать рефераты

сервер компании.

Запрос ' #image="tort*"' даст ссылки на документы с изображениями тортов

(хотя, возможно, найдется и портрет черепахи Тортиллы).

Можно также искать по ключевым словам (keywords), аннотациям (abstract) и

подписям под изображениями (hint).

Синтаксис: #имя_элемента=(поисковое выражение).

Запросу '#keywords=(поисковая система) | #abstract=(поисковая система)' будут

искаться все страницы, в meta тегах которых есть эти слова.

По запросу '#hint=(кино)' будут найдены документы, содержащие изображение с

такой подписью.

Ранжирование результата поиска

При поиске для каждого найденного документа Яндекс вычисляет величину

релевантности (соответствия) содержания этого документа поисковому запросу.

Список найденных документов перед выдачей пользователю сортируется по этой

величине в порядке убывания. Релевантность документа зависит от ряда

факторов, в том числе от частотных характеристик искомых слов, веса слова или

выражения, близости искомых слов в тексте документа друг к другу и т.д.

Пользователь может повлиять на порядок сортировки, используя операторы веса и

уточнения запроса.

Задание веса слова или выражения применяется для того, чтобы увеличить

релевантность документов, cодержащих "взвешенное" выражение.

Синтаксис: слово:число или (поисковое_выражение):число

По запросу 'поисковые механизмы:5' будут найдены те же документы, что и по

запросу 'поисковые механизмы'. Разница состоит в том, что наверху списка

найденного окажутся документы, где чаще встречается именно слово 'механизмы'.

Запрос 'поисковые (механизмы | машины | аппараты):5 ' равнозначен запросу

'поисковые (механизмы:5 | машины:5 | аппараты:5)'.

Задание уточняющего слова или выражения применяется для того, чтобы увеличить

релеватность документов, cодержащих уточняющее выражение.

Синтаксис: <- слово или <- (уточняющее_выражение)

По запросу 'компьютер <- телефон' будут найдены все документы, содержащие

слово 'компьютер', при этом первыми будут выданы документы, содержащие слово

'телефон'.

Если ни в одном документе со словом 'компьютер' нет слова 'телефон',

результат запроса будет эквивалентен запросу 'компьютер'.

12. Добавление страниц

Яндекс ежедневно просматривает сотни тысяч Web-страниц в поисках изменений

или новых ссылок. Поэтому вполне возможно, что ваша страница уже находится в

базе. В поисковую машину Яндекс вносятся только русскоязычные сайты.

ВНИМАНИЕ! Если при попытке добавить свой сайт вы получили сообщение: запрещен

к индексированию, это могло произойти из-за того, что ваш сайт является

«зеркалом» другого сайта. Например, вы пытаетесь добавить сайт в домене

четвертого уровня (скажем, www.gazeta.narod.ru), который является «зеркалом»

этого же сайта в домене третьего уровня (без префикса www, то есть

gazeta.narod.ru). В этом случае добавьте, пожалуйста, сайт третьего уровня.

Внесите свой сайт в Яндекс

Советы по добавлению URL в поисковую машину Яндекс

Добавляйте верхнюю страницу вашего сервера — остальные Яндекс найдет сам по

ссылкам.

ВНИМАНИЕ! Настоятельно рекомендуем НЕ добавлять недоработанные, «пустые»

страницы (без содержания, без дальнейших ссылок, under construction).

Страницы такого вида имеют низкий приоритет в очереди робота, следовательно,

придется ждать, когда робот наконец посетит этот адрес снова и узнает, что

там наконец-то появилось наполнение. Таким образом, добавление подобной

страницы не ускорит, а замедлит появление вашего содержания в нашей базе.

Добавляйте истинный адрес вашей страницы, а не псевдоним (например,

http://chat.ru/~verylongname вместо перенаправляющего адреса http://v.da.ru)

— Яндекс все равно «отловит» redirect.

Создайте файл robots.txt, если вы хотите закрыть какие-то разделы от

индексирования (например, из соображений секретности).

Смотрите на ответ, который выдает вам программа AddURL. Если вы ошиблись

(например, в адресе, и такой страницы не существует), то AddURL сообщит вам

об этом.

Конфигурируйте сервер так, чтобы он корректно выдавал даты файлов и кодировки

русского языка.

Если ваша страница была проиндексирована, а затем вы изменили ее содержание

или удалили ее, не беспокойтесь — робот автоматически обойдет ее снова и

обновит индекс (в случае, если страница больше не существует, она будет

исключена из базы и, следовательно, из поиска).

Проверяйте, проиндексирован ли ресурс, не сразу, а через несколько дней после

добавления в базу Яндекса.

Как добавить свою страницу или сайт?

Как Яндекс узнает о новых страницах и серверах? Есть два способа - или

владельцы ресурсов сами добавляют сайты (заполнив форму AddURL на

http://yandex.ru/addurl.html или послав письмо на ), или

робот сам находит новые ссылки в уже проиндексированных страницах. Обычно

робот берет со страницы сервера ссылки на последующие страницы и таким

образом перебирает все ссылки.

Яндекс индексирует российскую сеть, поэтому в поисковую машину вносятся

сервера в доменах su, ru, am, az, by, ge, kg, kz, md, ua, uz. Остальные

сервера вносятся, только если на них найден текст на русском языке, или если

владельцы ресурсов убедят администрацию поисковой машины в том, что их сервер

интересен пользователям русскоязычного Интернета (это обычно делается письмом

на ).

Как быстро моя страница появится в Яндексе?

Обычно страницы появляются в поисковой базе в течение недели после их

появления или изменения. Новые страницы, внесенные в базу с помощью AddURL,

появятся быстрее (если они находятся в русскоязычной части сети и не требуют

ручной проверки). Сотрудники Яндекса не могут ускорить добавление страницы в

поисковую базу.

Если вы не находите свою страницу, пожалуйста, проверьте в AddURL, включена

ли она в базу Яндекса. Для этого надо попробовать добавить ее еще раз.

Если вы получили сообщение, что «Ваш URL __url__ был только что внесен в нашу

базу данных.», это значит, что ваш URL ранее не был добавлен. Теперь он

добавлен и будет проиндексирован в ближайшее время.

Если вы получили сообщение «Ваш URL __url__ уже известен роботу Яндекса.

Данный ресурс будет проиндексирован в ближайшее время.», то подождите еще

пару дней.

Если вы получили сообщение «Ваш URL __url__ уже проиндексирован. Вы можете

посмотреть, какие страницы вашего сайта проиндексированы в Яндексе к

настоящему времени», то, нажав на ссылку со слов «проиндексированы в

Яндексе», вы получите весь список документов вашего ресурса,

проиндексированных в нашей поисковой машине.

В дальнейшем робот будет самостоятельно (автоматически) находить новые и

измененные документы. Причем частота обхода конкретного сервера зависит от

зафиксированной роботом частоты изменения его страниц.

Моя страница «переехала» или сайт поменял структуру — как внести изменения?

Если у вашей страницы изменился адрес, то достаточно внести ее новый адрес в

Яндексе на странице AddURL. Изменения уже проиндексированных страниц Яндекс

отследит самостоятельно, ничего специально делать не требуется. Старые

страницы (даже если они уже удалены на самом сервере) будут находиться в базе

вплоть до очередной переиндексации и вручную сотрудниками Яндекса не

удаляются. Вы можете ускорить процесс удаления их из базы, воспользовавшись

формой на странице http://www.yandex.ru/removeurl.html

Страница описана неверно, как это исправить?

Мы часто получаем письма вроде «Я не заносил в вашу систему мой ресурс, и он

описан неправильно. Как мне исправить положение?». Или «Зарегистрируйте,

пожалуйста, мой сайт (URL) со следующими ключевыми словами...».

Обратите внимание на то, что Яндекс — это и поисковая система, и каталог.

Поэтому уточняйте, какое описание вы имеете в виду.

Если речь идет о поисковой системе, то она полнотекстовая, то есть в индекс

попадают (и становятся доступными для поиска) те и только те слова, которые

написаны на страницах вашего сайта.

Поэтому описание страницы не может быть внесено неправильно, так как оно

берется из самого документа. Поэтому же не имеет смысла присылать нам список

ключевых слов.

В списке результатов поиска после адреса страницы выводится текст, который

состоит из заголовка (тэг <title>), описания (тэг <meta

name="Description" content="">) или начала документа (если этого тэга нет) и

контекстов - фрагментов вашего текста, содержащих слова запроса. Если страница

не находится по тем словам, по которым вам бы хотелось, или находится не в

первых рядах списка, обратите внимание на нижеследующие советы.

Если же речь идет о каталоге Яндекса, то все описания в нем делаются

составителями (гидами) по строгим инструкциям. Так, например, запрещены

тексты рекламного характера, слова «самый», «главный», «уникальный»,

прилагательные в превосходных степенях и т.дю

13. Индексирование

Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В

процессе этого страница разбивается на элементы (текст, заголовки, подписи к

картинкам, ссылки и так далее), содержание которых заносится в индекс. При

этом учитываются позиции слов, то есть их положение в документе или его

элементе. Сам документ в базе не хранится.

Яндекс создает очень компактный индекс.

Индексирование документов

Правила индексации в машине Яндекс

Яндекс индексирует страницы по их истинным адресам. Это значит, что, если на

странице стоит redirect, робот воспримет его как ссылку на новый адрес и

внесет ее в очередь на индексирование (если она удовлетворяет описанным выше

правилам). То же самое произойдет, если в одном из фреймов будет стоять

ссылка на другой сервер. В частности, если эта ссылка находится вне доменов,

разрешенных по умолчанию, страница НЕ будет проиндексирована. Робот Яндекс

хранит дату последнего обхода каждой страницы, дату ее изменения (присланную

Web-сервером) и дату внесения последних изменений в базу поиска (дату

индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать

наиболее изменяемые сервера. Робот Яндекс работает автоматически и обычно

переиндексация происходит раз в две-три недели.

Изменения уже проиндексированных страниц робот Яндекс отслеживает

самостоятельно при следующем заходе на сайт. У робота свой график работы и

изменить его, к сожалению, невозможно, в том числе применяя такие тэги, как

<META NAME="REVISIT-AFTER" CONTENT=".. DAYS">.

Яндекс индексирует документ полностью: текст, заголовок, подписи к картинкам,

описание (description), ключевые слова и некоторую другую информацию.

Как запретить индексацию определенных страниц?

Разрешения и запрещения на индексацию берутся всеми поисковыми системами из

файла robots.txt, находящегося в корневом каталоге сервера. Запрет на

индексацию ряда страниц может появиться, например, из соображений секретности

или из желания не индексировать одинаковые документы в разных кодировках. Чем

меньше ваш сервер, тем быстрее робот его обойдет. Поэтому запретите в файле

robots.txt все документы, которые не имеет смысла индексировать (например,

файлы статистики или списки файлов в директориях). Обратите особое внимание

на CGI или ISAPI скрипты - наш робот индексирует их наравне с другими

документами.

В простейшем виде (разрешено все, кроме директории скриптов) файл robots.txt

выглядит следующим образом:

User-Agent: *

Disallow: /cgi-bin/

Детальное описание спецификации файла можно прочитать на странице: «Стандарт

исключений для роботов».

При написании robots.txt обратите внимание на следующие часто встречающиеся

ошибки:

Строка с полем User-Agent является обязательной и должна предшествовать

строкам с полем Disallow. Так, приведенный ниже файл robots.txt не запрещает

ничего:

Disallow: /cgi-bin

Disallow: /forum

Пустые строки в файле robots.txt являются значимыми, они разделяют записи,

относящиеся к разным роботам. Например, в следующем фрагменте файла

robots.txt строка “Disallow: /forum” игнорируется, поскольку перед ней нет

строки с полем User-Agent.

User-Agent: *

Disallow: /cgi-bin

Disallow: /forum

Строка с полем Disallow может запретить индексирование документов только с

одним префиксом. Для запрета нескольких префиксов нужно написать несколько

строк. Например, нижеприведенный файл запрещает индексирование документов,

начинающихся с “/cgi-bin /forum”, которых, скорее всего, не существует (а не

документов с префиксами “/cgi-bin” и “/forum”).

User-Agent: *

Disallow: /cgi-bin /forum

В строках с полем Disallow записываются не абсолютные, а относительные

префиксы. То есть файл:

User-Agent: *

Disallow: www.myhost.ru/cgi-bin

запрещает, например, индексирование документа

http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi,

но НЕ запрещает индексирование документа

http://www.myhost.ru/cgi-bin/counter.cgi.

В строках с полем Disallow указываются именно префиксы, а не что-нибудь еще.

Так, файл:

User-Agent: *

Disallow: *

запрещает индексирование документов, начинающихся с символа «* » (которых в

природе не существует), и сильно отличается от файла:

User-Agent: *

Disallow: /

который запрещает индексирование всего сайта.

Если вы не можете создать/изменить файл robots.txt, то еще не все потеряно —

достаточно добавить дополнительный тег <META> в HTML-код вашей страницы

(внутри тега <HEAD>):

<META NAME="ROBOTS" CONTENT="NOINDEX">

Тогда данный документ также не будет проиндексирован.

Вы также можете использовать тэг

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

Он означает, что робот поисковой машины не должен идти по ссылкам с данной

страницы.

Для одновременного запрета индексирования страницы и обхода ссылок с нее

используется тэг

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

Как запретить индексацию определенных частей текста?

Чтобы запретить индексирование определенных фрагментов текста в документе,

пометьте их тегами

<NOINDEX></NOINDEX>.

Как выбрать главный виртуальный хост из нескольких зеркал?

Если ваш сайт находится на одном сервере (одном IP), но виден во внешнем мире

под разными именами (зеркала, разные виртуальные хосты), Яндекс рекомендует

вам выбрать то имя, под которым вы хотите быть проиндексированы. В противном

случае Яндекс выберет главное зеркало самостоятельно, а остальные имена будут

запрещены к индексации.

Для того, чтобы индексировалось выбранное вами зеркало, достаточно запретить

индексацию всех остальных зеркал при помощи robots.txt. Это можно сделать,

используя нестандартное расширение robots.txt — директиву Host, в качестве ее

параметра указав имя основного зеркала. Если www.glavnoye-zerkalo.ru —

основное зеркало, то robots.txt должен выглядеть примерно так:

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Host: www.glavnoye-zerkalo.ru

В целях совместимости с роботами, которые не полностью следуют стандарту при

обработке robots.txt, директиву Host необходимо добавлять в группе,

начинающейся с записи User-Agent, непосредственно после записей Disallow.

Аргументом директивы Host является доменное имя с номером порта (80 по

умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в качестве

аргумента для Host, для него подразумевается наличие директивы Disallow: /,

т.е. полный запрет индексации (при наличии в группе хотя бы одной корректной

директивы Host). Таким образом, файлы robots.txt вида

User-Agent: *

Host: www.myhost.ru

и

User-Agent: *

Host: www.myhost.ru:80

эквивалентны и запрещают индексирование как www.otherhost.ru, так и

www.myhost.ru:8080.

Параметр директивы Host обязан состоять из одного корректного имени хоста

(т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого

номера порта. Некорректно составленные строчки Host игнорируются.

# Примеры игнорируемых директив Host

Host: www.myhost-.ru

Host: www.-myhost.ru

Host: www.myhost.ru:0

Host: www.my_host.ru

Host: .my-host.ru:8000

Host: my-host.ru.

Host: my..host.ru

Host: www.myhost.ru/

Host: www.myhost.ru:8080/

Host: http://www.myhost.ru

Host: www.mysi.te

Host: 213.180.194.129

Host: www.firsthost.ru,www.secondhost.ru

Host: www.firsthost.ru www.secondhost.ru

Если у вас сервер Apache, то можно вместо использования директивы Host задать

robots.txt с использованием директив SSI:

<!--#if expr=" \"${HTTP_HOST}\" != \"www.главное_имя.ru\" " -->

User-Agent: *

Disallow: /

<!--#endif -->

В этом файле роботу запрещен обход всех хостов, кроме

www.главное_имя.ru.

Как включать SSI, можно прочесть в документации по вашему серверу или

обратиться к вашему системному администратору. Проверить результат можно,

просто запросив страницы:

http://www.главное_имя.ru/robots.txt

http://www.другое_имя.ru/robots.txt

и т.д. Результаты должны быть разные.

Рекомендации для веб-сервера Русский Apache

В robots.txt на сайтах с русским апачем должны быть запрещены для роботов все

кодировки, кроме основной.

Если кодировки разложены по портам (или серверам), то надо выдавать на разных

портах (серверах) РАЗНЫЙ robots.txt. А именно, во всех файлах robots.txt для

всех портов/серверов, кроме «основного», должно быть написано:

User-Agent: *

Disallow: /

Для этого можно использовать механизм SSI, описанный выше.

Если кодировки в вашем Apache выделяются по именам «виртуальных» директорий,

то надо написать один robots.txt, в котором должны быть примерно такие

строчки (в зависимости от названий директорий):

User-Agent: *

Disallow: /dos

Disallow: /mac

Disallow: /koi

Как выяснить, что Yandex проиндексировал на моем сервере?

Подставьте ваш ресурс в форму на странице AddURL.

Если вы получили сообщение, что «Ваш URL __url__ был только что внесен в нашу

базу данных.», это значит, что ваш URL ранее не был добавлен. Теперь он

добавлен и будет проиндексирован в ближайшее время.

Если вы получили сообщение «Ваш URL __url__ уже известен роботу Яndex. Данный

ресурс будет проиндексирован в ближайшее время.», то подождите еще пару дней.

Если вы получили сообщение «Ваш URL __url__ уже проиндексирован. Вы можете

посмотреть, какие страницы вашего сайта проиндексированы в Яndex.Ru к

настоящему времени», то, нажав на ссылку со слов «проиндексированы в

Яndex.Ru», вы получите весь список документов вашего ресурса,

проиндексированных в нашей поисковой машине.

Заключение

Принято считать, что в Интернете есть все и на любой вкус. Если сравнить его

с городом, то в нем можно найти дворцы и лачуги, музеи и бары, и, конечно,

улицы.

Роль улицы выполняют, в частности, Интернет-ресурсы «для взрослых». И, как и

в реальной жизни, многие хотят защититься сами и оградить своих детей от

влияния улицы. Чтобы помочь тем, кому это актуально, мы сделали "Семейный"

Яндекс. Делая запрос в "Семейном" Яндексе, вы не найдете мата и порнографии,

то есть ничего, что не разрешено «детям до 16».

Воспользоваться этим можно двумя способами - во-первых, задавать запрос не на

www.yandex.ru, а на family.yandex.ru . Во-вторых, настроить свой браузер -

тогда даже при работе с обычным Яндексом "взрослые" ресурсы будут

отфильтрованы.

В опросе на тему «Ваше отношение к Интернет-ресурсам "для взрослых"»,

проведенном на Yandex.Ru, 15% ответило, что эти ресурсы "раздражают" и

"отвлекают", из них 2% - что "из-за них не пускаю детей в Сеть". Раздражает

обычно то, что человек находит мат и порнографию, совершенно на это не

рассчитывая, при абсолютно "нормальных" запросах.

Сегодня фильтр строится полуавтоматически - в него включаются «взрослые»

сайты, а также все страницы, содержащие «нехорошие» слова. Если,

воспользовавшись фильтром, вы, тем не менее, найдете «нехорошую» страницу,

пожалуйста, пришлите нам URL на адрес . Мы рассчитываем на

широкое сотрудничество в этой области с добровольцами, в первую очередь из

числа родителей и учителей.

Использованные ресурсы:

http://yandex.ru

http://forum.yandex.ru

http://xml.yandex.ru

http://dzen.yandex.ru

http://www.ya.ru

Страницы: 1, 2, 3