Основные поисковые службы (поисковые каталоги и указатели, их сравнение)




Скачать 157.19 Kb.
Дата06.06.2016
Размер157.19 Kb.

Оглавление


Введение 2

1. Основные поисковые службы (поисковые каталоги и указатели, их сравнение) 3

2. Приемы простого поиска ("ловушка для начинающих" - использование при поиске наиболее распространенных слов, "сложение наоборот", арифметика вычитания, применение "джокера", контекстный поиск, роль прописных букв, поиск по заголовкам и поиск ссылок) 5

3. Средства расширенного поиска (OR, AND, NOT, NEAR), вложение команд 9

4. Новые технологии поисковых служб 11

Заключение 15

Список литературы 17



Введение

Любой, кто пытался когда-нибудь найти нужную информацию в Интернете, наверняка согласится с тем, что этот процесс похож на поиск иголки в стоге сена. Глобальная сеть Internet содержит огромный объем информации, который стремительно увеличивается с каждым днем. В силу этого часто оказывается, что задача нахождения необходимой информации в этом информационном океане является чрезвычайно сложной и нужно уметь эффективно использовать различные поисковые системы (программы поиска информации в сети).

Безусловно, можно искать нужные источники информации вручную, узнавать адреса из специализированных журналов по информатике и сети Интернет, использовать специальные бумажные справочники с классифицированными по категориям адресами. Однако для такого изменчивого пространства, как Интернет, необходимо научиться пользоваться специальными инструментами, цель которых – собирать данные об информационных ресурсах и предоставлять пользователям услугу быстрого поиска.

ИПС (информационно-поисковая система) – это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексы) на основе информационно-поискового языка и соответствующих правил поиска.

Современные поисковые системы – это технологические гиганты, находящиеся на передовой развития информационных технологий. В информационную эпоху – качественный поиск нужной информации не менее важен, чем сама эта информация.

Цель данной работы – изучение информационных технологий поиска информации.


1. Основные поисковые службы (поисковые каталоги и указатели, их сравнение)


Существует много разных поисковых систем принадлежащих разным компаниям. Прежде всего, выделяют так называемые тематические каталоги (например, Yahoo) и автоматические индексы (например, AltaVista), хотя необходимо иметь ввиду, что целый ряд поисковых систем занимает некоторое промежуточное положение между этими двумя "полюсами", то есть они содержат в себе элементы обоих этих классов. Каждая из поисковых систем имеет свою обширную базу данных об адресах (местоположении) различных Web-документов, и поиск ссылок на необходимую нам информацию происходит, не в самих Web-документах, а именно в этой базе данных. Стоит отметить, что сегодня тематические каталоги уже в прошлом, хотя большинство поисковых систем имеет подобные каталоги среди прочего функционала (самый яркий пример: Яндекс.Каталог).

В настоящее время насчитывается свыше десятка поисковых систем универсального назначения. Помимо глобальных поисковых систем (поиск данных в Internet), существуют системы локального поиска, обеспечивающие поиск требуемой информации в локальных хранилищах данных. Помимо этого, функции поиска встраиваются во многие информационные порталы.

В следующем перечне приводятся основные поисковые системы, а также указываются соответствующие URL-ссылки:

AltaVista (www.altavista.com )— англоязычная поисковая система универсального назначения, снабженная семейным фильтром отображаемых материалов.

Google (www.google.com ) — одна из наиболее успешных англоязычных систем универсального назначения.

MSN Search (search.msn.com ) — англоязычная поисковая система от компании Microsoft.

Возможен автоматический переход к этой системе из меню Internet Ехрlorer.

Lycos (www.lycos.com )— англоязычная универсальная поисковая система.

Exite (www.excite.com )— еще одна англоязычная поисковая система

Яndex (www.yandex.ru )— самый популярный русскоязычный универсальный поисковой механизм, предлагающий в распоряжение пользователя возможности по поддержке персональной почты, а также ряд других дополнительных функционалов.

Aport (www.aport.ru ) — русскоязычная поисковая система универсального назначения, предоставляющая разнообразные опции по организации поиска.

Rambler (www.rambler.ru )— русскоязычная поисковая система, которая помимо услуг по поиску информации в Internet поддерживает бесплатный почтовый сервис для пользователей.

Mail.ru (www.mail.ru )— один из наиболее мощных русскоязычных поисковых механизмов, который также предоставляет в распоряжение пользователя почтовые услуги.

Поиск в Украине (search.com.ua ) — с помощью этого поискового механизма обеспечивается поиск информации среди украинских Internet ресурсов (WWW, FTP, . мультимедийные данные, картинки, группы новостей Usenet).

Meta (www.meta.ua ) — еще одна украинская поисковая система, обеспечивающая поиск требуемой информации в море украинских Internet ресурсов.

Fast ESP (www.fast.no )— универсальная поисковая система из Норвегии.

Rambler (www.rambler.ru )— русско-английский поисковой механизм, предлагающий в распоряжение пользователя возможности по поддержке персональной почты.

Yahoo (www.yahoo.com )—англоязычная универсальная поисковая система.

List (www.list.ru )—русско-английский поисковой механизм.

Помимо универсальных поисковых систем существуют специализированные механизмы поиска, например, предназначенные для поиска данных в FTP- архивах. Как правило, эти функции присущи указанным в приведенном списке поисковым системам, хотя преимущество специализированных систем заключается в большей степени гибкости и скорости работы. Примером подобной системы может служить российская www.FileSearch.ru.

Еще одним примером специализированных поисковых систем могут служить механизмы предназначенные для выборки данных в каких-либо определенных областях знаний. А что делать в том случае если вы, например, хотите найти книгу в одной из электронных библиотек, раскиданных на обширных просторах Internet. Нет ничего проще. Для этого достаточно воспользоваться специализированной поисковой системой lib.thesearch.ru

Помимо перечисленных "классических" механизмов поиска существуют "экзотические" системы, позволяющие найти, например, пользователей Internet пейджера ICQ. основываясь на такой информации, как, например, уникальный номер или адрес электронной почты. В этом случае индексированный поиск производится в интерактивной базе данных. Теоретические основы организации иска вы найдете в соответствующем разделе настоящей главы.



2. Приемы простого поиска ("ловушка для начинающих" - использование при поиске наиболее распространенных слов, "сложение наоборот", арифметика вычитания, применение "джокера", контекстный поиск, роль прописных букв, поиск по заголовкам и поиск ссылок)


Большинство поисковых инструментов предлагают два способа поиска – simple search (простой поиск) и advanced search (расширенный поиск) с использованием специальной формы запроса и без нее.

Наиболее развитый сервис поиска русскоязычной информации предоставляет поисковый сервер Яndex . В Яndex можно просто написать по-русски фразу, описывающую то, что Вы хотите найти, и система проанализирует и обработает Ваш запрос, а затем постарается найти все, что относится к заданной теме. Вы можете, используя специальные операторы, составить строку, поясняющую поисковой системе, каким Вашим требованиям должна отвечать интересующая Вас информация. Несмотря на то, что поисковики постоянно работают над тем, как угадать и даже предугадать то, что действительно хочет найти пользователь, возможны некоторые очевидные ошибки при формулировании запроса.

Ловушка для начинающих. Обычно наша задача состоит в том, чтобы выделить в пространстве Web самые нужные документы, однако многие начинающие ловятся на один и тот же крючок. Например, если вы хотите найти информацию о компьютерных играх (computer games), то кажется, что так и надо оформить запрос:

computer games

Увы, для большинства поисковых систем этот запрос будет ошибочным. При таком запросе система будет искать все Web-страницы, в которых встречается либо слово computer, либо слово games, либо оба вместе. В WWW полно страниц, на которых упоминаются компьютеры и нет ни слова про игры. Точно так же там полно страниц со спортивными, настольными и другими играми, которые нам не интересны. Вот всю эту массу и надо как-то отсеять, а мы наоборот ее запрашиваем.

Сложение наоборот. Если нам надо, чтобы поисковая система нашла страницы, на которых одно временно присутствуют все использованные ключевые слова, то перед каж­дым из них надо поставить знак «+». Предположим, вы хотите узнать, не 'было ли в жизни известного лица каких-нибудь щекотливых ситуаций. В этом случае в условии поиска надо указать:

+Клинтон +скандал

'Поисковая система выдаст список страниц, на которых встречаются оба слова, хотя, конечно, не исключено, что между ними нет прямой связи. Список слов может быть больше — тогда результаты поиска будут точнее, например:

+свет +оптика +линза

Использование знака «+» особенно полезно, если вы провели поиск по рас­пространенному слову, но в ответ получили так много ссылок, что не знаeтe, как с ними поступить. Используя знак «+», мы сужаем круг поиска и уменьшаем количество возможных ссылок.

Арифметика вычитания. Интересно, что сужать круг поиска можно не только знаком «+», но и знаком «-».Допустим, вам надо написать для детского сада реферат о деятельности президента Клинтона, но при этом не хочется вникать в его исто­рию с Моникой Ленински. Исключить Ленински из рассмотрения можно знаком «минус», например так.

Клинтон -Левински

Если, к примеру, нам надо написать реферат по оптике, но только по гео­метрической, а не по волновой, то поиск может быть таким:

+свет -оптика -волна

Последняя команда разыщет все страницы, где присутствуют слова свет и оптика, но покажет только ссылки на страницы, не содержащие слова волна.

Знак «-» понимают практически все основные поисковые системы.

Применим джокера. Возьмем следующее предложение:

В геометрической оптике световой луч рассматривается как прямая линия.

Интересно отметить, что поиск по команде +свет +оптика может его и но найти, хотя это самая настоящая геометрическая оптика. Мы дали команду искать слово свет, а в документе написано: световой. Мы дали команду искать слово оптика, а в документе написано: оптике. Разумеется, многие поисковые системы производят нормализацию слов, но не все и не всегда, так что не стоит на это полагаться, а следует использовать подстановочный символ «*». Как джокер в карточной колоде может заменить любую карту, так этот символ может заменить любой другой символ или набор любых символов до конца слова. Если бы мы сформировали свой запрос так:

+свет* +оптик* -волн* то наверное его результаты были бы шире без особой потери точности.

Контекстный поиск. А почему бы нам сразу не искать то, что надо?

+геометрическая +оптика

Может быть, это и было бы хорошим решением, но такой поиск выдаст ссылки на страницы, где упоминаются оба эти слова, причем совсем не Необязательно, что вместе. То есть, слово геометрическая может быть в одном конце текста, а слово оптика — совсем в другом. Если же мы хотим объедить оба эти слова в одно сочетание, то надо применить кавычки:

"Геометрическая оптика" "геометрическая оптика"

В случае использования кавычек поисковая система разыскивает документы, в которых абсолютно точно есть тот текст, который в них заключен. Поиск с помощью кавычек называется контекстным поиском.

Роль прописных букв. Прописные буквы при проведении поиска имеют особый статус. Вам ведь понятна разница между сочетаниями красная шапочка и Красная Шапочка? прописными буквами поисковые системы обращаются буквально, то есть разыскивают тексты, в которых слова записаны точно такими же буквами. Со строчными буквами все происходит демократичнее. Совпадения засчитываются и в том случае, когда в тексте стоит прописная буква, и в том случае, когда буква строчная.

поиск по словам:

+красная +шапочка

вернет результаты, в которых будут и красная шапочка, и Красная шапочка, красная Шапочка, и Красная Шапочка.

А с другой стороны, поиск по словам:

+красная +шапочка

даст гораздо более узкий результат: Красная Шапочка, — и все.

Поиск по заголовкам. Каждая Web-страница может иметь заголовок, если Web-мастер не поленился его создать. Когда мы разыскиваем Web-страницы с помощью поисковых систем, то по результатам поиска нам обычно выдается ссылка, в которой присутствует заголовок Web-страницы, если он есть. Если его нет, то обычно выдается одно-два предложения первого абзаца.

Многие поисковые системы позволяют разыскивать Web-документы по тексту, содержащемуся в заголовках. Такой поиск существенно уменьшает количество возвращаемых ссылок, но очень точно выводит на нужные мате­риалы. Например, если вам нужны данные для доклада о Солнечной сис­теме, имеет смысл искать не просто словосочетание Solar System (Солнечная система), а страницы, в которых это сочетание присутствует в заголовке. Командой такого поиска является title:, например:

title: Solar System или (лучше)

title: solar system

Поиск ссылок. Поиск ссылок бывает полезен владельцам Web-страниц и Web-мастерам. Он позволяет, к примеру, количественно оценить динамику популярности своей страницы регулярным контролем числа ссылок, которые к ней ведут. Типовая команда для такого поиска — link:.

Например, команда link: http://www.mywebsite.com/mypage/index.htm позволит выявить ссылки, которые ведут к титульной странице index, htm на Web-узле mypage, размещенном на Web-сервере www.mywebsite.com.



3. Средства расширенного поиска (OR, AND, NOT, NEAR), вложение команд


Кроме средств простого поиска поисковые системы предоставляют средства расширенного поиска, которые, как правило, являются более стандартными для различных поисковых систем, чем команды простого поиска.

Хотя средства расширенного поиска и помогают предельно точно формулировать поисковое задание, однако их применение требует определенного опыта и рассчитано на профессионалов.

В качестве примера приведем несколько самых распространенных команд, используемых в этом случае.

Команда «OR» («ИЛИ») служит для формирования запроса в том случае, если необходимо найти ссылки на документы, содержащие любое из этих слов в любой комбинации. Команду «OR» поддерживают большинство поисковых систем за исключением Google, Infoseek, LookSmart, Yahoo!, которые по умолчанию выполняют поиск по принципу «или», если через пробел задано несколько ключевых слов.

Команда «Апорт» позволяет использовать в качестве команды на расширенный поиск английское «OR», русское «ИЛИ» и знак «|». Система Rambler «понимает» как «OR», так и знак «|», а система Яndex – только знак «|».

Логическая команда «AND» («И») позволяет произвести поиск документа, содержащего все введенные в запрос ключевые слова, это аналог команды «+» простого поиска. Такую команду не поддерживают лишь Google, Infoseek, LookSmart, Yahoo!.

Команда «Апорт 2000» позволяет использовать как английское «AND», так и русское «И», а также знаки «&» и «+». Поисковая система Rambler требует использования «AND» или «&». Служба Яndex «понимает» знак «&» или пробел, если необходимо найти сочетание слов запроса в пределах предложения или пару знаков «&&», если такое сочетание нужно искать по всему документу.

Команда «NEAR» является одной из наиболее удобных команд расширенного поиска, но ее используют далеко не все поисковые службы, да и понятие «около» трактуется службами по-разному. Так, после появления такой команды в запросе поисковая система AltaVista разыскивает ключевые слова в пределах 10 слов друг от друга, подходя к этому параметру очень жестко, служба Lycos – в пределах 25 слов, служба WebCrawler – в пределах двух слов.

В российской системе Rambler аналогичная команда начинается знаком «$», а заканчивается двоеточием («$NEAR:»). В поисковой системе Яndex данная команда задается знаком «/», после которого в круглых скобках можно указать расстояние как «вперед», так и «назад», например:

индикатор экология/ (-2 5).

По такому запросу могут быть найдены такие документы, как: «Живые организмы – индикаторы наземно-воздушной среды как комплекс экологических факторов», «Индикаторы экологического здоровья в России» и др.

Вложение команд позволяет создавать сложные запросы. Большинство поисковых служб предлагает использовать в этих целях круглые скобки ():

экология & (индексы|индикаторы)

Поисковая система в данном случае выполнит вначале поиск по словам, заключенным в скобки, а из найденных документов выберет те, что содержат слово «экология».



4. Новые технологии поисковых служб


Интерес к поисковым технологиям в последнее время немного поутих, но надо признать, количество новостей от компаний, работающих в данной области, не уменьшается.

Поисковые механизмы продолжают эволюционировать, становятся все более изощренными и усложненными, в то же время упрощаются их пользовательские интерфейсы, и размеры накопленных баз данных экспоненциально увеличиваются. Впрочем, постоянное развитие в этой области и неудивительно - спрос на поиск нужной информации в Сети будет только расти, причем с каждым годом как пользователей, так и данных будет становиться все больше.

Самым логичным будет рассмотреть новые поисковые технологии в разрезе поисковых систем, т.к. каждая серьёзная поисковая служба разрабатывает свои уникальные технологии.

Яндекс – самая крупная отечественная поисковая система. Дата основания – 23 сентября 1997г. В последнее время Яндекс активно выходит на международный уровень и уже имеет локализованные версии сервиса в Украине, Казахстане, Беларуси и Турции. Помимо поиска Яндекс предоставляет много дополнительных возможностей, в том числе, бесплатный хостинг Народ.ру, сервис для ведения блога Я.ру, почтовый сервис, рекламная сеть Яндекс Директ, и, кроме того, с недавнего времени Яндекс активно продвигает свой собственный браузер. Помимо основного поиска, Яндекс предоставляет возможность поиска по блогам, картинкам и видео.

В 2011 году был разработан и внедрен новый, метод машинного обучения «Матрикснет», который значительно улучшил качество поиска.

В декабре 2012г. Был внедрен новый алгоритм «Калининград», который позволил сделать поиск персонализированным. Это значит, что теперь основным фактором ранжирования является сам пользователь, который формирует запрос для поисковой системы. Другими словами, результаты поиска по одному и тому же вопросу для двух разных пользователей теперь будет различаться в зависимости от нужд и предпочтений самих пользователей. Это новый шаг на пути эволюции поисковых систем.

Кроме того, среди нововведений Яндекса можно отметить:


  • введение геозависимости запросов в зависимости от региональной принадлежности пользователя и сайта;

  • учет поведенческих факторов;

  • разработка механизма подсказок, исправления ошибок и распознавания аббревиатур;

  • активная борьба с продажными ссылками и переоптимизированными текстами;

  • введение персонализированного поиска;

  • учет добавочной смысловой стоимости сайта.

  • официально объявлен переход на «островной» интерфейс.

  • произошли изменения в поиске по сайту. Отключено дополнительное индексирование поиска в большом XML-поиске; добавлен новый рекламный код, который упростил управление блоками Я.Директа и предоставил дополнительные элементы для повышения доходов от рекламы.

  • был запущен алгоритм, обеспечивающий страницам без шокирующей рекламы более высокие позиции при ранжировании при других равных условиях.

  • внесены изменения в алгоритм АГС: некачественные страницы будут исключены из поиска, их тИЦ будет аннулироваться.

  • в выдаче появились полезные врезки (в т.ч. товарная врезка для показа магазинов Я.Маркета, колдунщики для оплаты услуг).

  • введено шифрование реферов для защиты личной информации пользователей.

  • появилось два инструмента – «Синонимы», позволяющий добавлять в базу синонимов слова, специфичные для сайта или пользователей, и «Проверить URL», созданный для отслеживания информации об индексировании определенной страницы.

  • добавлены древовидные подсказки в мобильный поиск, позволивший сузить область поиска.

  • расширен формат передачи данных о видео.

  • в выдачу добавлены публичные данные из социальной сети Facebook, Вконтакте.

Google -общепризнанный лидер среди поисковых систем. Поисковая система появилась в 1996 году, и изначала предназначалась для поиска в картотеке библиотеки Стэнфорда. Корпорация Google была основана в 1998 году. В настоящий момент имеет более 100 региональных версий в различных странах. Кроме того, Google это не только поиск, но и еще более 50 различных сервисов, в том числе самый популярный браузер Google Chrome.

Поисковик Гугл не только флагман рынка поиска, но также находится на передовой инновационных разработок.

В первую очередь, это VoiceSearch – голосовой поиск, который доступен на мобильных устройствах с 2008 г. Теперь компания предлагает это решение на десктопах, смартфонах и планшетах. С 2014 года голосовой поиск стал русскоязычным.

Второе новшество – Search by Image. Данная технология позволяет осуществлять поиск без словесных запросов, с использованием изображения, например, когда пользователь забыл название какой-либо достопримечательности. Эта возможность также начинала с мобильной версии. Для поиска нужно только перетащить картинку в поисковую строку, добавить туда ссылку на нее или загрузить, кликнув на иконку фотоаппарата. Удобно это будет для туристов, в арсенале которых будут иметься мобильные устройства. Например, увидел интересный объект, заснял его на камеру и через Search by Image узнал о нем много интересного. Возможно в будущем разработчики сделают все это в виде мобильного приложения.

Третье – Instant Pages. Эта разработка компании позволяет ускорить загрузку страниц, сделав ее практически мгновенной. Но произойдет это только тогда, когда поисковик сможет предугадать, что пользователь желает кликнуть на первый результат поиска и начнет загрузку страницы раньше. Поэтому к тому моменту, когда он кликнет, страница уже полностью загрузится и будет представлена пользователю без обычного ожидания в 5-7 секунд.

Недавно компания Google запустила новый алгоритм, позволяющий пессимизировать сайты, в «шапке» которых очень большое количество рекламных материалов, вызывающих негативную реакцию у пользователей поисковой системы. Стоит отметить, что Яндекс также активно борется с обилием навязчивой рекламы на сайтах и пессимизирует их позиции в выдаче.

Одной из последних инноваций Google стало то, что теперь сайты, использующие протокол HTTPS, с большей вероятностью попадут в топ выдачи. Компания предложила переходить на протокол ещё в ходе конференции Google I/O, а после тестировала новшество в течение нескольких месяцев, прежде чем принять окончательное решение. Цель нововведения заключается в том, чтобы поощрить вебмастеров во всём мире переходить на HTTPS для большей безопасности тех, кто посещает их сайты.

Google уверяет, что пока результаты поиска изменятся не более чем на один процент, и на место в выдаче по-прежнему гораздо сильнее будет влиять качественный контент. Но со временем наличие или отсутствие HTTPS-протокола будет всё более явно отражаться на результатах работы алгоритмов.



Заключение


В заключение, можно сказать, что единой оптимальной технологии поиска в Интернет не существует. В зависимости от специфики необходимой информации, для ее поиска должны использоваться соответствующие поисковые службы. Необходимо помнить, что чем грамотнее подобраны поисковые службы и составлен запрос на поиск информации, тем качественнее будут результаты поиска.

Вместе с тем, сами поисковые системы делают всё возможное, чтобы максимально упростить процесс поиска информации и предложить наиболее качественные сайты в своей поисковой выдаче. Процесс эволюции и совершенствования поисковых систем, вероятно, является одним из самых динамичных и стремительных в современном мире: сложно найти другую индустрию, где ежегодно внедряются тысячи инноваций.



Самыми яркими нововведениями поисковых систем – лидеров являются технологии голосового поиска, учёт факторов геолокации, а главное – персонализация поиска. Кажется невероятным, но уже сегодня большинство пользователей сети Интернет обращаются к поисковым система с запросам и видят, что несколько первых набранных букв превращаются в именно в то, чем заинтересован пользователь. Конечно, машины не научились читать мысли, но фактически они приблизились к этому за счёт применения огромного массива данных и учёта индивидуальных интересов пользователей. В ближайшем будущем поиск выйдет на новый уровень. Такие технологии, как Гугл-глас, позволят в режиме онлайн информировать человека обо всех объектах которые он видит перед собой. А в сочетании с инструментами голосового поиска такие технологии позволят ещё больше интегрировать виртуальную реальность в жизнь (или наоборот).

Список литературы




  1. Информатика и информационные технологии / Под ред. Романовой Ю.Д. М.: Эксмо, 2011

  2. Поисковая система Яндекс // yandex.ru

  3. Поисковая система Гугл // google.ru

  4. Портал интернет-маркетинга и продвижения «Прожектор» // prozhector.ru

  5. Интернет-библиотека «Зачётка» // зачётка.рф





База данных защищена авторским правом ©uverenniy.ru 2016
обратиться к администрации

    Главная страница