Метапоисковые системы


главная страница Рефераты Курсовые работы текст файлы добавьте реферат (спасибо :)Продать работу

поиск рефератов

Реферат на тему Метапоисковые системы

скачать
похожие рефераты
подобные качественные рефераты

Размер: 44.36 кб.
Язык: русский
Разместил (а): Palon
25.09.2011
1

Лабораторная работа №2

по курсу «Информационные системы в экономике»

Метапоисковые системы

1. Определение метапоисковых систем.

Отличия в стратегии и широте охвата материала различных поис­ковых систем часто приводят к тому, что разные средства поиска дают разноречивые ответы на один и тот же запрос. Этим воспользовались разработчики метапомсковых систем, которые в своей работе исполь­зуют потенциал других средств информационного поиска (рис. 5.). Метапоисковые системы - это надстройки над поисковыми системами и электронными каталогами, которые не имеют собственной базы данных (индекса) и при поиске по поисковому предписанию пользователя само­стоятельно формируют запросы для нескольких внешних средств



  Рис. 5. Типовая схема метапоисковой системы

поиска, а затем анализируют полученные результаты и выдают список ссылок в порядке, определяемом соотношением рейтингов ответа сразу по нескольким средствам поиска. Иначе, такая система ведет опрос нескольких поисковых систем, а затем отбирает ссылки, следуя собст­венному алгоритму. Метапоисковые системы позволяют сократить время, за­траченное на поиск информации, так как при обработке запроса пользователя эти системы одновременно обращаются к нескольким различным средствам поиска. Метапоисковые системы наиболее эффективны на начальных этапах поиска информации. Они помогают локализовать средства поиска, в которых присутствуют сведения об искомой пользователем информации.

2. Рассмотрим метапоисковые системы nigma, Exactus, Hot Bot.

а) Дата рождения проекта Нигма.РФ - 12 апреля 2005 года. Примерно за год до этой знаменательной даты родилась идея создания поисковой системы с новым методом обработки и анализа полученных данных - методом кластеризации.Создатель проекта - Виктор Лавренко - ранее работавший в компании Mail.ru. Активная работа по созданию принципиально новой поисковой системы началась в первой половине 2005 года и продолжается по сей день. Название Nigma (один из трех родов пауков семейства Dictunidae) появилось очень просто: во-первых, оно короткое и запоминающееся, во-вторых, нам нужна была аналогия с Сетью, Всемирной Паутиной, то есть Интернетом. В рамках проекта «Интеллектуальная поисковая система Нигма.РФ» команда программистов работает над созданием системы, построенной на основе разработок в области искусственного интеллекта. Конечная цель проекта — создание поисковой системы, позволяющей анализировать содержание документов и выдавать конкретную информацию на запрос пользователя, а не ссылки на другие сайты. Разработчиками были созданы такие сервисы, как «Нигма-математика» (решение математических задач), «Нигма-химия» (решение химических задач), сервис ответов на вопросы пользователей, табличный поиск и многие другие. Ежедневно пользователи поисковой машины «Нигма.РФ» делают более 1 миллиона переходов на сайты, ежемесячная аудитория сайта «Нигма.РФ» составляет более 3 000 000 уникальных посетителей.

б) Алгоритм поиска Exactus объединяет статистическую и лингвистическую составляющие. Из статистических характеристик текста Exactus учитывает TF*IDF веса термов и значимость фрагментов текстов (на основе HTML-разметки документов). Лингвистическая составляющая – значения синтаксем (минимальных семантико-синтаксических единиц текста) и их сочетаемость в конкретном предложении. Это позволяет отбирать только те тексты, в которых семантическое значение синтаксемы совпадает с ее семантическим значением в запросе (что невозможно в обычных статистических методах). Кроме того, это позволяет обработать ситуацию, когда целевая синтаксема является элементом более сложной синтаксической конструкции. Пример:

Запрос: «К чему приводит инфляция?».

Документ 1: «Инфляция приводит к снижению темпов экономического роста».

Документ 2: «Строительство непроизводственных мегаобъектов приводит к росту инфляции».
В результате для системы Exactus первый документ наиболее предпочтителен, так как во втором документе «инфляция» находится в другом семантическом значении. Пример показателен еще и тем, что для традиционных поисковых машин Интернет вопросительные слова и предлоги являются стоп-словами и не учитываются при поиске. Это приводит к невозможности отличить семантические значения слов и, как следствие, понижению точности поиска. В результате Документ1 и Документ2 являются равнозначными для традиционных поисковых машин, а для Exactus – совсем нет.
Поиск в Excatus может быть проведен только после предварительной индексации документов. На этапе индексации производится преобразование документов к внутреннему формату Exactus, обсчет TF*IDF весов термов с учетом морфологии русского языка. Параллельно этому производится синтаксический и семантический анализ текстов, что позволяет выявить подчинения синтаксем в тексте и их семантические значения. Полученные в результате анализа данные укладываются в линейные упорядоченные списки.

В результате поиск в Exactus представляет собой слияние и переранжирование линейных упорядоченных списков, что опять же аналогично концепции большинства поисковых машин. Особенностью алгоритма являются весовые коэффициенты и алгоритм предварительной индексации текстов, которые позволяют учесть как статистические, так и семантические составляющие единиц текста.

в) Поисковая система Hot Bot (Хот Бот) самая молодая из рассматриваемых нами всемирных поисковых систем. Так же как Yahoo и Infoseek, в ней имеется каталог, но кроме него информация выдаётся по запросам, как в системе Alta Vista. Обычный поиск в данной системе аналогичен такой же операции в других системах. Но расширенные возможности поиска в системе Hot Bot реализованы достаточно оригинально. Для ввода запросов не требуется знать специальные правила, запросы формируются вами прямо на данной странице путём ввода значений и выбора других значений из списка.

Система Hot Bot достаточно удобна для поиска. Количество ссылок в системе растёт быстрыми темпами, но при этом скорость работы системы остаётся достаточно высокой.

В предыдущих опытах мы рассмотрели поиск информации с помощью четырёх популярных систем. В настоящее время в Интернете работают сотни поисковых систем, и выбор той или другой зависит от вашего вкуса и ваших запросов. Однако основные принципы поиска остаются всегда неизменными.

3. Результаты поиска по запросу «информационные системы»:

Nigma.ru  

При обычном поиске 536 млн. результатов,

При использовании расширенного поиска : с любым из слов 15 млн. результатов, с точной фразой 7,3 млн. результатов.

Excatus

При обычном поиске найдено 43 документа,

При использовании расширенного поиска: с семантическим профилем найдено 92 документа, с профилем «поиск по ключевым словам» найдено 88 документов, с профилем « поиск точных фактов» найден 91 документ.

Hot Bot

В этой системе поиск производится в Yahoo, lyGO, and MSN! В lyGO представляются в виде картинок. в Yahoo, MSN результаты представлены в виде ссылок. Количество не понятно.

4. В настоящее время в Интернете работают сотни поисковых систем, и выбор той или другой зависит от вашего вкуса и ваших запросов. Однако основные принципы поиска остаются всегда неизменными.

Мы выполнили операции поиска с помощью нескольких систем, обеспечивающих поиск в русскоязычной части Интернета и ведущих обширные каталоги. Какая из этих систем станет наиболее удобной – покажет время. Сейчас все они активно развиваются, а кроме того появляются и другие поисковые системы. Мы советуем вам посмотреть на описание систем через некоторое время, возможно одна из них станет намного удобнее и мощнее, чем другие, и вы предпочтёте пользоваться её услугами.
1

Добавить реферат в свой блог или сайт
загрузка...
Удобная ссылка:

Скачать реферат бесплатно
подобрать список литературы


Метапоисковые системы


Постоянный url этой страницы:
Реферат Метапоисковые системы


Разместите кнопку на своём сайте:
Рефераты
вверх страницы


© coolreferat.com | написать письмо | правообладателям | читателям
При копировании материалов укажите ссылку.