Вопросно-ответный поиск в Интернете
ЦИТиС предоставляет возможность онлайнового поиска ответов на Ваши вопросы в Интернете и по наиболее интересным сайтам.
Вопросно-ответный поиск реализован на основе программного обеспечения информационно-поисковой системы AskNet Global Search .
Как использовать вопросно-ответный поиск?
Вы хотите найти в Интернете информацию, конкретные факты, события, определения, данные и т.п.? Нет ничего проще. Вам надо просто набрать запрос на естественном русском или английском языке в строке ввода поискового запроса Интернет-сервиса Science Search и нажать кнопку "Глобальный поиск". Далее вопросно-ответная информационно-поисковая система проведет отбор информации с использованием интернет-сервисов существующих поисковых систем и интернет-энциклопедий и автоматически сформирует ответ на Ваш вопрос.
Например, Вы задаете вопрос:
Когда был создан ЦИТИС?
Получаете ответ:
Центр информационных технологий и систем органов исполнительной власти ( ЦИТиС ) создан в 1993 году.
Или задаете вопрос:
When did Thomas Edison invent electric light bulb?
Получаете ответ :
In December 1879, Thomas Edison invented the electric light bulb.
Обратите внимание, что в ответе красным цветом подсвечены слова, совпадающие со словами из Вашего запроса, а зеленым цветом автоматически выделены слова семантического ответа поисковой системы. Это уникальное свойство доказывает, что наша поисковая система работает в отличие от других поисковых систем со смыслом вопроса пользователя и пытается по запросу найти семантический ответ. При этом для Вас нет необходимости формализовывать свой запрос, выбирать ключевые слова, знать языки формализованных запросов существующих поисковых систем, выбирать из найденных по ключевым словам ссылок интересующую Вас информацию. Это автоматически реализует вопросно-ответная информационно поисковая система.
У Вас также остается возможность провести поиск по ключевым словам.
Зона поиска может быть ограничена тематическими Интернет-сайтами, которые можно выбрать на соответствующих вкладках интерфейса вопросно-ответной информационно-поисковой системы.
Поиск в вопросно-ответной системе Science SearchВопросно-ответная семантическая поисковая система Science Search
Назначение
Вопросно-ответная семантическая поисковая система обеспечивает поиск информации с учетом смысла запроса пользователя в массивах неструктурированных текстовых документов.
Система позволяет найти ответ в предварительно автоматически индексированных текстах, содержащихся в электронных документах, мультимедийной информации, на страницах интернет сайтов или в поисковых системах Интернета.
Функции
- поиск смысловых ответов на вопросы пользователей, вводимые на естественном русском и (или) английском языках;
- полнотекстовый поиск информации в базе проиндексированных текстов по фразам и ключевым словам запросов пользователей;
- индексация текстовой и информации на интернет сайтах, в файлах, в почтовых базах;
- подсветка найденных ключевых слов и слов семантического ответа поисковой системы;
- адаптация системы к новым словам из любой предметной области (автоматическая генерация лексем).
Поиск проводится с учетом: морфологии, синтаксиса и семантики слов, сопоставления различных вариантов написания чисел (арабских, римских и чисел написанных прописью), сокращений и полных форм слов, с учетом родственных слов.
Реализован поиск ответа в соседних предложениях (решена проблема анафоры). Поиск обеспечивается при доступе к системе по интернету с компьютеров и с мобильных устройств.
Отличия
Поисковые системы | Goggle, Яндекс, Апорт и др | Science Search |
Задача поиска | Найти ресурсы, содержащие слова запроса | Найти информацию - ответ на запрос |
Кто определяет наличие ответа | Пользователь анализирует весь найденный поисковиками информационный "мусор" в поисках смыслового ответа | Поисковая система автоматически выбирает смысловые ответы на вопросы пользователя |
Запрос пользователя | Набор ключевых слов. Игнорируются вопросительные слова, предлоги, союзы и др. | Нормальное предложение. Учитываются все лингвистически важные слова |
Навигация по найденным ссылкам | Нужна. Пользователь должен искать информацию на указанных ресурсах | Не требуется. Ответы в выдаче поисковой системы |
Технология
Высокий уровень полноты и избирательность поиска обеспечивается за счет автоматической реализации полного лингвистического анализа текстов и запросов пользователей.
Поиск проводится по запросам в виде:
- предложений на английском или русском языках (в том числе смешанных предложений, состоящих из английских и русских слов);
- произвольного набора слов английского и/или русского языков, произвольной последовательности символов (букв любого языка) и цифр в различных вариантах их написания.
Выбор алгоритма поиска информации в осуществляется автоматически в соответствии с характером запроса пользователя:
- поиск семантического ответа на вопрос: если запрос представляет собой вопросительное предложение и содержит вопросительное слово из списка вопросов, поддерживаемых, то запрос подвергается полному лингвистическому анализу, и поиск производится путем выявления соответствия семантического контекста и синтаксических ролей членов предложений (запроса и выбираемых из базы проиндексированных текстов); при этом вопросительное предложение запроса должно начинаться с вопросительного слова; допускается наличие предлога перед вопросительным словом;
- поиск по ключевым словам:
- если запрос не содержит вопросительного слова или если оно не входит в список поддерживаемых вопросов, то он проходит лингвистический анализ с целью выявления наиболее значимых (ключевых) слов запроса, и поиск осуществляется по выделенной совокупности ключевых слов;
- если запрос представляет собой набор слов, то из запроса удаляются стоп-слова; оставшиеся слова запроса используются в качестве ключевых слов для поиска;
- поиск строго по запросу (или по фразе): если запрос обрамлен кавычками, то поиск предусматривает выборку из базы проиндексированных текстов таких предложений, в которых содержатся все слова запроса в соответствующей запросу последовательности; при этом стоп-слова при поиске удалены не будут.
Версии поисковых систем
Search Personal - поиск на компьютере пользователя.
Search Site - поиск по базам данных проиндексированных текстов на компьютерах локальных вычислительных сетей, интернет сайтов и порталов.
GlobalSearch - метапоисковая система для поиска в интернете.
Поддерживаемые форматы и кодировки
Документы форматов Microsoft Office (doc, dot, rtf, wri, xls, pps, ppt, pot), html (htm, mht) и pdf, txt, zip, rar, arj-архивы и самораспаковывающиеся файлы (exe) этих архивов, почтовые архивы Microsoft Outlook, Outlook Express, The Bat.
Кодировка текстовых файлов: Windows-1251, KOI-8r (Unix), DOS Cyrillic-866, ISO-8859-5 (Sun), UTF-7, UTF-8, UTF-16.
Результаты официального тестирования
Первое место в тесте дорожки вопросно-ответного поиска семинара РОМИП 2006 г. (http://romip.ru/ru/2009/tracks/qa.html).
Диплом победителя конкурса лучших программных решений выставки Softool-2004 в номинации «Интеллектуальные поисковые системы», серебряная медаль Архимед-2010, золотая медаль Эврика-2005 (Брюссель).
Патенты
- патент РФ №2345416, 31.05.2007 г. "Способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов",
- патент РФ № 2273879, 28.05.2002 г. "Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем", международная заявка № PCT/RU2002/000258, 28.05.2002 г.,
- United States Patent Application 20050071150 Nasypny, Vladimir Vladimirovich March 31, 2005 Method for synthesizing a self-learning system for extraction of knowledge from textual documents for use in search,
- China Patent Application ZL 02 8 29032.1, Method for synthesising a self-learning system for knowledge acquisition for text-retrieval systems. Priority 04.06.2008,
- China Patent Application ZL 01 8 23446.1, Method for synthesizing a self-learning system for knowledge acquisition for text-retrieval systems. Priority 11.07.2007 г.