WWW.PDF.KNIGI-X.RU
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - Разные материалы
 

«УДК 004.424 ПОИСК ИНФОРМАЦИИ В РАЗРОЗНЕННЫХ ДОКУМЕНТАХ В.В. Ващило, Ю.Г. Стёпин В работе рассматривается проблема поиска информации, не ...»

УДК 004.424

ПОИСК ИНФОРМАЦИИ В РАЗРОЗНЕННЫХ ДОКУМЕНТАХ

В.В. Ващило, Ю.Г. Стёпин

В работе рассматривается проблема поиска информации, не содержащейся

целиком в отдельных документах, - в разрозненных документах. Для её

решения предлагается метод, использующий графовые грамматики,

концептуальные графы и семантические модели предметных областей.

Задача

Решение задачи поиска информации состоит в составлении поисковой

системой набора ссылок на документы, удовлетворяющие некоторым критериям поиска. Наличие слов из поискового запроса в найденных документах является классическим вариантом критерия поиска. Такие поисковые системы как Google, Yandex, Rambler и многие другие успешно справляются с решением этой задачи. Помимо набора слов в поисковом запросе многие из них позволяют использовать специальный язык для расширенного поиска. Google, в частности, позволяет использовать специальные модификаторы для выделения слов, которые должны отсутствовать в документах, для которых можно использовать синонимы, усиления значимости слова, запрета изменения словоформы, возможности замены и т.п. Считается, что все слова, записанные в поисковом запросе через пробел без специальных модификаторов, должны присутствовать в теле документа. В результате пользователь получает ссылки на документы, которые содержат требуемые слова. Чем больше слов в поисковом запросе, тем более строгим является запрос (при отсутствии модификатора «ИЛИ»), тем меньше результатов выдаёт поисковая система: документы уточняются по мере добавления известных пользователю слов.



Рассмотрим пример 1.

На запрос «грамматики» будет выдан набор ссылок на документы, содержащие такие фразы в различных словоформах:

«грамматика русского языка», «контектно-свободные грамматики» и пр. На запрос «графовая грамматики» будет выдан набор ссылок на документы, содержащиеся в результате предыдущего запроса, но уже обязательно содержащие и слово «графовые» в различных словоформах. На языке теории множества это означает найти подмножество множества. При поиске несколько ответов содержали ссылки на книгу грамматика и «Графовая» как фамилия.

грамматики графовые русского языка контекстно- свободные Рассмотрим пример 2. Пользователь желает на этой неделе посмотреть по телевизору фильм с участием его любимого актера. Входными данными поиска являются фамилия и имя актёра и дата начала недели. Выходными данными могут быть день недели, название телеканала и название фильма. В качестве источников информации могут использовать электронный вариант телепрограммы на неделю для транслируемых каналов и сайт с подробным описанием фильмов. В программе телепередач присутствуют дата, день недели, название телеканала, врёмя трансляции и название фильма. На сайте описаний фильмов по каждому фильму доступна информация, включающая название фильма, имя режиссёра, список актёров и пр. Обычные поисковые системы успешно справляются с поиском по названию фильма как с телепрограммами, так и с описаниями, но теперь задача состоит в том, чтобы найти именно само название фильма, которое пользователь не знает.

Используя обычные поисковые системы, ему необходимо сначала получить полный список всех фильмов, в которых снимался его любимый актёр, найти телепрограмму на интересующую неделю, а затем вручную, прочитывая текст телепрограммы и самостоятельно выделяя названия фильмов, сверять с заранее подготовленным списком ожидаемых фильмов. На языке теории множества это означает найти пересечение множеств.





*список актёров* *день* *названи *режиссёр* *телеканал* е *время* Таким образом, можно утверждать, что существуют задачи поиска информации, расположенной в отдельных документах, в том числе и в различных источниках. Обычные поисковые системы не способны обрабатывать запросы, требующие несколько связанных документов для его решения, – поиск производится только в пределах отдельных документов.

Естественно, что человек может решить такую задачу, используя ручной вариант выборок фильмов из телепрограмм и анализа их описаний на предмет наличия требуемых актёров или другой информации.

Решение Для автоматизации решения такой задачи предлагается использование графовых грамматик [1], концептуальных графов и семантической модели предметных областей [2].

Для работы алгоритма необходим словарь. Словарь состоит из полного списка всех слов предметной области в их нормальной форме.

Дополнительно для каждого слова имеется список всех его словоформ с её набором морфологических признаков.

Из слов словаря строится набор обобщённых понятий конкретной предметной области – тезаурус. Тезаурус состоит из понятий – существительных и глаголов.

В качестве модели предметной области предлагается использовать семантическую сеть. Для построения семантической сети можно использовать формализм графовых грамматик. Формальная модель (семантическую сеть) примера строится, используя понятия «день», «телеканал», «время», «название фильма», «режиссёр», «актёр» и прочие.

Используя элементы тезауруса строится решётка типов – ориентированный граф без циклов. Узлами решётки типов являются объекты тезауруса. Между узлами решётки проводятся ребра, обозначающие базовые отношения. Используются три типа отношений: элемент - множество, множество - подмножество и слияния (участия). Семантические отношения в предметной области задаются с помощью фреймов-шаблонов. Слоты фреймов соответствуют понятиям тезауруса. Фреймы описываются с помощь графовых продукций.

Тезаурус используется для построения семантической сети текстового документа. Исходный текст документа разбивается на фрагменты (абзацы и предложения). Для каждого фрагмента строится концептуальный граф. Для его построения выбираются слова из словаря, входящие во фрагмент документа, им ставятся в соответствие понятия из тезауруса – отдельные вершины. Вершины объединяются в допустимые концептуальные графы на основе фреймов-шаблонов. Отдельные концептуальные графы склеиваются в семантическую сеть с помощью операций отождествления, упрощения и копирования. Эти операции так же описываются с помощью графовых продукций.

Алгоритм Поисковый запрос системе может быть представлен сразу в виде концептуального графа или же в виде ожидаемого текста – ответа на естественном языке (фрейма ответ) – пользователь оформляет запрос в виде реферата. Текстовый реферат преобразуется в концептуальный граф. Далее определяется минимальная область семантической сети, в которой содержится полученный граф – фрагмент семантической сети. Для слов фрагмента извлекаются все связанные с ними слова из тезауруса. При генерации поискового множества слов используется решетка типов.

Генератор запросов, используя весь набор извлечённых слов и при необходимости их словоформ, генерирует простые запросы ко внешним поисковым системам, им понятные и дающие результаты в пределах отдельных документов (в примере их два множества, телепрограммы и описания фильмов). Каждый такой запрос возвращает системе множество ссылок на документы.

По каждой из полученных ссылок извлекается документ. Для каждого извлечённого документа описанным выше образом строится концептуальный граф. Для концептуального графа каждого документа вычисляется мера близости к концептуальному графу поискового запроса. Ответом системы является множество наиболее близких документов. Полученные результаты собираются и подвергаются синтаксической и смысловой обработке – заполняются соответствующие слоты фрейма.

В тексте найденных документов выделяются ключевые слова-понятия из модели (семантической сети). Найденные языковые конструкции из документов отдельных множеств объёдиняются по общим понятиям из семантической сети (в примере по названию фильма) и формируется (передаются в) ответ.

Перспективы Используя описанный подход, можно генерировать новую информацию, явно не присутствующую во внешних поисковых системах.

Например, для решётки

–  –  –

на запрос «средства порождения UML-диаграмм» может быть выдан документ, содержащий информацию об использовании графовых грамматик для создания графов.

Литература:

Степин Ю.Г. Генерация структурной модели предметной области на 1.

основе атрибутивных графовых исчислений. "Информационные системы и технологии” (IST’2009): материалы V Международной научной конференции-форума (Минск,16-17нояб.2009 г.). В2 ч. Ч.2.- Минск:

А.Р.Вараксин,2009.- с.183-185.

Решение некоторых задач Text Mining при помощи концептуальных 2.

графов. М.Ю. Богатырёв, В.В. Тюхтин, ТГУ.

Юрий Генрихович Стёпин, старший преподаватель кафедры МИОЭС факультета экономики и управления Гродненского государственного университета им. Янки Купалы, stepin@grsu.by Владимир Витольдович Ващило, преподаватель кафедры программного обеспечения интеллектуальных и компьютерных систем факультета математики и информатики Гродненского государственного университета

Похожие работы:

«1 Анкета-заявление на получение кредита (займа) (заполняется на каждого потенциального заемщика (при наличии), наименование может корректироваться) Наименование кредитного продукта (заполняется первичным кредитором) КОНТАКТНАЯ ИНФОРМАЦИЯ Ф.И.О. (полностью): Ф.И.О. до изменени...»

«Название проекта Проект «Эврика!» Автор, заказчик и исполнитель Общественный фонд «Академгородок» (творческая группа из участников и волонтеров фонда) и партнерские организации – Институт открытого дистанционного образования НГПУ и арт-клуб НИИ КуДА. Руководитель проекта – Александр Владимирович Дубынин. Адрес: 630090, г.Новосибирск, ул...»

«Группа мониторинга прав национальных меньшинств Конгресс национальных общин Украины Антисемитизм и ксенофобия в Украине: хроника Ежемесячный электронный информационный бюллетень №...»

«Алгебра сигнатур ГЛОССАРИЙ Список основных понятий и сокращений лурианской каббалы Аба ве Има Отец и Мать. Аба ве Има Эла Отец и Мать Высокая мира Ацилут. А”Б см. АСМаБ.АБЕА аббревиатура начальных букв названий 4-х миров: мир (Человек) Ацилут мир Б-ЖЕСТВЕННОЙ Эманации; мир (Человек) Брия мир Сотворения; мир (Человек)...»

«ИЗМЕНЧИВОСТЬ И МЕТОДЫ ЕЕ ИЗУЧЕНИЯ 1. Виды изменчивости 2. Методы изучения изменчивости 3. Статистические параметры для характеристики совокупности Изменчивость свойственна всем живым существам. В настоящее в...»

«АГРЕГАТЫ И СИСТЕМЫ БЕСПЕРЕБОЙНОГО ПИТАНИЯ ОДНОФАЗНЫЕ ТИПА АБП-ООПТ НА ТОКИ ДО 25А ОБЩИЕ СВЕДЕНИЯ Агрегаты и системы бесперебойного питания типа АБП-ООПТ (именуемые в дальнейшем АБП) предназначены для обеспечения потребителей переменного тока промышленной частоты электроэнергией с зад...»

«© 1998 г. Н.А. ШМАТКО, Ю.Л. КАЧАНОВ ТЕРРИТОРИАЛЬНАЯ ИДЕНТИЧНОСТЬ КАК ПРЕДМЕТ СОЦИОЛОГИЧЕСКОГО ИССЛЕДОВАНИЯ ШМАТКО Наталья Анатольевна кандидат философских наук, руководитель Российско-французского центра социологических исследований ИС РАН. КАЧАНОВ Юрий Львович доктор филосо...»

«105094, г. Москва, ул. Семеновский Вал, дом 10а, т/ф. (495) 220-26-58, E-mail: info@goodmedic.ru, www.goodmedic.ru ИТОГОВЫЙ ОТЧЕТ ПО МАТЕРИАЛАМ МЕЖРЕГИОНАЛЬНОЙ СТРАТЕГИЧЕСКОЙ ПРОЕКТНОЙ СЕССИИ АССОЦИАЦИИ ЗАСЛУЖЕННЫХ ВРАЧЕЙ РОССИИ В ЦЕНТРАЛЬНОМ ФЕДЕРАЛЬНОМ ОКРУГЕ...»








 
2017 www.pdf.knigi-x.ru - «Бесплатная электронная библиотека - разные матриалы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.