Онтологии в извлечении информации

Даня Скоринкин

Лицей НИУ ВШЭ

2 марта 2017

План лекции

  • Компьютерные модели представления данных
  • Онтология как машиночитаемая модель действительности (немного философии)
  • Онтологии в прикладных системах; извлечение информации с опорой на онтологии

Компьютерные модели представления данных

Компьютерные модели представления данных

  • вектора, матрицы, списки
  • иерархические структуры
  • реляционные структуры
  • объекты в ООП
  • фреймы, продукции
  • сетевые (графовые) структуры

От данных к знаниям

  • внутренняя интерпретируемость
  • структурированность
  • связность

Инженерия знаний

knowledge engineering

Фреймы

  • Имя_фрейма ISA Имя_фрейма_предка ;

    Имя_слота-1 спецификация значения слота-1;

    Имя_слота 2 спецификация значения слота 2);

    ……………………………………………………….

    Имя_слота- К спецификация значения слота-К

  • (Список_работников ISA prototype;
    Фамилия -> массив строк ;
    Год_рождения -> массив 4-хзначных положительных целых чисел ;
    Специальность -> массив строк ;
    Стаж -> массив положительных целых чисел )
  • Фрейм-экземпляр:
    (Таблица_2_1 ISA Список_работников ;
    Фамилия = { Попов, Сидоров, Иванов, Петров };
    Год_рождения = { 1965, 1946, 1925, 1937 };
    Специальность = { Слесарь, Токарь, Сантехник, Сантехник };
    Стаж = {5, 20, 30, 25} )

Сетевые модели

Продукционные модели

  • база знаний
  • база ЕСЛИ — TO продукций
  • примеры продукций:
    • ЕСЛИ (кот голодный) И (миска пустая) ТО (насыпать корм)
    • Правило 2.
      ЕСЛИ (кот кричит) И НЕ (коту наступили на хвост) ТО (кот голодный)

Онтологии

Онтология

  • В философии — наука, изучающая бытие
  • В информатике/инженерных науках —
    • формальное описание объектов
    • эксплицитная спецификация концептуализации (Грубер)
    • формальная теория, ограничивающая возможные концептуализации  мира
    • иерархически структурированное множество терминов, описывающих предметную область
    • ...и еще много длинных умных слов

Компоненты онтологии

  • концепты (классы, понятия)
  • свойства (отношения, атрибуты)
    • ограничения (фасеты) свойств
  • функции и аксиомы
  • экземпляры (индивиды)

Классы

  • любая сущность, о которой может быть дана какая-либо информация.
  • абстрактные группы, коллекции или наборы объектов. Они могут включать в себя экземпляры, другие классы
  • обычно организованы в иерархическую классификацию понятий по отношению включения.
  • Классы Мужчина и Женщина являются подклассами класса Человек, который включен в класс Млекопитающие.

Свойства

  • Простые унарные свойства
    • строка, число, boolean
  • Бинарные (связывают два объекта)
    • трудоустройство (Даня, ABBYY)
  • N-арные (связывают больше двух объектов)

Аксиомы

Работник, являющийся руководителем проекта, работает в проекте.

Вводятся переменные Е (работник) и P (руководитель проекта). Тогда аксиома записывается следующим образом:

Forall (E,P)  Employee(E) and  Head-Of-Project(E,P)
  => Works-At-Project(E,P)

Функции

Простая онтология

Конструирование/проектирование/моделировние онтологий

Ontology engineering

there is no one “correct” way or methodology for developing ontologies

Noy, N. F., McGuinness, D. L. (2001) Ontology Development 101: A Guide to Creating Your First Ontology

Демо!

Открытые редакторы онтологий

  • Protégé
  • neON
  • Chimaera
  • ...тысячи их

Открытые общедоступные онтологии

Открытые общедоступные онтологии

  • CyC 
  • SUMO
  • Sowa
  • Wordnet(s)**

*не совсем онтология

Лирическое отступление про лексические онтологии

Лексические онтологии

(древовидные тезаурусы)

  • WordNet
  • wiktionary
  • ABBYY USH

 

В следующей серии:

Синтаксический анализ и его применение в автоматической обработке языка

Онтологии в прикладных системах

Основные задачи и приложения АОЯ

Основные задачи АОЯ

  • Информационный поиск
  • Классификация текстов
  • Анализ тональности
  • Извлечение информации
  • Вопросно-ответные системы;
    Диалоговые агенты

Основные задачи АОЯ

  • Информационный поиск
  • Классификация текстов
  • Анализ тональности
  • Извлечение информации
  • Вопросно-ответные системы;
    Диалоговые агенты

А зачем тут онтологии?

А зачем тут онтологии?

  • переиспользование
  • ограничения
  • логический вывод
Made with Slides.com