Автоматизированное формирование базы знаний для задачи анализа мнений

  • Автор:
  • Специальность ВАК РФ: 05.13.11
  • Научная степень: Кандидатская
  • Год защиты: 2013
  • Место защиты: Москва
  • Количество страниц: 147 с. : ил.
  • бесплатно скачать автореферат
  • Стоимость: 250 руб.
Титульный лист Автоматизированное формирование базы знаний для задачи анализа мнений
Оглавление Автоматизированное формирование базы знаний для задачи анализа мнений
Содержание Автоматизированное формирование базы знаний для задачи анализа мнений
Содержание
Введение
1 Анализ предметной области
1.1 Задача анализа мнений
1.1.1 Обнаружение субъективности в текстах и идентификация мнений
1.1.2 Задача определения тональности фрагмента текста
1.1.3 Автоматическое аннотирование субъективных текстов .
1.2 Подходы к классификации текстов по тональности
1.2.1 Критерии оценки качества алгоритмов классификации текстов по тональности
1.2.2 Классификация на основе методов машинного обучения
1.2.2.1 Алгоритмы классификации
1.2.2.2 Признаковое описание объектов и веса признаков
1.2.2.3 Подходы с использованием алгоритмов машинного обучения
1.2.3 Классификация по тональности на основе словарей и
правил
1.2.3.1 Методы построения словарей оценочной лексики

1.2.3.2 Подходы с использованием словарей оценочных слов
1.2.4 Классификация текстов по тональности на русском языке
1.2.5 Адаптация алгоритмов к различным предметным областям
1.3 Выводы к первой главе
2 Модель оценочных слов для построения словаря в заданной предметной области
2.1 Модель мнения пользователя
2.2 Модель извлечения оценочных слов для заданной предметной
области
2.2.1 Описание текстовых коллекций
2.2.2 Признаки оценочных слов
2.2.2.1 Частотные признаки
2.2.22 Признаки на основе оценок пользователей
2.2.2.3 Лингвистические признаки
2.2.3 Алгоритмы и оценки качества
2.2.4 Исследование качества признаковых наборов
2.2.5 Теоретическое исследование признака «Странность»
2.2.5.1 Распределения слов в коллекциях текстов
2.2.5.2 Распределение случайной величины признака
и его некоторые особенности
2.2.5.3 Взаимная информация между признаком и |
классом слова
2.2.6 Использование извлеченных оценочных слов в задаче
классификации
2.2.6.1 Коллекции для тестирования качества классификации отзывов

2.2.6.2 Пространство признаков для классификации
отзывов
2.2.6.3 Эксперименты по классификации отзывов с
учётом тональности
2.2.6.4 Оценка отзывов экспертами
2.3 Перенос модели оценочных слов на различные предметные области
2.3.1 Описание результатов переноса модели
2.3.2 Использование извлеченных словарей в задачах классификации на РОМИП 2
2.3.2.1 Коллекции и предобработка данных
2.3.2.2 Наборы признаков на основе оценочных слов
2.3.2.3 Результаты экспериментов по классификации
отзывов в различных областях
2.3.3 Применение модели к другим языкам
2.3.4 Система извлечения оценочных слов БотЕх
2.4 Выводы ко второй главе
3 Создание обобщенного списка оценочных слов
3.1 Методика формирования обобщенного списка
3.2 Перенос классификатора тональности на различные области
3.2.1 Меры качества в задаче переноса классификатора .
3.2.2 Основные результаты переноса классификатора
3.3 Поиск и извлечение отзывов из коллекции блогов
3.4 Выводы к третьей главе
4 Классификация оценочных слов по тональности
4.1 Задача классификации слов по тональности
4.2 Марковские сети и модель Изинга

Далее данный лексикон был расширен с помощью союзов по аналогии с подходом в работе [27].
Методы извлечения оценочных слов для заданной предметной области.
Существует два глобальных подхода к автоматическому извлечению оценочной лексики: на основе словарей и на основе текстовых коллекций.
Первый подход основан на информации из различных словарей и тезаурусов. Одним из наиболее распространенных методов является итеративное формирование словаря оценочных выражений на основе тезауруса WordNet или других семантических ресурсов. Основной принцип в данном методе заключается в том, что синонимы и антонимы оценочного слова также являются оценочными. Таким образом, из начального множества слов может быть получено новое, более полное множество оценочных слов [37,62]. В [63] для конструирования оценочного словаря используются толкования слов. Основная идея заключается в том, что слова с одинаковой оценочной ориентацией имеют схожие толкования.
Второй подход основан на поиске закономерностей, правил и шаблонов в текстовых коллекциях. Зачастую исследования в рамках данного подхода также опираются на небольшое множество слов, составленных вручную [59,64,65]. В [66] авторы тестируют качество оценочного словаря, полученного по огромному массиву текстовой информации, собранному с четырех миллиардов Веб страниц. Авторы формируют граф совместной встречаемости слов и используют алгоритм распространения меток на нем. Полученный словарь позволил получить более высокое качество работы в нескольких задачах обработки мнений по сравнению с уже существующими словарями на английском языке. Кроме того, данный ресурс содержит большое количество сленговых, вульгарных и других несловарных слов.
Ряд работ использует различные статистические меры, которые позволяют дискриминировать оценочные слова: х2 [5], метрика DFR (divergence from

Рекомендуемые диссертации данного раздела