Автоматическое рубрицирование и реферирование текстовой информации : в том числе на иностранных языках

  • автор:
  • специальность ВАК РФ: 05.25.05
  • научная степень: Кандидатская
  • год, место защиты: 2008, Москва
  • количество страниц: 163 с. : ил.
  • бесплатно скачать автореферат
  • стоимость: 240,00 руб.
  • нашли дешевле: сделаем скидку
  • формат: PDF + TXT (текстовый слой)
pdftxt

действует скидка от количества
2 диссертации по 223 руб.
3, 4 диссертации по 216 руб.
5, 6 диссертаций по 204 руб.
7 и более диссертаций по 192 руб.
Титульный лист Автоматическое рубрицирование и реферирование текстовой информации : в том числе на иностранных языках
Оглавление Автоматическое рубрицирование и реферирование текстовой информации : в том числе на иностранных языках
Содержание Автоматическое рубрицирование и реферирование текстовой информации : в том числе на иностранных языках
Вы всегда можете написать нам и мы предоставим оригиналы страниц диссертации для ознакомления
СОДЕРЖАНИЕ
Введение
Глава 1. Автоматическое рубрицирование и реферирование в задачах
обработки текстов. Постановка задачи исследования
1.1. Обзор методов автоматического рубрицирования и реферирования текстовой информации.
1.2. Постановка задачи исследования.
Глава 2. Методы автоматического рубрицирования и реферирования
текстов
2.1. Морфологический и концептуальный анализ как основа обработки текстовой информации.
2.2. Метод автоматического рубрицирования с использованием словарей без учета и с учетом контекста
2.3. Составление реферата отдельного текста документа на основе результатов автоматического рубрицирования.
2.4. Метод обзорного реферирования по набору текстов документов
Глава 3. Применение методов автоматического рубрицирования и реферирования в системе автоматического рубрицирования текстов С
3.1. Общая характеристика системы САРТ
3.2. Словари в системе САРТ.
3.3. Технология автоматического рубрицирования и реферирования
3.4. Примеры работы системы.
Глава 4. Применение методов автоматического реферирования в
экспериментальной системе составления обзорных рефератов.
4.1. Общая характеристика системы составления обзорных рефератов
4.2 Технология обзорного реферирования.
4.3 Оценка работы системы
Выводы
Заключение но работе.
Литература


В качестве оценки близости документа и рубрики часто используют скалярное произведение вектора документа и вектора тематической рубрики. В каждом конкретном методе могут быть сформулированы правила, на основании которых можно отнести документ к какой-либо рубрике. В классическом подходе эти правила, а также описание рубрики выполняются экспертами. Позднее появились методы, в которых используется подход, названный машинным обучением. При этом подходе алгоритм рубрицирования обучается на некоторой репрезентативной выборке документов, каждый документ которой экспертами был отнесен к конкретным рубрикам. Известны случаи использования гибридных методов рубрицирования, комбинирующие машинное обучение и экспертный метод [, ]. Машинное обучение используется в сочетании с генетическим алгоритмом, служащим для сокращения размерности каждого множества признаков для всех тематических рубрик рассматриваемого набора документов. В работе [] описывается подобный метод. К классическим методам рубрицироваиия с обучением относится метод Байеса [, ]. Правила отнесения документа к рубрике строятся автоматически на основе вычисления вероятностей принадлежности документа к рубрике и выбора рубрик с максимальной вероятностью. Оценки принадлежности документа к рубрике находятся с помощью отношения количества документов из обучающей выборки, относящихся к данной рубрике, к общему числу документов в выборке. Однако при больших объемах документов метод Байеса мало пригоден в силу трудоемкости вычислительного процесса. Кроме того данный метод основан на предположении о независимости появления словоформ в тексте документа, тем самым игнорирует существующие взаимосвязи между словами []. В работе [] описан широко использующийся метод, который получил название TF-IDF. Этот метод также основан на вычислении условных вероятностей соответствия документа и рубрики, но использует другой алгоритм. Метод TF-IDF был предложен С. Робертсоном и С. Джонес. Попытки теоретически объяснить его эмпирические положения имеются в работах [, , , , , , ]. Суть метода состоит в использовании меры TF-IDF для оценки важности слов (весов). В основе метода лежит гипотеза о том, что "вес некоторого слова пропорционален частоте появления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции" []. Другими словами, чем чаще встречается слово в документе и реже в других документах, тем больший вес получит это слово. Мера TF-IDF является произведением двух сомножителей: TF и IDF. D - общее количество документов в коллекции, dj - количество документов коллекции, в которых встречается i-oe слово из рассматриваемого документа. Обычно выражение [3] логарифмируется. Применяется несколько разновидностей формул для вычисления меры TF-IDF, отличающиеся коэффициентами, способом логарифмирования и т. Однако некоторые авторы [, , , 1] указывают на недостатки и противоречия данного метода. Лилиан Ли из Корнельского университета замечает, что вероятность появления некоторого слова в документе коррелирует с вероятностью появления его в коллекции документов, а это не учитывается в рассматриваемом методе. Кроме того, этот метод игнорирует' отношение синонимии между словами. Например, если в тексте документа у некоторого слова есть синонимы, то частота появления его должна быть выше той, которая расчитывается в методе. В остальных документах коллекции это слово может появляться редко, однако его синонимы могут появляться с высокой частотой. Таким образом, в результате расчета по методу TF-1DF будет получен неверный результат. К недостаткам данного метода относится и то, что он опирается на отдельные слова и игнорирует словосочетания. В работах [, ] приводятся результаты экспериментальных исследований, свидетельствующие о преимуществах использования словосочетаний. Крофт и Харпер предложили вероятностный метод PSJ-PM [], в котором предлагается решение проблем, неразрешимых с помощью метода TF-IDF. В последние годы развиваются новые подходы к автоматическому рубрицированию, лежащие в области искусственною интеллекта.
Вы всегда можете написать нам и мы предоставим оригиналы страниц диссертации для ознакомления

Рекомендуемые диссертации данного раздела