Классификация документов — одна из задач информатики, заключающаяся в отнесении документа к одной из нескольких категорий основываясь на содержании документа.
Использует методы информационного поиска и машинного обучения.
Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.
Постановка задачи
Имеется множество категорий
.Имеется множество документов
.Неизвестная целевая функция
.Необходимо построить классификатор
, максимально близкий к .Имеется некоторая начальная коллекция документов, для которой известны значения
. Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.Классификатор может выдавать точный ответ
или степень подобия .Этапы обработки
- Индексация документов
- Построение некоторой числовой модели текста, например в виде многомерного вектора слов и их веса в документе. Уменьшение размерности модели.
- Построение и обучение классификатора
- Могут использоваться различные методы: решающие деревья, фильтр Байеса, нейронные сети, метод опорных векторов и др.
- Оценка качества классификации
- Можно оценивать по критериям полноты, точности, сравнивать классификаторы по специальным тестовым наборам.
Применение
- фильтрация спама
- составление интернет-каталогов
- подбор контекстной рекламы
- в системах документооборота
- автоматическое реферирование (составление аннотаций)
- снятие неоднозначности при автоматическом переводе текстов
См. также
- Кластеризация
- Кластеризация документов
Ссылки
- Лекция № 6 по классификации текстов курса «Современные задачи теоретической информатики» (постановка задачи, построение и обучение классификатора, оценка качества)
- F. Sebastiani. Machine Learning in Automated Text Categorization (PDF)(англ.)
Эта страница использует содержимое раздела Википедии на русском языке. Оригинальная статья находится по адресу: Классификация документов. Список первоначальных авторов статьи можно посмотреть в истории правок. Эта статья так же, как и статья, размещённая в Википедии, доступна на условиях CC-BY-SA .