nd.semanticcore
2009-07-13 13:10Программа поиска семантического ядра
Продукт
| Название: | |
| nd.semanticcore | |
| Выложен на PyPI | |
| Репозиторий |
Краткое описание пакета nd.semanticcore
Пакет nd.semanticcore предоставляет скрипт semanticcore, предназначенный для помощи в поиске семантического ядра по выборке текстов предметной области.
Способ использования
Поиск семантического ядра осуществляется сравнением выборки текстов предметной области и контрольной выборки текстов, не относящихся к предметной области. Рекомендуется, что бы контрольная выборка была компактной, т.е. содержала тексты сходной тематики. Рекомендуемый объем выборки - 50-250 текстов, средней длиной 15KB. Обе выборки должны иметь близкие параметры.
Запуск скрипта
Скрипт запускается командой:
semanticcore [<ОПЦИИ>] <ВЫБОРКА> <РАЗДЕЛИТЕЛЬ> <КОНТРОЛЬНАЯ ВЫБОРКА>
Каждая выборка (<ВЫБОРКА> и <КОНТРОЛЬНАЯ ВЫБОРКА>) это перечисление списка файлов, каждый из которых содержит тексты выборки. Разделитель - это строка символов, которая отделяет имена файлов одной выборки от имен файлов другой. Удобно разместить каждую выборку файлов в отдельной директории, тогда команда может иметь такой вид (с использованием bash):
semanticcore -v ~/sample/gf/* ::: ~/sample/en/*
Пользователям, не имеющим нормального шелла, придется перечислять файлы самостоятельно.
Опции:
-d <STRING> Разделитель (по умолчанию ":::"); -w <INT>:<INT> Интервал, в который должен попадать относительно количество документов (в процентах). в которых встретилось слово, которое будет включено в результаты; -c <INT> Нижняя граница встречаемости слова в документе, при которой это слово будет использовано для поиска (по умолчанию 10);
В результате работы скрипта отображаются список слов в две колонки: слово и вес слова, отсортированные по убыванию весов.
Интерпретация результатов
Начало списка (вес больше нуля) содержит преимущественно слова, характерные для предметной области, середина (вес около нуля) - ничего не значащие слова, конец (вес меньше нуля) - слова, нехарактерные для предметной области (например, характерные для контрольной выборки).
Слов с весом меньше нуля должно быть незначительное, но заметное количество, в противном случае, можно предположить некорректное формирование контрольной выборки.
Из начала списка можно отобрать слова, подходящие для формирования семантического ядра предметной области. Помните, эта программа предоставляет выборку слов обогащенную характерными словами предметной области, а не состоящую исключительно из них. Это удобный вспомогательный инструмент, но не замена труду человека.
Заключение
Этот скрипт предназначен только для демонстрационных и иллюстративных целей, хотя ряд добровольцев смогли найти применение результатам, полученным с его помощью.
Скорее всего, структура пакета будет изменена в ближайшем будущем, хотя сам скрипт останется.



