Статьи Об автоматическом составлении семантического ядра

Новые времена - новые задачи

Andrey Orlov  2007-11-15 10:13

Семь лет назад я написал статью под названием Нейросети и интернет. Статья должна была стать чем-то определяющим мое развитие на ближайшие несколько лет, однако не стала - занимался я много чем другим и было совсем не до того. Но вот настал день, когда, как я надеюсь, я могу возобновить заниматься тем, чем хотел.

Подавляющее большинство задач, поставленных раньше, сейчас уже являются объектом крупного бизнеса, что дает основания предположить, что так или иначе их решение найдено. Но, старые задачи уходят - новые появляются. Попробуем написать что-то о задачах сегодняшнего дня.

Я некоторое время не в теме был, так что отнеситесь к этому как к взгляду из прошлого.

Нейросети и современность: восемь лет позднее

Нейросети и современность: восемь лет позднее

Введение

Автор (я, т.е.), не до конца в курсе что происходит в мире. Но тем не менее хочет содействовать развитию нейросетевой парадигмы, да впрочем - и не только нейросетевой. Основная идея - алгоритмы, способные обучаться на примерах или "сами собой", принимать решения в отсутствии человека. Хотя бы даже если это решение - разбудить человека. Особенно интересна задача принятия тех решений, которые человек принять не способен - ему мораль мешает, а нам, железкам как то проще.

Я рассматриваю сейчас структуру интернет технологий, и если раньше я видел разорванную сеть, в которой нет-нет да и всплывет отдельный небольшой связанный кластер, то сейчас я вижу движение совсем в другую сторону: появляется несколько сотен крупных сервисов, ориентированных на предоставление какой-либо одной услуги, и вокруг этих сервисов формируется сеть сайтов-потребителей услуги. На эту сотню сервисов можно взглянуть как на базис главных компонент, на который натянута вся остальная сеть. Что ж. Деньги играют свою роль - они создают жесткий скелет.

Естественная мысль - может ли появится сервис некоторой интеллектуальной услуги (нет, я не про google и не про wikipedia). Ну что ж. Такие услуги есть - от предсказания котировок до оценки перспектив кредита. Правда, это не интернет, это небольшая закрытая группировка людей, которая что-то там себе копает, надо сказать, довольно глубоко.

Маркетинг

Давайте поговорим немного о деньгах. Сегодня стоимость аренды "нормального" сервера вместе с нормальным хостингом, который позволит развернуть проект начального уровня - 50$ в месяц. Предположим, что в работает группа добровольцев, которым достаточно жить в москве, есть и одеваться. Они упертые. Итого один технический руководитель, он же совладелец (700$), два программиста (1000$*2), один вебмастер на полставки (400$), один админ на четверть ставки (200$). Итого 3350$, умножим на поправочный коэффициент стоимости обслуживания компании, и получим что при некотором везении затратная часть - 5000$ в месяц. Замечу, работает слаженная команда гениев. Разногласий и споров нет. Идиллия, в общем.

Услуги, которые можно оказывать делятся на две категории:

Корпоративные
Их мало, они мутные, и приносят не более 20$ в месяц каждая. Собираются с трудом. На начальном этапе вряд ли будет более 50 таких клиентов;
Частные
Этих много, живут как плазма. Т.е. 9 услуг берут даром, зато приводят большую массу народу, и одна услуга покупается. За 1$.

Резюме

Услуги корпоративные
50 в месяц дают 1000$
Услуги частные
4000 платных дают 4000$ в месяц 36000 бесплатных, дают "плазму"

Таким образом, сервер должен выдерживать порядка 100000 обращений в месяц, или 2 обращения в минуту. Ну вот, с этим должен справляться сервер от такого:

Pentium D 2.8GHz CPU (Dual Core) 1Gb RAM, 80Gb

и до такого:

Pentium D 2.8GHz CPU (Dual Core) 2Gb RAM, 2x250Gb 7200rpm IDE HDD RAID

Причем, на первом этапе сервер будет просто вот такой:

Celeron 2.66GHz CPU 512Mb RAM, 80Gb SATA HDD

Как это не смешно. Но, вообще-то, вроде как даже хватает. С ресурсоемкостью проекта определились, можно думать, что с ним делать...

Варианты

Очевидно, "плазма" и компании потребляют разные услуги. "Плазма" готова платить за секс, наркотики и иллюзию общения. "Компании" готовы платить за увеличение, например, рейтингов продаж, сбор информации и ее целевую доставку.

Давайте изучим их отдельно.

Услуги для ПЛАЗМЫ

Поиск друзей по цепям доверия
В принципе, мы опоздали. Такого сплошь и рядом. Но может быть еще есть шанс сделать лучше?
Поиск писем, на которые вы могли бы ответить
Просто классика. У нас есть рассылка, есть подборка писем, есть письма, на которые есть ответы. Для некоторых (отнюдь не для всех) пользователей качество предсказаний может перейти критическую отметку. Как только это происходит - ему можно послать письмо с приглашением принять участие в сервисе.
Сервис кратких пересказов Я даже не понимаю, возможно ли это. Хотя это
похоже на услугу для компании "автоматическое аннотирование", но там ясен способ и даже есть какой-никакой прототип. Самое главное - не нужен _избыточно_ качественный текст. Достаточно просто качественного. А здесь цель совсем другая: облегчить пользователю знакомство с материалом, выкинув "общеизвестные" куски. Или вводные языковые конструкции.

Услуги для Компаний

Автоматическое аннотирование
Возможно интересным было бы автоматическое аннотирование текстовых материалов
Подбор материалов сходной тематики
Это "читая Нильсена", который утверждает, что наличие такой опции сильно повышает читабельность сайта. Достаточно многие достигают этого административно-командным способом, особенно в рамках одного сайта. Интересно будет добиться того же нашим рубрикатором. Правда, похоже вариант "как у гугла" не пройдет, нужен другой подход: поставщики контента регистрируются и уж из зареганного контента проверяется список.
Отслеживание изменений на URL
Казалось бы просто - считай себе контрольную сумму, ан нет: придется выделять на странице основную смысловую часть и контролировать только ее. Возможно, поможет Кохонен через O(n)-difference. Правда, востребованность под вопросом. Интернет наращивает массу, но существующая масса статична.
Предсказание пути пользователя на сайте
Это была такая интересная идея еще во времена спорта. Наверно она тяжеловата для реализации и польза от нее сомнительна. Вот бы превратить это в частный сервис, да вот боюсь без какого-то серьезного плагина или настройки браузера мне это не решить. Правда, исходника для исследований есть - это логи прокси сервера. Можно даже организовать "упреждающее проксирование". Сильно повысит качество жизни, но тяжеловато для отдельного сервера. Хотя если сервер только принимает решение :(.

Библиотеки

Выявление частых последовательностей
Задача: в потоке данных обнаружить наиболее частые последовательности. Также важно научится обнаруживать начало такое последовательности. Интересный пример возможного использования вот такая чисто практическая веб-идея. Не знаю к какому типу услуг это отнести, но в любом случае, очень интересная задача.

Выводы

Я надеюсь, что выводом будет то, что пришедшая толпа плазмы стала рынком для компаний. Но посмотрим. А пока гуру пошел спать, до встречи !

Эпицентр Zope3 Учат тут DreamBot Репозиторий Статистика Редакторам
Официальный сайт Zope3 Московская группа изучения реактивного движения The Dream Bot Site