bannerbannerbanner
logo
Войти

Кластеризация

Добавлено
Год выхода: 2020
Язык: Английский
Одним из ключевых направлений информатизации деятельности органов государственной власти является ра…
Одним из ключевых направлений информатизации деятельности органов государственной власти является разработка и внедрение систем автоматизированной обработки электронных обращений (заявлений, жалоб, предложений) физических и юридических лиц, поступающих на официальные веб-сайты и порталы органов власти федеральных округов, администраций областей и других территориальных образований. Важную роль при решении данной задачи играет рубрицирование, которое заключается в распределении обращений по тематическим рубрикам, определяющих направления деятельности департаментов, осуществляющих их обработку и подготовку соответствующего ответа. Результаты анализа специфических особенности таких текстовых сообщений (небольшой размер, отсутствие разметки, наличие ошибок, нестационарность тезауруса и т. п.) подтвердили невозможность применения традиционных подходов к рубрицированию и обосновали целесообразность применения методов интеллектуального анализа данных. В статье предложен новый подход к анализу и рубрицированию электронных неструктурированных текстовых документов, поступающих на официальные веб-сайты и порталы органов государственной власти. Он предполагает формирование древовидной структуры рубричного поля, основанной на нечетких отношениях различия между синтаксическими характеристиками документов. Анализ основывается на определении нечеткого соответствия этих документов по синтаксическим характеристикам со значениями центров кластеров, проводимого последовательно от корня к листьям построенного нечеткого дерева решений. Предлагаемый метод рубрицирования программно реализован и апробирован при автоматизированной обработке и анализе обращений (заявлений, жалоб и предложений) граждан, поступающих в Администрацию Смоленской области. Это позволило обеспечить оперативную и качественную актуализацию рубрик и анализ документов в условиях нестационарности состава тезауруса и значимости слов рубрик.
Добавлено
Год выхода: 2014
Язык: Русский
В статье предлагается параллельная версия одного из алгоритмов кластеризации, принцип работы которог…
В статье предлагается параллельная версия одного из алгоритмов кластеризации, принцип работы которого основан на так называемом жадном подходе. Для решения задачи распараллеливания алгоритма была выбрана технология CUDA, разработанная компанией NVIDIA. Приводятся программный код и результаты вычислительных экспериментов для матриц схожести разного размера.
Для решения поставленной задачи предлагается использование вероятностных тематических моделей. Особо…
Для решения поставленной задачи предлагается использование вероятностных тематических моделей. Особое внимание уделяется иерархическим тематическим моделям и, в частности, обсуждению свойств алгоритмов PLSA и LDA. Особенность построения иерархической модели заключается в переходе от понятия «мешка слов» к «мешку документов» в реализации плоских алгоритмов кластеризации. Работа алгоритмов иллюстрируется на текстах тезисов конференции Euro-2012 и на синтетических данных.
В работе решается задача кластеризации литературных текстов по авторам и жанрам статистическими мето…
В работе решается задача кластеризации литературных текстов по авторам и жанрам статистическими методами. Основным инструментом анализа являются функции распределения текста по буквам и буквосочетаниям, а также выборочные буквенные распределения, построенные по фрагментам текстов. Для набора текстов, объём наименьшего из которых достаточен для того, чтобы считать буквенное распределение каждого из них стационарным с ошибкой не более 3%, вычисляются расстояния между распределениями букв в пространстве суммируемых функций. Критерий кластеризации, основанный на близости между двухбуквенными распределениями текстов, позволяет правильно идентифицировать автора с ошибкой не более 5%, а жанр – с ошибкой не более 15%. Однобуквенные распределения дают ошибку 15% и 25% соответственно.
Рассмотрен один из алгоритмов кластеризации массивов данных – FCM. Целью FCM (Fuzzy Classifier Means) является автоматическая классификация множества объектов, которые задаются векторами признаков в пространстве признаков. Другими словами, такой алгоритм определяет кластеры и соответственно классифицирует объекты. Кластеры представляются нечеткими множествами, и, кроме того, границы между кластерами также являются нечеткими. Предложен вариант параллельного выполнения этого алгоритма для сокращения времени кластеризации.
Добавлено
Год выхода: 2013
Язык: Русский
В настоящее время разработано множество алгоритмов кластеризации, использующих различные подходы к р…
В настоящее время разработано множество алгоритмов кластеризации, использующих различные подходы к решению задачи кластерного анализа. В данной статье предлагается модификация одного из алгоритмов кластеризации, принцип работы которого основан на так называемом жадном подходе. Суть модификации состоит в том, что решение о том, следует ли добавлять новый документ в кластер, принимается на основании его схожести с ранее включенными в кластер документами.
В статье изложен подход к построению нечетких лингвистических переменных, основанный на использовании методов кластерного анализа данных. Основное предположение при использовании этого метода – при удалении от центра кластера степень принадлежности элемента нечеткому множеству уменьшается.
В статье предпринята попытка обоснования механизма и ключевых моделей конкурентного функционирования экономических субъектов в рамках самоорганизующегося распределения и перераспределения ограниченных и редких благ. Выделены и обоснованы отличия понятий «совершенный рынок», «конкуренция», «конкурентоспособность», «конкурентность» и «кооперация». Выявлено три элемента механизма конкурентного функционирования, действующих по спирали и формирующих вектор экономического развития. Представлена матрица моделей конкуренции, где обоснованы ее формы в зависимости от степени персонификации и частоты повторяемости обменных операций, классифицированных в терминах теории игр (кооперативные, некооперативные) и основных теоретических схем конкуренции: обладания, титула, открытия.
В пособии содержатся материалы, которые можно использовать при изучении структурной и функциональной организации кластерных вычислительных систем, а также для освоения принципов их использования. Описываются архитектурные решения четырех актуальных программных продуктов, имеющих практическую ценность для организации параллельных вычислений: PelicanHPC, Тorque, HTCondor, Slurm. Пособие адресовано студентам, обучающимся по направлениям 09.03.01 «Информатика и вычислительная техника» и 09.03.04 «Программная инженерия», а также может быть полезно студентам-старшекурсникам и аспирантам других специальностей и преподавателям смежных дисциплин.
В статье рассмотрены ключевые направления и предпосылки развития инновационно-ориентированных малых предприятий региона на примере Ростовской области. Проанализировано состояние малого и среднего предпринимательства в Российской Федерации, динамика его развития, определены его основные конкурентные преимущества, а также факторы и тенденции формирования и развития инновационно-ориентированных малых предприятий. Авторами подробно рассмотрены комплекс государственных мер поддержки данного сектора экономики и основные направления формирования предпринимательской экосистемы. Охарактеризована роль государственно-частного партнерства и кластеризации, а также необходимость реализации частных кластерных инициатив. Предложен комплекс мер, направленных на развитие малых инновационных предприятий региона.
Сегодня коммерческой организации приходится действовать в жестких условиях рынка. Чтобы оставаться конкурентноспособной, необходимо активно использовать современные информационные технологии, в частности, Data Mining. Авторы демонстрируют эффективность применения упомянутой технологии в разрезе анализа клиентской информации на примере телекоммуникационной компании, а также выявляют метод, который наилучшим образом подойдет для обработки выбранного набора данных. С этой целью средствами аналитического пакета Orange была проведена серия экспериментов, заключавшаяся в оценке качества прогностических моделей, построенных на основе методов Data Mining. Все рассмотренные методы продемонстрировали высокие результаты, однако наиболее предпочтительными по совокупности характеристик являются «Случайный лес» и «Метод опорных векторов».
Предложено алгоритмическое и программное обеспечение интервального прогнозирования динамических показателей на основе адаптивной вероятностно-статистической кластерной модели, когда вместо неизвестных вероятностей учитываются одновременно их точечные и интервальные оценки при выбранной доверительной вероятности. Показано, что такой комбинированный подход приводит к улучшению точности интервального прогнозирования и, как следствие, повышает качество принятия управленческих решений. Все результаты в данной статье получены с использованием свободно распространяемого языка программирования для статистической обработки данных «R», на базе которого создан специальный программный комплекс для конечного пользователя.
1
Популярные книги