Кандидатсвай онлайн

  • en
  • ru
  • Статистически методи за моделиране на екстремални събития и откриване на аномалии, КП-06-Австрия/1, от 11 юли 2025 г.

     

    Наименование на проекта Статистически методи за моделиране на екстремални събития и откриване на аномалии
    Наименование на проекта английски език Statistical methods for modelling extremal events and anomaly detection
    Идентификационен номер КП-06-Австрия/1, от 11 юли 2025г.
    Вх.№ BG-175467353-2024-16-0003/ФНИ-107, от 9 януари 2025 г.
    Финансираща организация Министерство на образованието и науката
    Ministry of Education and Science
    Финансираща програма Фонд „Научни изследвания”
    Bulgarian National Science Fund
    Процедура Конкурс за проекти по проекти за двустранно сътрудничество – България – Австрия 2024 год.

    Competitions for financial support for bilateral projects – Bulgaria-Austria 2024

    Партньори от българска страна: Фонд „Научни изследвания“ към МОН,
    Шуменски университет „Епископ Константин Преславски”
    от австрийска страна: OeAD GmbH – Австрийска агенция за международно сътрудничество в образованието и науката,
    Виенски технологичен университет, Виена, Австрия
    on the Bulgarian side: Bulgarian National Science Fund at the Ministry of Education
    Konstantin Preslavsky University of Shumen
    on the Austrian side: OeAD – Austria’s Agency for Education and Internationalisation.
    Vienna University of Technology, (TU Wien), Austria
    Период на изпълнение 11 юли 2025 -11 юли 2027 г.
    Цели на проекта  на български:
    Вземането на решения, базирано на данни, изисква построяването на правилни статистически изводи и правилно статистическо моделиране. Реалните данни често съдържат точки, които значително се различават от останалите наблюдения. Тези точки могат да се дължат на
    а) грешки при регистрация или измерване или
    б) истински стойности на данните, които са екстремни или нетипични.
    Последните се появяват особено в случай на природни бедствия, аномалии в управлението, финансови кризи и други екстремни събития или наслагване на множество процеси. В първия случай тяхното откриване изисква почистване на данните, докато във втория случай тези данни могат да разкрият интересни или необичайни свойства на наблюдаваната случайна величина, които може да са останали незабелязани, и поради това, данните трябва да бъдат запазени. С нарастването на размера на данните, рискът от наблюдаване на такива аномалии нараства значително. Най-опасните ситуации са свързани със случаите, когато както а), така и б) се появяват като външни стойности или екстремуми в извадката. Методите за техния анализ зависят от структурата на зависимост на данните и целта на анализа.
    на английски:
    Data-based decision-making requires correct statistical inference and modelling. Real data often contain points that significantly differ from other observations. These points could be
    a) registration or measurement errors or
    b) true data values that are extremal or atypical.
    The latter appear especially in the case of natural disasters, management anomalies, financial crises and other extremal events or superposition of multiple processes. In the first case, their detection is useful for data cleaning, while in the second case, they can uncover interesting or unusual properties of the observed random variable that may have gone unnoticed. With the growth of the data size, the risk of observing such examples increases significantly. The most dangerous situations are related to the cases when, both a) and b), appear as outside values or extremes in the sample. Methods for their analysis depend on the structure of the dataset and the aim of the analysis.
    Основни дейности на български:
    През първата година от проекта екипът ще се фокусира върху моделиране на екстремни събития и откриване на аномалии в едновариантния случай. Методите ще бъдат разделени на две основни групи.
    • Първата група съдържа методи за работа с едномодални разпределения. Задачите, свързани с тази група, ще бъдат:
    – Да се разработи точен модел за опашките на наблюдаваното разпределение. Неговото решение обикновено е обект на теорията на екстремните стойности и използва механизма на наредените статистики.
    – Да се изгради точен модел за центъра на наблюдаваното разпределение и правилно да се определят отклоненията от него. По този начин събития, които се очаква да се случат с вероятност, по-малка от някакъв подходящ малък праг, могат да се считат за аномални. Например, това могат да бъдат някои компоненти в сместа G = (1-e)F + eH, където e ∈ [0, 1), а F и H са кумулативни функции на разпределение. Тук се интересуваме от проблема за намиране на оценки на параметрите на F. Тази задача е обект на робастния статистически анализ на данни.
    • Втората група съдържа методи за моделиране и оценка на всички параметри на смесените вероятностни разпределения.
    В случай на смес от две разпределения, разликата с предишните подходи е, че тук трябва да се моделират както F, така и H. Ще разгледаме главно случаите, когато и F, и H са с тежка опашка или когато F е с лека опашка, а H е кумулативна функция на разпределение с тежка опашка. В края на първата година ще разгледаме техники за оценка на всички параметри на смесени вероятностни разпределения с повече от две групи.
    През втората година очакваме да подобрим някои съществуващи техники за моделиране на екстремни събития и откриване на аномалии в многовариантния случай. Тук, поради възможна зависимост в структурата на данните, възникват повече въпроси. Многовариантните аутлайъри се държат различно от повечето наблюдения, за които се предполага, че следват някакъв основен модел, като многовариантно нормално разпределение. В тази част от проекта ще се съсредоточим върху задачата за определяне на най-подходящите методи за деклъстеризиране и намаляване на размерността на данните. Ще опишем в кои случаи кои методи е най-добре да бъдат приложени. В случай, че вариацията не съществува, ще приложим техники, предложени наскоро от Филзмозер и съавтори, за робастен анализ на главните компоненти, който е подходящ за използване при наличие на редки и клетъчно организирани данни. Авторите заместват квадратната функция на загубата за апроксимационната грешка с робастна версия. Те използват интегриране в L1 пространството, предизвикващо еластично нетно наказание (penalty) при рядкост, което от своя страна предлага допълнителна гъвкавост при моделиране. За да решат произтичащия проблем с оптимизацията, те разработват алгоритъм, базиран на Риманов стохастичен градиент. Основното предимство на този алгоритъм е, че той може да се мащабира до данни с големи размери, както по отношение на много променливи, така и по отношение на обема на извадката. Те наричат получения метод SCRAMBLE (Sparse Cellwise Robust Algorithm for Manifold-based Learning and Estimation).
    на английски:
    During the first year of the project the team will be focused on modelling extremal events and anomaly detection in the univariate case. The methods will be divided in two main groups.
    The first group contains methods for working with unimodal distributions. The tasks related with this group will be:
    -To develop an accurate model for the tails of the observed distribution. Its solution is usually object of Extreme value theory and uses the mechanism of order statistics.
    -To construct an accurate model for the center of the observed distribution and correctly to determine outliers. Thus, events which are expected to occur with probability less than some appropriate small threshold, could be considered as anomalous. For example, these could be some components in the mixture G = (1-e)F + eH, where e ∈ [0, 1), and F and H are cumulative distribution functions. We are particularly interested in the problem of finding parameter estimators of F. This task is an object of robust statistical data analysis.
    The second group contains methods for modelling and estimation of all parameters of mixed probability distributions. In case of a mixture of two distributions, the difference with the previous approaches is that here one has to model both F and H. We are going to consider mainly the cases when both F and H are heavy-tailed, or when F is light-tailed, and H is heavy-tailed cumulative distribution function. At the end of the first year we will consider techniques for estimation of all parameters of mixed probability distributions with more than two groups.
    During the second year, we expect to improve some existing techniques for modelling extremal events and anomaly detection in the multivariate case. Here, due to possible dependence in the structure of the data, more questions appear. Multivariate outliers behave differently than the majority of observations, which are assumed to follow some underlying model, like a multivariate normal distribution. We are going to focus on the task of identifying the most appropriate methods for declustering and dimensionality reduction of the data and in which cases those methods are applicable. In the case when the variance may not exist, we will apply techniques suggested recently by Filzmoser and co-authors for sparse and cellwise robust Principle component analysis. The authors substitute the squared loss function for the approximation error by a robust version. They use integration of a sparsity-inducing L1 or elastic net penalty, which offers additional modeling flexibility. In order to solve the resulting optimization problem, they develop an algorithm based on Riemannian stochastic gradient descent. The main advantage of this algorithm is that it is scalable to high-dimensional data, both in terms of many variables as well as observations. They call the resulting method SCRAMBLE (Sparse Cellwise Robust Algorithm for Manifold-based Learning and Estimation).
    Ключови думи На български: разпределения с тежки опашки, екстремален индекс, аутлайъри, анализ на екстремалните стойности, робастни статистически оценки

    на английски: heavy-tailed distributions, extremal index, outliers, extreme value analysis, robust statistical estimators

    Резултати По време на проекта ще опишем полезността на разработените алгоритми за откриване на аномалии в екологията и управлението.

    Along the project, we are going to depict the usefulness of the developed algorithms for anomaly detection in ecology and management.

    Финансиране За проекта: 50 000 лв.
    Обща стойност на средствата по проекта за Шуменски университет
    Ръководител на проекта проф. д-р Павлина Калчева Йорданова
    Изследователи Univ.-Prof. Dipl.- Ing. Dr. techn. Peter Filzmoser

    Гл. ас. д-р Николай Иванчев Николов

    Сайт на проекта Линк: https://sites.google.com/shu.bg/statisticalmethodsformodelling
    НАЦИД https://cris.nacid.bg/public/project-preview/20790

     

    Публикувано на 31/10/2025