Rozwój, modernizacja i utrzymanie systemu wspierającego wyszukiwanie oraz raportowanie danych o przedsiębiorcach
Dla Ministerstwa Rozwoju, Pracy i Technologii realizujemy rozwój, modyfikacje i utrzymanie Hurtowni Danych, w tym budowę Silnika Wyszukiwarki Firm wykorzystywanego przez rozwiązania dostępne na portalu biznes.gov.pl.
Projekt obejmuje rozwój systemu przetwarzającego i udostępniającego dane o przedsiębiorcach, wspierającego zarówno wyszukiwanie informacji, jak i generowanie raportów statystycznych oraz analitycznych. Rozwiązanie pełni istotną rolę w ekosystemie usług publicznych, ponieważ przejęło znaczącą część zapytań wyszukiwawczych i raportowych, które wcześniej kierowane były bezpośrednio do systemu CEIDG.
Projekt jest realizowany w latach 2021–2026 i obejmuje zarówno utrzymanie istniejącego rozwiązania, jak i jego dalszy rozwój, modernizację technologiczną oraz rozbudowę o nowe moduły.
Wyzwanie
Klient potrzebował elastycznego silnika wyszukiwarki, na którym można było oprzeć interfejs dostępny na portalu biznes.gov.pl. Silnik musiał umożliwiać przeszukiwanie zasobów w sposób szybki, precyzyjny i zgodny ze szczegółowymi wytycznymi dotyczącymi sposobu działania wyszukiwarki.
Istotnym wyzwaniem była również rosnąca popularność rozwiązania. Wraz ze wzrostem liczby użytkowników rosło obciążenie systemu, co wymagało bieżącego wsparcia utrzymaniowego, optymalizacji oraz rozwoju architektury.
Projekt miał także kluczowe znaczenie dla odciążenia systemu CEIDG. Hurtownia Danych i Silnik Wyszukiwarki Firm miały przejąć zapytania wyszukiwawcze oraz raportowe, które wcześniej były kierowane bezpośrednio do CEIDG. Dzięki temu możliwe było rozdzielenie obciążeń transakcyjnych, wyszukiwawczych i raportowych.
Najważniejsze wyzwania techniczne
Jednym z największych zadań była przebudowa Hurtowni Danych z układu o charakterze transakcyjnym do modelu zadaniowego, lepiej dopasowanego do potrzeb raportowania i wyszukiwania.
Przed przebudową podstawa raportowa opierała się na rozproszonym układzie informacji, który nie był projektowany z myślą o konkretnych zadaniach raportowych. Modernizacja polegała na takim przeorganizowaniu sposobu przechowywania danych, aby dane były przygotowywane pod konkretne raporty i scenariusze użycia, bez nadmiarowych informacji obciążających proces raportowania.
W efekcie każdy raport otrzymał dedykowane źródło danych, odpowiednio zindeksowane i dostosowane do potrzeb użytkowników. Takie podejście pozwoliło zwiększyć wydajność, poprawić przewidywalność działania oraz lepiej przygotować system do obsługi rosnącej liczby zapytań.
Drugim dużym wyzwaniem była przebudowa API udostępnianych przez Hurtownię Danych — z technologii Java do .NET. Zmiana technologiczna odblokowała dalsze możliwości rozwojowe rozwiązania i pozwoliła lepiej dostosować system do aktualnych wymagań technologicznych oraz prawnych.
Ograniczenia projektu
Istotnym ograniczeniem były zależności od komponentów zastosowanych w pierwotnym rozwiązaniu. Część z nich zmieniła model licencjonowania lub posiadała licencje ograniczające dalszy rozwój systemu.
Z tego względu projekt wymagał nie tylko utrzymania i rozbudowy funkcjonalnej, ale również stopniowego uniezależniania systemu od elementów ograniczających jego dalszą modernizację. Było to szczególnie istotne w kontekście rozwiązania publicznego, które musi być rozwijane długoterminowo i dostosowywane do zmieniających się wymagań użytkowników, prawa oraz technologii.
Zakres prac
W ramach projektu odpowiadamy za utrzymanie, rozwój oraz rozbudowę systemu o nowe moduły.
Zakres prac obejmuje między innymi:
- rozwój i utrzymanie Hurtowni Danych,
- budowę i rozwój Silnika Wyszukiwarki Firm,
- modernizację API,
- przebudowę procesów przetwarzania danych,
- rozwój mechanizmów raportowych,
- optymalizację wydajności,
- dostosowanie systemu do zmian w prawie,
- rozszerzanie zakresu integracji,
- utrzymanie środowisk i wsparcie eksploatacyjne.
Nasze rozwiązanie
W ramach projektu rozwijamy system składający się z modułów odpowiedzialnych za wyszukiwanie, udostępnianie danych, raportowanie oraz procesy przetwarzania i przygotowania danych.
Moduł Silnika Wyszukiwarki Firm
Moduł Silnika Wyszukiwarki Firm zasila wyszukiwarkę przedsiębiorców dostępną na portalu biznes.gov.pl. Jego zadaniem jest szybkie i elastyczne udostępnianie danych wyszukiwawczych w sposób zgodny z wymaganiami interfejsu użytkownika oraz oczekiwaniami użytkowników końcowych.
Silnik został zaprojektowany tak, aby obsługiwać rosnący wolumen zapytań i odciążyć system CEIDG od zapytań wyszukiwawczych kierowanych wcześniej bezpośrednio do rejestru źródłowego.
Moduł API V3
Moduł API V3 umożliwia automatyczne przeglądanie bazy przedsiębiorców z wykorzystaniem REST API. Został dostosowany do aktualnych realiów technologicznych oraz obowiązujących wymagań prawnych.
Przebudowa API pozwoliła uporządkować sposób udostępniania danych, zwiększyć możliwości rozwoju oraz przygotować system do dalszej integracji z innymi usługami publicznymi i zewnętrznymi odbiorcami danych.
Proces ETL
Proces ETL odpowiada za przetwarzanie danych zbieranych przez Hurtownię Danych. Obejmuje przygotowanie danych poprzez ich oczyszczanie, eliminowanie uszkodzonych informacji oraz standaryzację danych adresowych.
Celem procesu jest zwiększenie jakości danych oraz maksymalizacja trafności statystyk i raportów. Dzięki temu dane wykorzystywane w raportach oraz wyszukiwarce są lepiej dopasowane do potrzeb użytkowników i scenariuszy analitycznych.
Raportowanie
Hurtownia Danych udostępnia 41 raportów, które można podzielić na trzy główne grupy.
Pierwszą grupę stanowią raporty dotyczące wniosków składanych do CEIDG — łącznie 18 raportów, w tym:
- 16 raportów w podziale na województwa,
- 1 raport dla firm, które nie mają wskazanego miejsca wykonywanej działalności,
- 1 raport prezentujący wolumen składanych wniosków w podziale na rodzaj.
Drugą grupę stanowią raporty dotyczące działalności zarejestrowanych w CEIDG, w podziale na status funkcjonowania — również 18 raportów, w tym:
- 16 raportów w podziale na województwa,
- 1 raport dla firm bez wskazanego miejsca wykonywania działalności,
- 1 raport prezentujący liczbę działalności według statusu: aktywne, zawieszone, wykreślone.
Trzecią grupę stanowią raporty statystyczne dotyczące działalności i wniosków — 5 raportów, w tym:
- 2 raporty prezentujące strukturę wiekową przedsiębiorców,
- 1 raport dotyczący stanu działalności,
- 2 raporty prezentujące zrealizowane wnioski w ujęciu rocznym i dobowym.
Integracje
System współpracuje z rozwiązaniami i rejestrami wykorzystywanymi w ekosystemie usług publicznych, w tym z:
- biznes.gov.pl,
- KRS.
Integracje te umożliwiają wykorzystanie danych przedsiębiorców w usługach publicznych oraz obsługę zapytań wyszukiwawczych i raportowych w sposób bardziej wydajny i uporządkowany.
Technologie
W projekcie wykorzystano między innymi:
- Rocky Linux,
- Windows Server,
- Microsoft SQL Server,
- MongoDB,
- .NET Core,
- C#,
- Elasticsearch,
- GitLab,
- Kibana,
- Logstash,
- SQL Server Integration Services,
- Apache,
- IIS,
- Nginx,
- Gravitee,
- Wyn Enterprise.
Tak szeroki stos technologiczny wynikał z charakteru projektu, który łączy przetwarzanie danych, wyszukiwanie, raportowanie, integracje API, utrzymanie środowisk oraz monitorowanie działania systemu.
Efekty wdrożenia i rozwoju
Rozwój Hurtowni Danych oraz budowa Silnika Wyszukiwarki Firm przyniosły kilka kluczowych efektów.
Najważniejsze rezultaty obejmują:
- zwiększenie wydajności rozwiązania,
- odciążenie systemu CEIDG od zapytań wyszukiwawczych i raportowych,
- wdrożenie nowych funkcjonalności,
- dostosowanie systemu do zmian w prawie,
- rozszerzenie zakresu integracji,
- przebudowę API do nowoczesnej architektury opartej o .NET,
- uporządkowanie modelu danych pod kątem konkretnych zadań raportowych,
- przygotowanie dedykowanych źródeł danych dla raportów,
- poprawę jakości danych dzięki procesom ETL,
- lepszą skalowalność i łatwiejszy dalszy rozwój systemu.
Organizacja prac
Projekt jest realizowany w metodyce zwinnej, co pozwala na bieżące reagowanie na zmieniające się potrzeby klienta, rozwój nowych funkcjonalności oraz dostosowywanie systemu do zmian prawnych i technologicznych.
W realizację projektu zaangażowany jest zespół obejmujący:
- kierownika zespołu wykonawcy,
- architekta / projektanta systemów IT,
- analityka systemowego,
- specjalistę ds. wdrożeń,
- testera,
- administratora baz danych,
- specjalistę ds. wyszukiwarki,
- programistę.
Połączenie kompetencji analitycznych, architektonicznych, programistycznych, bazodanowych, wdrożeniowych i utrzymaniowych pozwala rozwijać system o dużej skali i znaczeniu dla administracji publicznej.
Podsumowanie
Rozwój Hurtowni Danych i budowa Silnika Wyszukiwarki Firm to projekt wspierający cyfrowe usługi publiczne związane z dostępem do informacji o przedsiębiorcach.
Rozwiązanie pozwoliło odciążyć system CEIDG, przejmując zapytania wyszukiwawcze i raportowe, oraz stworzyć bardziej elastyczną, wydajną i zadaniowo zorientowaną architekturę przetwarzania danych. Przebudowa Hurtowni Danych, rozwój API V3 i procesów ETL oraz wykorzystanie wyszukiwarki opartej o Elasticsearch stworzyły podstawę do dalszego rozwoju usług dostępnych na biznes.gov.pl.
Projekt pokazuje znaczenie nowoczesnej architektury danych w administracji publicznej — szczególnie tam, gdzie system musi obsługiwać rosnący ruch, zmieniające się wymagania prawne i potrzeby użytkowników korzystających z usług online.
