Web scraping / API

Jesteśmy specjalistami w gromadzeniu i przetwarzaniu dużych ilości danych pochodzących z dowolnych źródeł dostępnych w internecie.

Budujemy narzędzia do pobierania i aktualizacji informacji z publicznie dostępnych baz danych, stron internetowych i aplikacji. Zgromadzone dane weryfikujemy, poprawiamy w nich błędy i przekazujemy dalej w ustrukturyzowanej formie.

Dzięki integracji zewnętrznych źródeł informacji z już posiadanymi zbiorami możemy tworzyć dowolne zestawienia lub raporty analityczne ułatwiające podejmowanie decyzji i automatyzację procesów biznesowych.

Nasze kompetencje

Porządkowanie informacji

Przekształcamy nieuporządkowane informacje zawarte w kodzie HTML, plikach PDF czy skanach dokumentów w ustrukturyzowane dane w łatwych do przetwarzania formatach (np. JSON, XML).

Weryfikacja poprawności

Dbamy o to, aby każde pole w kopii bazy źródłowej miało właściwy typ i format. Poprawiamy błędy w pobranych danych i usuwamy niekompletne rekordy.

Wzbogacanie danych

Pobrane ze wskazanego źródła informacje możemy uzupełnić o dodatkowe dane pochodzące ze zbiorów, które przetwarzamy na co dzień (patrz: Źródła danych).

Łatwa integracja

Wynikową bazę udostępniamy w pliku w ustalonym formacie albo za pośrednictwem dedykowanego API zapewniającego stały dostęp do aktualnej wersji danych.

Stabilność działania

Na bieżąco dostosowujemy nasze narzędzia do zmian w sposobie udostępniania informacji w zbiorach źródłowych (np. zmiana struktury danych, nowe zabezpieczenia).

Technologiczny savoir-vivre

Omijamy limity liczby zapytań, kody CAPTCHA i inne zabezpieczenia przed masowym pobieraniem danych, ale zawsze projektujemy nasze narzędzia w taki sposób, aby nie zakłócały poprawnego działania przetwarzanych źródeł.

Zbiory źródłowe

Publiczne bazy danych

Specjalizujemy się w hurtowym pobieraniu danych z rejestrów i ewidencji prowadzonych przez organy administracji publicznej.

Zapewniamy większą stabilność, wyższą jakość i szybszy dostęp do danych niż przy użyciu oficjalnych interfejsów.

Wyszukiwarki internetowe

Dysponujemy możliwością masowego odpytywania popularnych wyszukiwarek internetowych (np. Google, Bing) o dużą liczbę słów kluczowych i fraz.

To często jedyny sposób na pozyskanie danych z lepiej zabezpieczonych zbiorów źródłowych.

Serwisy i aplikacje internetowe

Mamy doświadczenie w wydobywaniu informacji z różnego rodzaju serwisów i aplikacji internetowych.

Od stron firmowych, przez serwisy społecznościowe i mapowe, po zamknięte systemy wymagające autoryzacji i symulacji działań użytkownika.

Zbiory offline

Nie wszystkie wartościowe dane są dostępne w internecie. Wykorzystujemy również bazy danych udostępniane na tradycyjnych nośnikach danych, a nawet w formie papierowych dokumentów.

Sposoby dostępu

Pliki z danymi

W najprostszym modelu współpracy wybieramy wspólnie z klientem zbiory źródłowe, ustalamy kryteria filtrowania oraz zakres udostępnianych informacji.

Po pobraniu i przetworzeniu danych przesyłamy w e-mailu plik z danymi albo link umożliwiający pobranie pliku z naszych serwerów.

Repliki baz danych

Aby zapewnić aktualizację informacji w czasie rzeczywistym, możemy utworzyć dedykowaną bazę danych po naszej stronie oraz jej lustrzaną kopię po stronie klienta.

Obie bazy będą synchronizowane niezwłocznie po wprowadzeniu każdej zmiany wykrytej w zbiorach źródłowych.

API

W przypadkach, gdy istotny jest szybki dostęp do aktualnych informacji w wybranych rekordach bazy, proponujemy połączenie posiadanych systemów informatycznych z naszymi interfejsami programistycznymi.

Dla każdego przetwarzanego zbioru źródłowego jesteśmy w stanie udostępnić proste w integracji API umożliwiające pobieranie danych w formacie JSON.

Zaufali nam

Kontakt

MGBI sp. z o.o.
ul. Żurawia 6/12 lok. 766
00-503 Warszawa
NIP 7010446505
REGON 360001489
KRS 0000533676
Sąd Rejonowy dla m.st. Warszawy w Warszawie, XII Wydział Gospodarczy Krajowego Rejestru Sądowego

W sprawach dotyczących przetwarzania danych osobowych w naszych zbiorach prosimy o kontakt z Inspektorem Ochrony Danych: odo@mgbi.pl