Digitalizacja, to proces, w którym sfotografowany za pomocą smartfona lub zeskanowany dokument księgowy (paragon, faktura itp.) zostaje zamieniony na plik “zrozumiały” dla oprogramowania księgowego. Najczęściej jest to plik XML lub JPK. Dane z takiego pliku zostają automatycznie wczytane w oprogramowaniu księgowym.
Proces digitalizacji dokumentu z CostPocket trwa średnio 2-3 sekundy (nie wliczając czasu przesłania dokumentu, który często zależy też od rodzaju urządzenia oraz łącza internetowego) i składa się z następujących kroków:
1. Wstępne formatowanie danych wejściowych - plik wejściowy jest wstępnie przetwarzany, aby przygotować go do digitalizacji. Robot CostPocket obsługuje wiele rodzajów plików (jak pdf, jpg i wiele innych).
2. Optyczne rozpoznawanie znaków (OCR - Optical Character Recognition) - wszelkie dane na dokumencie księgowym, zostają wyodrębnione z obrazu (JPG, PDF lub innych) poprzez poszukiwanie metadanych (pozycjonowanie). Dzięki zastosowaniu tej technologii, jesteśmy w stanie przyporządkować odpowiednie metryki i atrybuty do wyodrębnionych danych.
3. Parsowanie danych OCR - model wewnętrzny CostPocket analizuje i oznacza rozpoznawalne struktury danych, przykładowo: numer NIP zostanie dokładnie określony jako NIP a nie wartość netto zakupu lub wartość podatku VAT, podobnie z nazwą dostawcy, odbiorcy i innymi elementami faktury lub rachunku.
4. Rozpoznawanie języka i pochodzenia dokumentu - struktury danych często posiadają różne wzorce w zależności od kraju pochodzenia dokumentu. Przez wiele lat nasz robot poznał wiele wzorców i wyjątków specyficznych dla danego kraju, a nawet dla danego typu dokumentu. W Polsce odróżniamy na przykład dwa główne formaty paragonów z kas fiskalnych oraz kilkanaście wzorów paragonów sklepowych.
5. Wyodrębnianie danych księgowych - robot CostPocket rozpoznaje pola danych, łącząc globalne wzorce struktury danych oraz zestawy reguł generowanych przez sztuczną inteligencję specyficznych dla formatu i pochodzenia dokumentu.
6. Walidacja danych - niektóre pola danych (nazwa firmy, numer NIP i REGON, wysokość VAT i inne) potwierdzamy w publicznych bazach danych.
7. Potwierdzenie wyników - użytkownik potwierdza zdigitalizowane dane, które są następnie wysyłane do wybranego programu księgowego.
Pamiętaj, że zestawy algorytmów rozpoznawania danych z punktu #3 stale ewoluują. Co tydzień zasilamy robota CostPocket danymi zweryfikowanymi przez człowieka, aby mógł uczyć się na swoich błędach i ulepszać swoje działanie.
Przykładowy dokument do digitalizacji:
Dowiedz się więcej: