enetlvfiplru

DIGI-palvelun tarkkuus, laskenta ja validointi

Johdanto

CostPocketin automaattinen kulutositteiden digitointijärjestelmä (jäljempänä robotti) on monimutkainen, nopea ja tarkka järjestelmä, joka tunnistaa kirjanpidossa tarvittavia tietoja talousasiakirjoista (laskut, kuitit, rahtikirjat).

Robottimme käsittelee noin 700 000 asiakirjaa kuukaudessa (04/2025) ja sitä käytetään useissa ohjelmistoissa:

  • CostPocketin omissa tuotteissa: CostPocket-sovellus, CostPocket Cloud, CostPocket DIGI, Outvoicer (myyntilaskujen lähetys)
  • Kirjanpito-ohjelmistoissa CostPocket DIGI -rajapinnan kautta
  • Muiden yritysten sisäisissä kirjanpitojärjestelmissä CostPocket DIGI -palvelun avulla

Käsittelemme asiakirjoja 77 maasta ja 52 kielellä Euroopasta, Aasiasta, Oseaniasta, Amerikoista, Arabimaista ja Afrikasta, ja tuemme jatkuvasti uusia maita ja kieliä.

Kentät

Robotti tunnistaa seuraavat kentät:

  • Antopäivä, eräpäivä, dokumentin numero, valuutta
  • Välisumma, ALV:n yhteissumma, loppusumma
  • Pankkitilit, viitenumero
  • Pankki- ja luottokortin viimeiset 4 numeroa
  • Sähkönkulutus
  • Alkuperämaan koodi
  • ALV-rivit (yksi rivi per ALV-kanta)
  • Rivitiedot (yksi rivi per tuote/palvelu): kuvaus, tuotenumero, yksikkö, määrä netto- ja bruttosumma netto- ja bruttohinta summa ilman alennusta summa alennuksen kanssatyyppi (tuote/palvelu) tilausnumero
    • kuvaus, tuotenumero, yksikkö, määrä
    • netto- ja bruttosumma
    • netto- ja bruttohinta
    • summa ilman alennusta
    • alennustieto (isDiscount)
    • tyyppi (tuote/palvelu)
    • tilausnumero
  • Pyöristykset (rivirivien pyöristys)
  • Dokumenttityyppi (lasku tai kuitti)
  • Dokumentin suunta (debit / credit)
  • Polttoainerivit (esim. huoltoasemat)

Tunnistusmenetelmät

Ensimmäinen prototyyppi kehitettiin yli 10 vuotta sitten, ja järjestelmää on parannettu jatkuvasti hyödyntäen uusia teknologioita ja säilyttäen etumatkaa kilpailijoihin nähden.

Robotti koostuu useista alijärjestelmistä:

  • Omat kehittyneet algoritmimme (tärkein osa)
  • OCR-tekstintunnistus
  • Tekoälyjärjestelmät
  • Oma koneoppimisjärjestelmä
  • Maakohtaiset ominaisuus- ja kielikokoelmat
  • Yritys- ja rekisteritietokannat

Digitointi

Digitoinnin perusta on oma algoritmikoodimme, jota on vuosien aikana mukautettu käsittelemään sekä samankaltaisuuksia että poikkeuksia analysoimalla kymmeniä tuhansia tositteita. Tätä täydennetään muilla edellä mainituilla järjestelmillä, ja lopuksi tiedot puhdistetaan ja validoidaan useilla ehdoilla ja tarkistuksilla.

Jos epävarmuus on suuri, robotti jättää arvon tyhjäksi – satunnaista arvaamista ei tehdä.

Numeriset arvot (loppusummat, ALV-rivit, rivitiedot) validoidaan erityisen tarkasti. Tämä toteutetaan monivaiheisella prosessilla:

  1. Loppusumman tunnistus
  2. ALV-rivien tunnistus
  3. Alennusten tunnistus
  4. Rivikohtaisten tietojen tunnistus

Tulokset vertaillaan keskenään ja ovat riippuvaisia toisistaan – tietoja ei käsitellä irrallisina kenttinä.

Datan validointi

Kaikki kentät validoidaan asiaankuuluvilla alijärjestelmillä (tekoäly, koneoppiminen, rekisterit). Joillekin kentille on määritelty erityisiä ehtoja.

Katso tarkemmat ehdot löydät täältä:   https://costpocket.com/en/digi-tutorial-format

Datan formaatti

JSON-ulostulon formaatti on tiukka eikä muutu ilman CostPocket-tiimin ennakkoilmoitusta.

Datan tarkkuus

Digitoinnin tarkkuuden yleiskatsaus löytyy täältä: https://costpocket.com/fi/learn/digitoinnin-tarkkuus

Esimerkki

Esimerkkimuotoinen JSON-vastaus: https://costpocket.com/en/digi-tutorial-format