enetlvfiplru

Как работает оцифровка робота CostPocket?

Надежное, точное и быстрое извлечение данных из представленных PDF-документов и изображений требует больших усилий и специальных инструментов. В CostPocket мы разработали робота, который использует различные современные технологии, включая OCR (оптическое распознавание символов), машинное обучение, алгоритмы, базы данных компаний, языковые правила и шаблоны, а также искусственный интеллект, для обработки сотен тысяч документов каждый месяц.

Программа CostPocket выполняет гораздо больше функций, чем просто оцифровка данных, но если вашему бизнесу нужно только извлечение данных, вы можете интегрировать наш продукт DIGI в свои системы. Подробнее на сайте digi.costpocket.com.

Процесс оцифровки с помощью CostPocket обычно занимает 3–5 секунды (не включая время загрузки документа, которое зависит от вашего устройства и интернет-соединения) и состоит из следующих шагов:

1. Предварительная форматировка входных данных. Мы поддерживаем несколько типов файлов, и входной файл предварительно обрабатывается для подготовки к оцифровке. Это включает в себя очистку изображений, стандартизацию форматов файлов и улучшение качества.

2. Оптическое распознавание символов (OCR). Весь текст вместе с его положением на странице извлекается из изображения.

3. Разбор результатов OCR. Наша внутренняя система анализирует извлеченный текст и идентифицирует распознаваемые структуры данных.

4. Определение происхождения и языка документа. Поскольку структуры данных варьируются в зависимости от страны, робот распознает происхождение документа и применяет специальные правила, которые он выработал за годы обработки международных документов.

5. Извлечение бухгалтерских данных. Робот сочетает глобальные шаблоны данных и сгенерированные ИИ правила для конкретных форматов, чтобы точно идентифицировать соответствующие бухгалтерские поля.

6. Проверка данных. Некоторые поля данных (информация о компании, регистрационные и НДС-коды, ставки НДС и т. д.) сверяются с общедоступными базами данных на точность.

7. Возврат результатов. Податель документа проверяет и подтверждает оцифрованные данные, прежде чем они будут отправлены в выбранное бухгалтерское программное обеспечение.

Наши алгоритмы распознавания данных (шаг 3) постоянно совершенствуются. Каждую неделю мы обновляем робота CostPocket данными, проверенными людьми, чтобы он мог учиться на прошлых ошибках и со временем повышать свою точность.

Пример ввода и результатов

Receipt photo for digitization example

После подачи робот CostPocket оцифровывает и возвращает следующие данные:

  • Дата документа: 23.08.2020
  • Общая сумма: 38,08
  • НДС: 6,61
  • Идентификационный номер документа: 1434421
  • Валюта: EUR
  • Поставщик
    • Название: Circle K Latvia SIA
    • Адрес: Рига, Duntes iela 6
    • Почтовый индекс: LV-1013
    • Регистрационный код: 40003064094
    • Код НДС: LV40003064094

Узнайте больше о: