Czym jest OCR i jak może Ci pomóc automatyzować procesy? - Automation Talks #11

Mateusz Tajak

2021-11-16

Czym jest OCR i jak może Ci pomóc automatyzować procesy? - Automation Talks #11

W tym odcinku dowiesz się:

czym tak naprawde jest OCR - optical character recognition - optyczna rozpoznawanie znaków
o rodzajach OCR
jak wygląda OCR w praktyce
oraz dla kogo sa rozwiązania wykorzystaujące OCR

Więcej na temat Robotic Process Automation dowiesz się z naszego bloga https://ggsitc.com/pl/blog.

Posłuchajcie, zmotywujcie i wyciągnijcie z tej rozmowy to, co dla Was teraz najlepsze.

🎧 Zapraszamy na Spotify, Apple Podcasts, Google Podcasts, Spreaker. Enjoy!

Listen to "#11 Czym jest OCR i jak może Ci pomóc automatyzować procesy?" on Spreaker.

Embedded content: <a data-variant="body" class="TypographyV2-module--root--c2a63" href="https://www.youtube.com/watch?v=rK49IuQON64" target="_blank" rel="nofollow noopener noreferrer">https://www.youtube.com/watch?v=rK49IuQON64</a>

Transkrypcja

Mateusz Tajak: Cześć, z tej strony Mateusz Tajak.

Sebastian Grzesik: Cześć, z tej strony Sebastian Grzesik.

Mateusz Tajak: Witamy Was w kolejnym odcinku naszego podcastu, już jedenastym. Tym razem porozmawiamy o automatyzacji, robotyzacji i generalnie o technologiach wspierających automatyzację procesów biznesowych w mniejszych firmach czy dużych przedsiębiorstwach. Dzisiaj na tapet bierzemy temat OCR. A czym jest OCR? Spotkałeś się, Sebastianie, z takim pojęciem?

Sebastian Grzesik: Spotkałem się w tym terminem w momentach, kiedy w organizacjach pojawia się temat związany z dostępem do dokumentów, do których nie można mieć wglądu, bo nie są przygotowane w formie cyfrowej. Często jest to bariera w zdobywaniu prostych informacji takich jak umowy pracownicze czy warunki handlowe dołączone do kontraktu...

Mateusz Tajak: Nie wybiegajmy jednak aż tak bardzo w przyszłość, bo o szczegółach będziemy jeszcze mówić. Najpierw wprowadźmy naszych słuchaczy w technologię i wyjaśnijmy skrót. Czym jest OCR, czyli optyczne rozpoznawanie znaków (ang. optical character recognition)?

Prosta definicja mówi, że jest to technologia przekładająca znaki wydrukowane na papierze w tak zwane nabity, które według terminologii komputerowej, są zdigitalizowanymi i scyfryzowanymi danymi do wykorzystania w dalszych procesach. Z punktu widzenia automatyzacji procesów biznesowych jest to dość istotna technologia, bo większość procesów w firmach opiera się na jakiegoś rodzaju dokumentach. W wielu branżach, w wielu firmach dokumentów jest bardzo dużo, zarówno tych papierowych, jak i cyfrowych. W dużym skrócie OCR jest zatem technologią pozwalającą przekładać nieczytelne dla komputera dokumenty na pliki, które maszyna może odszyfrować.

Nie wiem, czy wiesz, ale technologia OCR jest już bardzo stara...

Sebastian Grzesik: Mogę sobie tylko wyobrazić, że przenoszenie obrazów na formę cyfrową było jedną z podstawowych potrzeb biznesowych od bardzo dawna.

Mateusz Tajak: Nie byłem tego świadomy, ale przygotowując się do tego odcinka, zajrzałem do historii technologii i okazało się, że prace nad technologią OCR mają już ponad 100 lat. Pierwsze maszyny OCR były wdrażane w latach 30., a potem w latach 50. XX wieku. Firmą, która była pionierem w tym obszarze, a którą pewnie każdy z nas zna, było Reader’s Digest. Jest to amerykańska firma, która jako pierwsza wdrożyła opatentowaną maszynę do rozpoznawania znaków drukowanych i była w stanie przełożyć je na karty perforowane. Na ich podstawie potem można było tworzyć oprogramowanie w jeszcze dość prymitywnych komputerach. Podsumowując, sama technologia jest bardzo stara.

Sebastian Grzesik: Nawet starsza od YouTube’a....

Mateusz Tajak: Od YouTube’a, Facebook’a i LinkedIna razem wziętych. Natomiast bardzo dynamiczny rozwój OCR obserwujemy w ostatnim czasie. Tak naprawdę tę technologię można podzielić na kilka rodzajów, jednak tutaj nie będziemy wchodzić w aspekty techniczne. Naszych słuchaczy pewnie bardziej interesuje analiza OCR z perspektywy biznesowej. Gdzie tę technologię można umieścić w firmie? Gdzie już się spotkaliśmy z takimi rozwiązaniami? Z tej perspektywy chciałbym o tym opowiedzieć…

Dla mnie pierwszym oczywistym miejscem, gdzie występuje OCR w firmie, jest drukarka oraz inne urządzenia wielofunkcyjne. W wielu firmach takie urządzenia mają wbudowaną tę technologię w skanerze. Działa to w ten sposób, że kładziemy na tacce kartkę papieru, klikamy „skanuj” i otrzymujemy na maila bądź do współdzielonego folderu plik, który jest plikiem czytelnym. Po otwarciu tego pliku mamy już możliwość zaznaczenia treści, skopiowania fragmentu lub napisania komentarza.

Sebastian Grzesik: Dokładnie tak. Bardzo często spotykamy się z takimi rozwiązaniami w firmach i innych organizacjach, które nas otaczają. To jest dość popularne rozwiązanie, np. przy zawieraniu umów z różnymi operatorami mediów.

Mateusz Tajak: Mogę zaryzykować stwierdzenie, że każdy z nas się spotkał z tą technologią, natomiast nie każdy jest tego świadomy. Kolejnym, trochę bardziej zaawansowanym rodzajem OCR, jest oprogramowanie komputerowe w postaci aplikacji zainstalowanej na komputerze lub serwerze, do której możemy wysłać zeskanowany plik, który jest nieczytelny. Oprogramowanie sprawia jednak, że dane z tego dokumentu również mogą być odczytywane. W tym przypadku jednak mamy więcej możliwości konfiguracyjnych: możemy wysyłać wielostronicowe dokumenty, bo OCR jest bardziej świadomy tego, co skanujemy i jakie dane przetwarzamy. Jest to zatem druga iteracja, którą często można spotkać w kontekście OCR.

Sebastian Grzesik: Jeśli dobrze kojarzę, to lata 90. XX wieku i rok 2000 są początkiem dla takiego oprogramowania. Pamiętam, że chodziłem chyba do gimnazjum czy liceum i korzystałem ze skanera oraz bardzo podstawowego oprogramowania. Wtedy skanowałem na przykład fragment encyklopedii i skaner sczytywał cały obraz, a później oprogramowanie zidentyfikowało znaki. Tego typu rozwiązanie było jednak niedoskonałe. Zdarzało się, że „ć” albo inne polskie nie były ładnie zidentyfikowane. Pojawiały się zatem trywialne błędy, podobne do literówek. Nie zmienia to jednak faktu, że OCR był już dość powszechny w latach dziewięćdziesiątych i dwutysięcznych.

Mateusz Tajak: Tak, to był dokładnie ten okres. Natomiast teraz producenci OCR dodają małą literkę „i” z przodu, która sugeruje, że mamy do czynienia z intelligence OCR. Oznacza to tyle, że firmy podchodzą do tematu już bardziej poważnie i nie kupują drukarki, która ma tylko drukować tekst. Teraz spotykamy się z bardziej przemyślanymi wdrożeniami, bo urządzenia są bardziej świadome przetwarzanych danych. Przykładem może być oprogramowanie, które rozpoznaje, że skanuje fakturę i wie, jakich danych powinno szukać w trakcie skanowania, jak na przykład tytułu czy danych kontrahenta, itp. Dodatkowo takie oprogramowanie jest w stanie zweryfikować poprawność danych na dokumencie z bazą, która została wcześniej stworzona w systemie ERP.

Sebastian Grzesik: A jak myślisz, dlaczego technologia OCR tak nagle się rozwinęła od czytania pojedynczych znaków do momentu interpretacji poszczególnych tekstów?

Mateusz Tajak: Wszystko wynika wprost z potrzeb biznesowych. Żyjemy w czasach, w których firmy bardzo szybko rozwijają się i rosną organizacyjnie...

Sebastian Grzesik: Chodzi mi tutaj jednak o coś innego. Wydaje mi się, że różnica pomiędzy tym, co było w latach dziewięćdziesiątych i dwutysięcznych a tym, co jest teraz, wynika z wykładniczego przyrostu technologicznego hardware’u, który skanuje oraz software'u, który interpretuje. Chyba bardzo dużo się zmieniło w możliwościach obliczeniowych na przestrzeni ostatnich 20 lat.

Mateusz Tajak: Jednak nie jestem pewny, jaki to ma wpływ na OCR. Dlaczego jednak firmy coraz bardziej kładą nacisk na rozwój tej technologii? Według mnie jest to mocno powiązane ze zwiększającą się skalą dokumentów, które muszą być miesięcznie przetworzone. To wszystko wymaga, aby OCR był inteligentny. Chodzi o to, aby faktycznie uprościć pracę i dostosować OCR do poziomu, że dane są nie tylko odczytywane, ale też odpowiednio interpretowane. System powinien wiedzieć, czy konkretna dana jest NIP-em, numerem konta czy adresem. Co więcej, dane powinny być dodatkowo weryfikowane, aby uniknąć sytuacji, kiedy pieniądze za daną fakturę są przelewane na błędne konto. To jest kolejna iteracja tej technologii. Doskonałym przykładem w tym obszarze może być firma ABBYY, która jest światowym liderem rozwiązań OCR. Ich flagowym produktem jest ABBYY FlexiCapture for Invoices, czyli inteligentny OCR, który problemu może być obsługiwany przez osoby biznesowe, a nie przez osoby z IT. To znacznie ułatwia operacyjność i obsługę tego typu rozwiązań. To wszystko z kolei przekłada się na automatyzację i usprawnienie procesów. Chodzi o to, że większa ilość dokumentów może być realizowana przez mniejszą ilość osób albo dana liczba pracowników może przetworzyć więcej dokumentów.

Idąc dalej w naszym wątku, warto wspomnieć o tym, że już kilka lat temu pojawiło się pojęcie Robotic Text Automation. Jest to kolejna ewolucja w technologii OCR, która jest połączeniem tego rozwiązania z Robotic Process Automation. To, co charakteryzuje roboty, to możliwość podejmowania decyzji na podstawie schematów czy wcześniej ustalonych reguł, których mogą się uczyć dzięki Artificial Intelligence czy Machine Learning. Przykładem tutaj może być polska aplikacja AI, która nie tylko rozpoznaje tekst optycznie i odczytuje znaki, ale też analizuje tekst semantycznie i weryfikuje, jakie dane są w dokumencie. Zautomatyzowanie odczytywania tekstu może być na jeszcze wyższym poziomie i zbliżone do analizy przez człowieka. Tak naprawdę w przyszłości, takie aplikacje będą mogły same się uczyć siebie nawzajem, a potem poprawiać i jeszcze dokładniej weryfikować poprawność danych. Sztuczna inteligencja na pewno jest narzędziem, które może pomóc w jeszcze większej automatyzacji odczytywania tekstów.

Teraz przejdźmy do rozwiązań OCR od strony praktycznej. Jak powiedzieliśmy wcześniej, ta technologia może być ukryta w drukarce i nawet nie jesteśmy tego świadomi. Warto tutaj powiedzieć, że OCR jest niewidoczne dla użytkowników. Korzystamy z tych rozwiązań, ale nie jesteśmy świadomi tej technologii. Przykładem może tutaj też być podpisywanie odbioru paczki na tablecie kuriera. Gdybyśmy się dokładnie przyjrzeli, to chwilę po złożeniu podpisu ręcznie pojawia się nazwisko, które zostało odczytane z napisanego wcześniej słowa. Tutaj jest doskonałe miejsce zastosowania technologii OCR. Kojarzysz inne miejsca, w których OCR jest wykorzystywany?

Sebastian Grzesik: Miejscem zastosowania OCR może też być Galeria Mokotów, gdzie przy wjeżdżaniu i wyjeżdżaniu na parking przez bramki jest walidowany tekst z tablicy rejestracyjnej. Na jego podstawie system weryfikuje, czy samochód powinien zostać wypuszczony z parkingu lub nie, czy opłata została uiszczona, czy nie. W Krakowie Galeria Kazimierz też chyba korzysta z tego rodzaju rozwiązania, przynajmniej przy tych czystych tablicach rejestracyjnych. To jest przykład OCR zamieszczonego w pewnym środowisku, ale z tym samym mechanizmem polegającym na rozpoznaniu znaków, które potem można wykorzystać biznesowo.

Mateusz Tajak: Przejdźmy teraz do bardziej oczywistych przykładów zastosowania OCR w biznesie, głównie w back office, gdzie najwięcej dokumentów i danych jest przetwarzanych. Pierwszym miejscem, jakie przychodzi mi na myśl to księgowość, gdzie przetwarzane są faktury. Spotkaliśmy się z jednym klientem, który miesięcznie przetwarzał 17 tys. faktur. Wyobraźcie sobie, że księgowy musi przepisać każdą z tych faktur albo ręcznie i przekształcić dokument z papierowej wersji na elektroniczną albo kopiować poszczególne frazy do edytowalnego pliku. To są ogromne ilości pracy manualnej i powtarzalnej, którą OCR pomoże zautomatyzować. Może to działać tak, że faktura przychodzi na dany adres mailowy i od razu jest automatycznie pobierana oraz zeskanowane za pomocą OCR. Pola, które wcześniej zostały skonfigurowane, są odczytywane i mogą zostać wyeksportowane do systemu ERP jako predekretowany dokument, który później wystarczy jedynie przejrzeć i zaakceptować bez konieczności przepisywania danych. Wyjątkiem może być sytuacja, kiedy system nie odczyta czegoś. Wówczas zostaniemy o tym poinformowani i poproszeni o skonfigurowanie konkretnego pola.

Sebastian Grzesik: Dodałbym tutaj jeszcze przed krok, bo faktura niekoniecznie musi trafiać na skrzynkę mailową. Dokument może też być dostarczony do skrzynki pocztowej i wówczas dochodzi krok skanowania faktury. Chcę tutaj podkreślić, że mogą być różne rodzaje inputów. Przykładem branży, w której firmy borykają się z problemem dużej ilości dokumentów z różnych źródeł i w różnej formie jest budownictwo. Zakładam, że właśnie tam przy dużej ilości podwykonawców i sub kontraktorów, dość sporej granulacji półproduktów tworzących finalną konstrukcję, dokumenty niemal fruwają i tworzą silosy, najczęściej jeszcze papierowe.

Mateusz Tajak: Faktycznie zdarza nam się pracować z klientami z branży budowlanej, gdzie firma prowadząca inwestycje ma biura budowy w różnych miejscach, gdzie podwykonawcy dostarczają faktury albo mailowo, albo papierowo, albo do centrali, albo do kierownika budowy, który potem przekazuje je do sekretariatu. Zdarza się tak, że te faktury giną, bo nie ma nad nimi odpowiedniej kontroli. Takie sytuacje powodują ogromne koszty związane z wyjaśnianiem błędów.

Sebastian Grzesik: Nie chcę kusić naszych słuchaczy, ale nie mogę się powstrzymać. Wyobrażam sobie kierownika budowy skanującego fakturę telefonem, do której od razu pisany jest komentarz. Dodatkowo niemal w tym samym momencie może być zrobione zdjęcie towaru, który przyszedł razem z fakturą, dzięki czemu łatwo jest wszystko ze sobą powiązać. Mamy tutaj biznesowy element, czyli potwierdzenie otrzymania towaru wraz z odpowiednim dokumentem potwierdzającym płatność. Wyobrażam sobie, że dzięki OCR życie firmy może być o wiele łatwiejsze, kiedy wyeliminuje się te latające dokumenty.

Mateusz Tajak: Dlatego właśnie słyszymy, że działy controllingowe w firmach budowlanych uwielbiają rozwiązania OCR. Dzięki tej technologii nie trzeba już szukać faktur pasujących do danego zamówienia. Zamiast tego osoba będąca na budowie nawet 300 km od centrali jest w stanie potwierdzić, że przyjechało 30 ton piasku, który zostało wcześniej zamówionych. To wszystko na pewno ułatwi codzienną pracę.

Podam jeszcze inny przykład, z którym często się spotykamy. Chodzi tutaj o handlowców, czyli pracowników terenowych, którzy otrzymują różne paragony: za parkowanie, za wjechanie do strefy, czy za obiad z klientem. Tego typu paragonów może się uzbierać nawet kilka w ciągu dnia, tygodniowo będzie ich kilkadziesiąt a miesięcznie nawet kilkaset. Spotykaliśmy się z sytuacjami, kiedy pod koniec miesiąca handlowiec przychodził z plikiem zeskanowanych paragonów, które po tak długim czasie było ciężko przypisać do konkretnych wydatków. Wykorzystując aplikację z technologią OCR, paragony mogłyby być skanowane za pomocą aparatu w telefonie od razu po ich otrzymaniu. Wówczas są one na bieżąco przechowywane na serwerze w systemie obiegu dokumentów. Tak naprawdę bardzo dużo systemów takie rozwiązania posiada, jednak klienci z nich nie korzystają. Jestem pewny, że w systemie SAP jest taki moduł, ale ludzie o nim nie wiedzą i nie wykorzystują tej funkcjonalności. Często też nie ma świadomości, czym jest technologia OCR i po prostu się nią nie posługują. Idąc dalej, przykładem mogą być organizacje, w których zawierana jest bardzo duża liczba umów, takich jak firmy ubezpieczeniowe czy banki, czyli miejsca, gdzie mamy bardzo dużo formularzy, ale ze względu na prawo nie jesteśmy w stanie wszystkiego zdigitalizować. Ludzie wciąż muszą mieć możliwość przyjścia na przykład do banku, wypełnienia formularza ręcznie i pozostawienia dokumentu w okienku. W takich miejscach mamy zatem ustrukturyzowane dokumenty i możemy zastosować OCR do digitalizacji dokumentów. Miejsc, w których można spotkać technologię OCR, jest naprawdę dużo. Podsumowując, dla kogo według Ciebie jest OCR?

Sebastian Grzesik: Przede wszystkim OCR jest dla organizacji, które mają bardzo dużą ilość dokumentów, głównie papierowych, ale niekoniecznie tylko takich. Po drugie, technologia ta powinna być wykorzystywana przez firmy korzystające z dużej ilości dokumentów i jest to niezbędne, aby sprawnie funkcjonować pod kątem biznesowym. Po trzecie, OCR powinno być stosowane ze względów bezpieczeństwa. My, Krakowianie, pamiętamy pożar archiwum miasta, który wydarzył się kilka miesięcy temu. Gdyby wszystkie dokumenty były scyfryzowane i były przechowywane w chmurze, to taka sytuacja nie byłaby problemem. Dlatego ze względu bezpieczeństwa też warto zainteresować się tę technologię. Jest to prozaiczny powód, ale wielu firmom takie myślenie i działanie już ułatwiły znacząco życie.

Mateusz Tajak: Dodam jeszcze, że OCR może być wykorzystywane w tych firmach, które chcą poprawić doświadczenia swoich pracowników w codziennej pracy. Możliwie najszybsze pozbycie się dokumentu w procesie obsługi dokumentu jest ogromnym zwiększeniem komfortu pracy. Kiedy nie trzeba pilnować dokumentu, przemieszczać się z nim z jednego pokoju do drugiego, zbierać podpisy, to pracownicy po prostu mają łatwiej w pracy. Ten aspekt jest szczególnie istotny w kontekście pracy zdalnej, kiedy fizyczna możliwość przekazania dokumentu jest ograniczona. Dziś spotykamy się z sytuacjami, że biurko jednej Pani księgowej jest oddalone o kilkadziesiąt kilometrów od biurka drugiej Pani księgowej, bo obie Panie pracują z domu. Podsumowując, OCR może po prostu zwiększyć komfort pracowników w codziennej pracy. Już wcześniej wspominałem o handlowcach, którzy mogliby mieć możliwość skanowania dokumentów bezpośrednio ze swoich telefonów. No i to, o czym Ty wspomniałeś, czyli możliwie jak najszybsze przekierowanie dokumentu do formy cyfrowej zdecydowanie ułatwia codzienną pracę.

Kończąc ten wątek, to chcielibyśmy Was zaprosić na konsultacje. Gdybyście chcieli porozmawiać na temat rozwiązań OCR, dowiedzieć się, czy w Waszej organizacji ta technologia mogłaby coś usprawnić, to zapraszamy do kontaktu. Chętnie porozmawiamy na ten temat i zweryfikować czy OCR ma sens w Waszej firmie.

Dziękujemy za dzisiejszą pogadankę i do usłyszenia w kolejnych odcinkach.

Sebastian Grzesik: Dzięki i do usłyszenia.

Zobacz 5 przykładów wdrożenia automatyzacji

Nagranie webinaru

Zobacz nagranie