Der Scanner liest die Seite, die OCR wertet sie aus.
Damit hast du aber nur den halben Weg geschafft. Selbst die beste OCR erzeugt vielfach Fehler, gerade bei Handschriften. Dazu ist bei Formularen das Problem, dass nicht alles genau im Kästchen steht, sondern gerne auch mal zwischendrin.
Die Fehler lassen sich bei Text noch relativ beherrschbar korrigieren (da Information in Worten redundant codiert ist), bei Zahlen ist das unmöglich. Wir hatten in der alten Firma einige Projekte aus dem Umfeld Posteingangsautomatisierung. Die OCR hat überhaupt erst die Rechtfertigung dafür gebracht, die Kundendatenbank fehlertolerant abzugleichen. Und trotz des ganzen Aufwands geht immer noch einiges vom Posteingang in die manuelle Nachbearbeitung. Reden die Firmen natürlich nicht gerne von