Jak udělat naskenované PDF prohledávatelným (OCR)

OCR naskenovaných dokumentů — optické rozpoznávání znaků (Optical Character Recognition) — je technologie, která převádí obrázky textu na skutečný, prohledávatelný a kopírovatelný text. Pokud jste někdy zkusili hledat slovo v naskenovaném PDF a nedostali žádný výsledek, nebo zkusili zkopírovat text a nic se nestalo, váš dokument potřebuje OCR zpracování.

Co OCR vlastně dělá

Naskenované PDF je v podstatě sbírka obrázků. Každá stránka je fotografie původního papírového dokumentu. Pro váš počítač se neliší od fotky krajiny — žádný „text" v něm není, jen pixely. OCR tyto obrázky analyzuje, rozpozná tvary písmen a přidá na každou stránku neviditelnou textovou vrstvu. Vizuální podoba zůstane stejná, ale nyní můžete text vyhledávat, označovat a kopírovat.

Kdy OCR potřebujete?

Naskenované smlouvy a dohody — udělejte je prohledávatelné, abyste rychle našli konkrétní ustanovení nebo data.
Staré archivní dokumenty — digitalizované papírové záznamy z doby před digitální érou.
Účtenky a faktury — naskenované finanční dokumenty, které musí být prohledávatelné pro účetnictví nebo audit.
Odborné články — starší články z vědeckých časopisů naskenované z tištěných vydání.
Úřední formuláře — naskenované dokumenty, které je třeba indexovat nebo zpracovat digitálně.

Jak OCR nástroj používat

Nahrajte naskenované PDF do nástroje OCR, vyberte jazyk textu ve vašem dokumentu a spusťte zpracování. Nástroj analyzuje každou stránku, rozpozná text a vytvoří nové PDF s vloženou prohledávatelnou textovou vrstvou. Původní obrázky zůstávají nezměněny — výsledek vypadá totožně se vstupem, ale s plnou funkcí vyhledávání textu.

Jazyková podpora

Přesnost OCR závisí do značné míry na správném výběru jazyka. Nástroj podporuje širokou škálu jazyků včetně češtiny, angličtiny, němčiny, francouzštiny, španělštiny a mnoha dalších. Pokud váš dokument obsahuje text ve více jazycích, vyberte hlavní jazyk — engine si obvykle poradí i s vedlejším jazykem, ale přesnost se zlepší, když je hlavní jazyk správně zadán.

Co očekávat od přesnosti

Moderní OCR je pozoruhodně přesné na čistých, dobře naskenovaných dokumentech — typicky nad 95% přesnost na úrovni znaků. Výsledky však ovlivňuje několik faktorů:

Kvalita skenu — vyšší rozlišení (300 DPI a více) přináší lepší výsledky. Skeny v nízkém rozlišení nebo fotografie pořízené pod úhlem budou mít více chyb.
Stav dokumentu — vybledlý text, skvrny, přeložky nebo ruční písmo výrazně snižují přesnost.
Písmo a rozložení — standardní tištěná písma se rozpoznávají dobře. Neobvyklé fonty, velmi malý text nebo složité vícesloupcové rozložení jsou obtížnější.
Kontrast — černý text na bílém pozadí funguje nejlépe. Barevné pozadí nebo nízký kontrast je náročnější.

Stránky, které už text obsahují

Pokud vaše PDF již obsahuje skutečný text (ne naskenované obrázky), OCR nástroj tyto stránky přeskočí. To znamená, že OCR můžete bezpečně spustit na smíšeném dokumentu — stránky, které už jsou textové, nebudou ovlivněny, a textová vrstva se přidá pouze na naskenované stránky.

Po OCR zpracování

Jakmile je váš dokument prohledávatelný, možná ho budete chtít zkomprimovat pro zmenšení velikosti (OCR přidává malé množství dat), nebo použít nástroj Redigování k nalezení a odstranění citlivého textu, který je nyní prohledávatelný. Textová vrstva činí redigování mnohem efektivnějším, protože nástroj nyní může vyhledávat konkrétní slova a fráze.