Matematické Fórum

Nevíte-li si rady s jakýmkoliv matematickým problémem, toto místo je pro vás jako dělané.

Nástěnka
22. 8. 2021 (L) Přecházíme zpět na doménu forum.matweb.cz!
04.11.2016 (Jel.) Čtete, prosím, před vložení dotazu, děkuji!
23.10.2013 (Jel.) Zkuste před zadáním dotazu použít některý z online-nástrojů, konzultovat použití můžete v sekci CAS.

Nejste přihlášen(a). Přihlásit

#1 22. 10. 2010 19:22

Doxxik
Příspěvky: 856
Reputace:   14 
 

OCR matematických textů

Zdravím,

předně - wow, pěkná funkce - jak jsem v nadpise nechal jen OCR, že to doplním později, tak na mě začala stránka hnedka pořvávat :) Skvělá práce (ať už to má na svědomí kdokoli), snad ubude těch Claps-Lock-4-Ever uživatelů :)

a nyní k mému dotazu:
Tak se mi na počítač dostali nějaké texty - jsou scanované z papírových předloh (tištěných) a jednotlivé scany (celkem slušné kvality) jsou pospojované do souboru pdf. Jelikož se jedná o hromadu obrázků, špatně se v tom vyhledává (třeba na funkci Ctrl+F mohu rovnou zapomenout) atp., proto bych rád převedl obrázky na text (lépe řečeno - vyextrahoval text z obrázků). Máte s tím někdo zkušenosti?

Trochu jsem nad tím bádal a narazil jsem na problém. Existují programy, které extrakci zvládnou, ale mají "ale".. Například:

ABBYY FineReader (10, ..)
celkem pěkný prográmek; v shareware verzi je na zkoušku cca 50 stránek
+ dokáže celkem spolehlivě rozpoznat (dlouhé) texty
+ podporuje češtinu /rozuměj - ne jen v menu, tam je mi to jedno; dokáže rozpoznávat české texty/
- nerozpozná většinu matematických symbolů

pak jsem narazil na:
InftyReader
software vyvíjený někým (tuším) z Japonska; určen k rozpoznávání matem. textů
+ dokáže rozpoznávat matematické symboly
- nedokáže pracovat s češtinou /v nabídce je pouze angličtina a japonština/


takže stále  bez výsledku.. Pak jsem také narazil na projekt dml-cz /česká digitální matematická knihovna/ - v nějaké diplomové práci zabývající se mj. dml-cz a digitalizací - bylo popsáno, že při digitalizaci používali jakýsi prográmek kombinující oba dva výše uvedené (plus další podpůrné skripty.. atd). Žel tento software není přístupný /nikde jsem na něj alespoň nenarazil/. Jediná má naděje spočívá v tom, že projekt dml-cz se rozběhl někdy v roce 2006, tedy před téměř pěti lety, a od té doby se mohl vyskytnout nástroj řešící mé trable..


Takže - nevíte, jak na to? Jak z nascanovaných textů /nemám přístup k verzi, ze které se to tisklo/ text vyextrahovat?


Díky, Doxxik


Maturita 2010  (trailer) - R.I.P.

Offline

 

Zápatí

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson