Nevíte-li si rady s jakýmkoliv matematickým problémem, toto místo je pro vás jako dělané.
Nástěnka
❗22. 8. 2021 (L) Přecházíme zpět na doménu forum.matweb.cz!
❗04.11.2016 (Jel.) Čtete, prosím, před vložení dotazu, děkuji!
❗23.10.2013 (Jel.) Zkuste před zadáním dotazu použít některý z online-nástrojů, konzultovat použití můžete v sekci CAS.
Nejste přihlášen(a). Přihlásit
Zdravím,
mám prosbu, zda by mi někdo poradil jak na tuto úlohu.
Mám napsat program, který dostane dva texty - jeden v českém jazyce, jeden v anglickém jazyce, přičemž tyto texty jsou si překladem, a z těchto dvou textů vytvořit anglicko-český "slovník". Tedy vytvořit odpovídající si dvojice slov, která se v textech vyskytují.
Já bych postupoval tak, že bych si nejprve odstranil všechny členy (vlastní význam nemají),
pak si zjistit počty výskytů slov v každém textu a pokud najdu 2 slova (jedno české, jedno anglické) taková, že frekvence každého výrazně převyšuje frekvence všech ostatních slov v textu, označil bych tato slova za ekvivalentní.
Dále mě napadlo, že pokud najdu dvě anglické věty, které mají jedno společné slovo a na odpovídajícím místě v českém textu také dvě věty které mají společné jedno slovo, budou tato slova nejspíš ekvivalentní.
Ale dál mě již nenapadá nic, toto jsou spíše jen střípky, na nějaký ucelený algoritmus nemůžu přijít.
Poradil by mi prosím někdo?
Děkuji všem za radu
Offline

To první může být dost zavádějící, v angličtině může např. převládnout of (http://www.duboislc.org/EducationWatch/ … Words.html), neboť se používá jako pádová předložka, v českém překladu se vynechává.
Zkusil bych každému slovu přiřadit "signaturu" -- posloupnost nul a jedniček, jednička je na i-té pozici <=> slovo je v i-té větě. Pokud najdeme dvojici slov takovou, že mají stejnou signaturu, jedno je české, druhé anglické a žádné jiné slovo stejnou signaturu nemá, označíme je za ekvivalentní.
Místo stejných signatur můžeme zkusit akceptovat i podobné signatury.
Je to úloha do školy? Jaký je očekávaný rozsah?
Offline