Nevíte-li si rady s jakýmkoliv matematickým problémem, toto místo je pro vás jako dělané.
Nástěnka
❗22. 8. 2021 (L) Přecházíme zpět na doménu forum.matweb.cz!
❗04.11.2016 (Jel.) Čtete, prosím, před vložení dotazu, děkuji!
❗23.10.2013 (Jel.) Zkuste před zadáním dotazu použít některý z online-nástrojů, konzultovat použití můžete v sekci CAS.
Nejste přihlášen(a). Přihlásit
Stránky: 1
V rámci vymýšlení systému na řízení přepravy zásilek, který mám jako zábavu, jsem přišel na zadání následující úlohy.
Je hra, kterou hraje jeden hráč. Hra má "kola" a každé kolo má svojí herní dobu.
Během herní doby jednotlivých kol padají s různou četností výhry různých hodnot.
Hráč ví, jaká je relativní četnost jednotlivých výher a jak jsou vysoké. Výhry se nevyčerpávají, stejná výhra může padnout během jednoho kola vícekrát. Hráč vždy ví, kolik času do konce kola mu zbývá.
Pokud padne výhra, musí se hráč rozhodnout, jestli si jí nechá a tím kolo končí, nebo jestli doufá ve zbývajícím času ve vyšší výhru a hraje dál. Poté co vezme výhru, nebo mu uběhne čas a nedosáhne žádné výhry, začíná další kolo.
Hráč tedy nekončí po jednom kole, ale hráč jich hraje tolik, že na výsledku jednoho kola mu nezáleží. Jeho cíl ve hře je co nejvyšší průměrná výhra na jedno kolo. (ne na čas strávený hrou).
Na úplně první pohled mi to přišlo jako úloha, která bude mít nějaké jednoduché řešení. Hráč ví s jakou pravděpodobností padají během kol výhry. Když mu padne nějaká výhra, tak se má rozhodnout jestli výhru vezme a kolo končí, nebo výhru zahodí a zkusí v kole pokračovat. Jeho cíl je co nejvyšší průměrná výhra na jedno kolo.
Jak správně (ve smyslu cíle) rozhodnout, zda výhru která padla vzít a nebo nevzít?
Po několika dnech, co o úloze přemýšlím už mi jednoduchá nepřijde a to ani trochu.
Umíte jí někdo vyřešit? Nebo na ní máte nějaký názor, či k ní máte poznámku, postřeh?
A protože jsem už jí věnoval asi 10 hodin přemýšlení a bez reálného výsledku, tak nabízím odměnu 1000 Kč za vyřešení. Nevím sice, jak dokážeme, že je to správné řešení, ale pro vyplacení stačí, když se v rámci diskuze na nějakém řešení diskutující shodnou. Pokud někdo řekne, že je to nějaká známá úloha a řešení odkáže, tak má odměnu také, odměna je bezpodmínečná, stačí uvést řešení, které dojde v diskuzi konsensu. První, kdo takové řešení ukáže má odměnu.
Offline
Nemam uplne jasne v tom ako vyhry padaju, tak skusim abstrahovat to co som pochopil.
Ak vieme, ze vyhry
padnu urcite pocas jedneho kola, staci pockat kym padne najvyssia. Takze treba nejaku hustotu pravdepodobnosti
ze padne vyhra v case
(resp.
pravdepodobnost ze padne v danom casovom intervale), taku ze je mozno nenulova pravdepodobnost ze dana vyhra vobec nepadne.
Hlavna otazka je ci tu hustotu pravdepodobnosti pozname. Skusim to najprv popisat vseobecne a potom dosadit konstantnu (s
pravdepodobnostou ze vyhra
vobec nepadne).
Hrac by mal chciet zobrat vyhru
v case
, ak stredna hodnota vyhry v intervale
(
je cas kola) je
. Z definicie strednej hodnoty potom
co mozeme vlastne popisat ako jednu vyhru s vlastnou hustotou pravdepodobnosti (ale toto uz su len nahodne kecy, nemyslim ze to velmi pomoze).
Ak je
(konstantna), tak mame
Rozhodnutie hraca furt zavisi na tom co sa stane, ale pre kazdu vyhru mozeme aspon povedat najvacsi cas
, kedy ju brat este nema zmysel. Aspon toto zatial.
Offline
↑ Bivoj:
Ahoj,
1) Je možných výher, ze kterých se vybírá, konečně nebo nekonečně mnoho?
2) Trvá každý "výhra" ("tah") stejnou dobu? Tj. umíme předem říci, kolik "her" se ještě sehraje než skončí dané kolo?
3) Tím, že jedno kolo skončí dříve (hráč si vezme výhru), znamená to, že se o tuto dobu prodlouží následující kolo?
Díky za info.
Online
Ahoj,
↑ check_drummer:
1) Výher stačí uvažovat konečný počet.
2) Výhry vznikají v kole náhodně s nějakou definovanou průměrnou četností.
Příklad:
Do konce kola zbývá 1 hod. Výhra má průměrnou relativní četnost jednou za hodinu. To znamená, že se může stát, že ještě padne např. 3x, ale nemusí padnout vůbec. Pokud ale odehrajeme dostatečný počet kol, které jsou dlouhé 1 hod. a nebudeme brát žádné výhry(abychom kola předčasně neukončili), tak tato výhra bude padat průměrně jednou za kolo. Některá kola nepadne vůbec, ale může padnout třeba 10x za kolo, pokud tomu náhoda dopřeje.
3) pokud kolo skončí dříve, tak to délku následujícího kola neovlivňuje.
Xellos:
Teď se trochu rozepíšu, abych ukázal, jak je úloha "záludná". Budu to všechno popisovat slovně a budu ukazovat různé zajímavosti, které z téhle na první pohled úplně jednoduché hry vyplývají.
Pokud je výhra jen jedné výše, tak jí musíme vzít vždy, když padne bez ohledu na to jak často padá. Pokud bychom jí nevzali, tak je vždy nějaká pravděpodobnost že už ve zbytku kola nepadne nikdy. Tohle je asi nejjednodušší varianta hry. Tuhle hru (s jednou výší výhry, která má svojí průměrnou četnost padání) umíme rozhodnout a víme jak jí hrát.
Představme si, že máme výhru budeme jí říkat "jednotková", která padá s průměrnou četností 1x za hod., hodnota výhry je 1 a do konce kola zbývá pro zjednodušení jedna hodina.
Jaká je průměrná hodnota výhry? Výhru můžeme vzít v kole nejvýše jednou, protože potom kolo končí. Někdy ale nepadne žádná. Průměrná hodnota výhry na kolo je v tomto případě tedy menší než jedna. Jaká je přesně?
Teď si to zkomplikujme (pořád to je ale jednoduchá varianta hry) a řekněme, že jsou výhry dvě. Jedna nám padla a je to např. 0.7 a řekněme, že tato výhra padá extrémně výjimečně (např. 1 za milion kol) a druhá výhra je ta naše "jednotková". Máme si ponechat 0.7 a nebo jí máme zahodit a čekat že padne naše "jednotková"? (do konce kola zbývá 1 hod.)
("víme" že už nám 0.7 podruhé nepadne, resp. je vidět, že je velmi nepravděpodobné, že by ještě padla. Takže se můžeme soustředit jen na "výtěžnost" výhry, které říkáme "jednotková". Schválně uvádíme takové příklady, aby se nám jednoduše přemýšlelo a nemuseli jsme počítat - příklady jsou volené tak, abychom se mohli rozhodovat ze zkušenosti a nemuseli jsme počítat)
Tenhle příklad je tedy jen jinak napsaná otázka, kterou jsem psal výše. viz. "jaká je průměrná hodnota výhry?"
A pojďme dál a udělejme hru zase o něco složitější, i když pořád s jednoduchým nastavením.
Můžeme se teď ptát dál, co se stane, když máme hru se dvěma výhrami: První bude naše "jednotková" a druhá bude mít nějakou srovnatelnou četnost padání a podobnou hodnotu výhry. Ta druhá (k té naší "jednotkové") bude mít hodnotu např. 2 a četnost padání 0.3 krát za hodinu.
Řekněme, že nám právě padla jednotková výhra, do konce kola zbývá naše oblíbená jedna hodina.
Tady už to začíná být zajímavé. Pokud zahodíme jednotkovou výhru, tak nám ve zbývající hodině může padnout znovu jednotková výhra a může padnout i druhá výhra. To, že nám může padnout ještě znovu stejná (jednotková) výhra nám tedy umožňuje více riskovat, než kdyby mohla padat už jen ta vyšší.
Tady je zajímavé si ukázat dvě "jasné" nastavení hry, která má dvě výhry (kola jsou pořád 1 hod.).
První nastavení vypadá tak, že máme jednotkovou výhru a výhru s hodnotou 2, který padá s četností 0.01 za hod.
Druhé nastavení je jednotková výhra a výhra s hodnotou 2, která padá s četností 100 x za hod.
Na první pohled je "vidět" že pro první nastavení, pokud nám padla jednotková výhra, tak jí musíme vzít a už nečekat, že padne výhra "2". Pro druhé nastavení naopak můžeme, pokud nám zbývá z kola necelá hodina a padla právě jednotková výhra jí zahodit, protože je "vidět" že druhá výhra ještě padne.
Co je zajímavé, že když teď přidáme třetí výhru, která je menší než obě, tak jí nelze z výpočtu rozhodnutí vyřadit.
Pokud totiž do prvního nastavení přidáme třetí výhru s hodnotou 0.999 a četností milionkrát za hod. tak nám tato výhra "zajistí" že můžeme "vesele" riskovat a čekat až skoro do konce kola na druhou výhru, protože nám téměř neustále padá výhra s hodnotou 0.999. Ztrácíme tedy při zahození jednotkové výhry asi 0.001 (berte tyhle počty sportovně, jsou pro představu), ale máme šanci o něco méně než 1/100 na výhru 2.
Teď už je vidět, že jak větší, tak menší výhry oproti té, která zrovna padla ovlivňují naší ochotu výhru zahodit a čekat na lepší.
Tento příklad jsem uvedl proto, aby bylo vidět, že nejde při rozhodnutí o ponechání si, nebo zahození výhry, která právě padla počítat jen s většími výhrami, ale musíme počítat se všemi.
Snad jsem rozvinul úvahy, které mají sloužit k lepšímu pochopení úlohy dostatečně přehledně a že je to zdroj inspirace, pro zamyšlením se nad řešením úlohy.
Na první pohled mi úloha přišla jednoduchá a myslel jsem si, že jí dokážu rychle vyřešit. Jak jsem ale postupně přemýšlel proto jsem se teď rozepsal, aby bylo vidět přibližně jak, tak jsem zjišťoval, že je úloha mnohem složitější, než jsem si myslel.
Offline
Ahoj,
zvol tuto strategii: Padla-li v daném okamžiku výhra s hodnotou v, spočítej střední hodnotu výhry, která může nastat ve zbývajícím čase - ovšem do této střední hodnoty zahrň jen ty výhry, jejichž hodnota je >v.
Tady je ale potřeba blíže specifikovat "střední hodnoty" - a sice i v zadání. Např. to, ž padne výhra průměrně jednou za hodinu - co to znamená? Jsou okamžiky mezi následujícími výhrami velmi blízko k jedné hodině (jednou padne 59 minut po předchozí výhře, jindy za 61 minut) a nebo naopak mají velký rozptyl (jednou je to po 15 minutách a podruhé po 105 minutách). Znalost tohoto rozdělení (pravděpdoobnosti), kdy padne následující výhra po předchozí výhře je dle mého zásadní pro další úvahy (nebo alespoň znalost rozptylu). Např. zbývá-li mi 30min. do konce a zrovna padla výhra, pak je velmi malá pravděpodobnost, že - jedná-li se o první případ - ještě jednou padne, kdežto ve druhém případě je tato pravděpodobnost o mnoho větší - a to může vliv na volbu strategie.
Otázka však je, jak postupovat dále, když výše uvedené rozdělení pravděpodobnosti (resp. roztpyl) neznáme. Lze zvolit nějaký rozumný předpoklad, abychom získali rozumné výsledky? Podle mě to je složité - je to jako bych věděl, že součet dvou čísel je 8 a musím zvolit nějaký rozumný předpoklad týkající se toho, jaká jsou to čísla...
Pokud však máme "nekonečně" mnoho kol, tak můžeme výše uvedené rozdělení pravděpdoobnosti (resp. jeho odhad) zjistit pozorováním doposud padlých výher - a na zákaldě toho postupovat dále.
Myslím, že je to dost náměrů k diskusi, tak budu rád, když se někdo zapojí. O odměnu však zájem nemám, jen o zajímavé přístupy k řešení.
Online

Ahoj,
předpokládám, že pro danou výhru je v každé chvíli stejně pravděpodobné, že padne. Tj. nezáleží na tom, jestli padla před sekundou nebo před hodinou, pravděpodobnost, že padne někdy v příští sekundě, je v obou případech stejná. Za tohoto předpokladu se bude hustota pravděpodobnosti, že daná výhra padne za čas t, odpovídat exponenciálnímu rozdělení s takovým parametrem
, že střední hodnota času do padnutí výhry od předchozího padnutí bude
. Pro i-tou výhru tak je hustota pravděpodobnosti, že od daného okamžiku padne výhra v čase t, rovna
Rozbor budu provádět jen pro infinitezimálně malé změny, takže mě bude zajímat, jaká bude pravděpdobnost, že výhra padne v čase v intervalu
pro nějaké
, které pak pošleme do nuly. Tato pravděpodobnost bude
.
Nyní se budeme zabývat tím, jaká je střední hodnota výhry
, pokud do konce kola zbývá čas t. Předpokládejme, že ta střední hodnota je spojitá funkce (není důvod, aby nějak skákala) a že
(pokud už nezbývá žádný čas, nemůže padnout žádná výhra.
bude rostoucí funkce (čím více času do konce kola zbývá, tím je větší pravděpodobnost, že narazíme na nějakou výhru). Definuju
,
je velikost i-té výhry (výhry čísluju vzestupně podle jejich ceny), celkem je
výher a
. Pro
, kde
platí rovnice
V předchozím výrazu jsem mohl napsat druhý člen jako sumu díky tomu, že jevy, kde padnou dvě výhry, mají zanedbatelnou pravděpodobnost (řádu
), takže v limitě, kterou provedu, vymizí. Díky tomu můžu psát i

Pro
dostaneme
To je jednoduchá diferenciální rovnice, která má pro hodnoty
(s počáteční podmínkou
) řešení
Takže pokud jsme v situaci, že do konce kola zbývá čas
, my jsme právě vyhráli výhru ceny
a máme se rozhodnout, zda si ji ponechat, tak postupujeme následovně:
1. Nastavíme
,
a
.
2. Z rovnice (*) pro aktuální i vypočítáme čas
, kdy
(pokud takové t neexistuje, pak nastavíme
).
3. Pokud
, pak vypočítáme
a porovnáme s
. Pokud
, výhru zahazujeme a čekáme dál, jinak výhru bereme. V obou variantách algoritmus končí.
4. Zvýšíme
o jedna a jdeme na bod 2.
Algoritmus určitě někdy skončí, protože
. O explicitní zapsání výsledku bez algoritmu jsem se nepokoušel, ale to by asi nebylo nic hezkého, pokud to vůbec půjde. Ale algoritmus je to jednoduchý, neměl by být problém to naprogramovat.
Já o odměnu zájem mám, pokud je to správně a ostatní mi to uznají (případně k nejasným částem doplním podrobnosti) :)
Offline

↑ Stýv:
:D
Zatím počkám, jestli mi to uzná někdo jiný zadarmo :D (Zaplacené uznání by asi ani nepůsobilo moc důvěryhodně :D)
Offline
↑ Pavel Brožek:
Ahoj,
nechť p(t) je pravděpodobnost toho, že Ti toto řešení někdo uzná v během času t zadarmo... :-) Ale teď vážně:
1) Vypadá to rozumně - je to rozvedená podobná myšlenka jako sjem měl já - je tam pěkné to, jak jsi se vyhnul zkoumání toho, že výhry padnou současně (v malém inetrvalu), něco podobného jsme kdysi řešili na kursu pravděpodobnosti.
2) Nejsem si jist, zda můžeš předpokládat exponenciální rozdělení - tady měl asi autor upřesnit o jaké výhry přesně jde a tedy zda je tento předpoklad o rozdělení pravděpodobnosti oprávněný.
3) Není mi jasné, co rozumíš pod v(t) - zda opravdu střední hodnotu výhry, pokud do konce zbývá čas t. Pokud ano, pak bys na všech intervalech (ci;c(i+1)) měl uvažovat i výhry cj<ci, protože i ty, dle mého mají na střední hodnoty vliv (přestože jsou menší než hodnoty z tohoto intervalu) - ovšem potom by nám takto získaná hodnota v(t) k ničemu nebyla - takže není to spíše tak, že na každém intervalu (ci;c(i+1)) zkoumáme spíše střední hodnotu výhry za předpokladu, že tato výhra je alespoň ci? Pokud ano, pak sice v(t) bude na tomto intervalu rostoucí a spojitá, ovšem dle mého to nemusí platit na sjednocení těchto intervalů - což může zkomplikovat následující algoritmus volby výhry.
Řekl bych, že Pavel si odměnu zaslouží, pokud sám autor uzná jeho řešení jako správné. :-) I když čím více autorit jeho myšlenku podpoří, tím větší jistotu správnosti získáme.
Online

↑ check_drummer:
Ahoj, díky za posudek :)
(Trochu jsem předchozí příspěvek upravil, měl jsem tam některé věci zbytečné, ale nemění to nic na podstatě, ani to neřeší tvé poznámky.)
1) Díky :)
2) To je skutečně na autorovi, aby to upřesnil. Já ten předpoklad stejné pravděpodobnosti v každou chvíli použil, protože mi přišel nejpřirozenější a nic lepšího k dispozici nebylo, a pokud je nesprávný, pak mám holt asi smůlu :D
3) Ano, pod v(t) skutečně myslím střední hodnotu výhry, pokud do konce zbývá čas t. Nemám ale pocit, že bych výhry menší než
neuvažoval, ony prostě z řešení samy vypadnou. Možná pomůže pro vzájemné pochopení, když víc rozeberu, jak jsem došel k rovnosti
Výraz
v první závorce na pravé straně odpovídá pravděpodobnosti, že za interval délky
nepadne žádná výhra. V tomto případě výhra bude odpovídat střední hodnotě výhry v(t) (tj. za čas
se výhra nezmění) – to souhlasí s tím, že závorku násobím v(t).
Výraz
v první závorce na pravé straně odpovídá pravděpodobnosti, že za interval délky
padne nějaká výhra menší než v(t). tomto případě si výhru nevezmeme a proto očekávaná výhra bude opět v(t) – to souhlasí s tím, že závorku násobím v(t).
Suma
pak už po jednom (protože v každém případě je jiná výhra) řeší možnosti, že padne nějaká větší výhra než je v(t). Pravděpodobnost padnutí j-té výhry je
a očekávaný zisk je
(protože výhru bereme a nehrajeme dál).
Výrazy v první sumě se pěkně odečtou tak, že závislost na nižších výhrách vymizí. :)
Ono by se mohlo zdát, že takhle ty nižší výhry moc neovlivňují řešení. Jenže ono to řešení může být hodně ovlivěné tím, jak se funkce v(t) chová než nabude těch větších hodnot, protože tam ty nižší výhry vstupují do hry.
Např. pro „jednotkovou výhru“ a výhru ceny 0.8, která padá v průměru 10x za hodinu, vypadá graf v(t) takto:
Svislá šedá čára odděluje časy, kdy se vyplatí vzít výhru 0.8 (nalevo od čáry, v(t)<0.8) a časy, kdy se ji vzít nevyplatí (napravo od čáry, v(t)>0.8).
Pro ten samý případ akorát s výhrou ceny 0.8, která padá v průměru 100x za hodinu, vypadá graf takto:
Nižší výhru se tedy v tomto případě vyplatí brát teprve až mnohem blíže konci kola, což bychom očekávali, když padá tak často.
Offline
↑ Pavel Brožek:
Ještě mi není jasné, proč při počítání
provádíš násobení pravděpodobností
a hodnoty
- tedy jaká má smysl součin "pravděpodobnost" krát "střední hodnota na počátku intervalu".
Díky za objasnění.
Online
... ještě je také otázka, kolik kol se hraje - pokud málo, pak by se asi vyplatila větší sázka na jistotu - např. vím-li, že s pravděpodobností jedna milióntina vyhraju sto miliard korun a nebo, že s pravděpodobností jedna desetina vyhraju sto tisíc korun, pak z hlediska střední hodnoty je výhodnější první možnost, ale z hlediska jistoty (bude-li proveden jen malý počet pokusů) ta druhá. Dokonce paradoxně bude méně výhodná než první možnost i možnost, že v každém tahu získám (s pravděpodobností 1) 10tisíc korun (ovšem z dlouhodobého hlediska a nikoli jen při malém počtu pokusů).
Online

↑ check_drummer:
Pro náhodnou veličinu X a jevy A a B, pro které platí
(
je množina všech možných výsledků) a
, platí
kde
a
jsou střední hodnoty, ale už jen v podmnožině výsledků.
Tak v podstatě tohle jsem použil.
Bivoj napsal(a):
Hráč tedy nekončí po jednom kole, ale hráč jich hraje tolik, že na výsledku jednoho kola mu nezáleží. Jeho cíl ve hře je co nejvyšší průměrná výhra na jedno kolo.
Tohle je podle mě celkem jednoznačně napsané, takže bych se nezabýval tím, co je výhodné při malém počtu kol.
Offline
Ahoj,
zkusím rozvést svůj nápad výše:
Očíslujme jako Pavel vzestupně výhry
(i od 1 do n). Nechť padla hodnota výhry
a do konce kola zbývá čas t. Tedy zkoumejme, jaká je střední hodnota
výhry - kde uvažujeme jen ty
pro
, nechť jsou jejich indexy m až n.
Nyní označme
pravdpodobnost toho, že během doby t padne výhra
. Potom tedy střední hodnota výhry
je
. Při výpočtu střední hodnoty výhry
musíme vzít v úvahu, že k této výhře dojde jen v případě, kdy nedojde k výhře
- tedy pravděpodobnost, že (nejvyšší) výhrou bude
je
(tady předpokládám, že padání různých výher jsou nezávislá) a tedy hledaná střední hodnota je
.
Podobně lze postupovat dále a získat
a
. A pokud tedy
, tak výhru
nebereme a v opačném případě ji bereme.
Nyní je nutné zvolit (najít)
- a to buď na základě bližší znalosti hry (jakým způsobem "padají" výhry) a nebo stejně jako Pavel volit exponenciální rozdělení a získat
,
. kde
je střední hodnota padnutí dvou po sobě následujících výher
. (Pozn.: V textu ztotožňuji pojem "výhra" a "výše výhry" - obojí nazývám
- k nedorozumění by nemělo dojít.)
Online
↑ Pavel Brožek:
Díky za objasnění - v tuto chvíli nevidím žádný problematický bod (numerické výpočty jsem nekontroloval, jen "myšlenky"), zkousím o tom ještě o víkendu přemýšlet.
Předpokládáš tedy, že padání jednotlivých výher o různých velikostech je nezávislé, že? (To plyne asi z toho, jak volíš pravděpodobnostní rozdělení.)
Jinak pokud by náhodou nešlo o exponenciální rozdělení, tak svůj postup můžeš zopakovat - ovšem možná se nevyhneš numerické integraci - např. půjde-li o normální rozdělení. To ale na principu řešení nic nemění.
Online
↑ Bivoj:
Ahoj,
potřebovali bychom upřesnit zadání:
1) Jak si lze představit výhry a jejich "padání"? Jde o to, že abychom mohli hry přesněji modelovat, musíme mít o tomto padání nějakou znalost. O jakou jde situaci, když řekneš, že padla výhra? Co je to "výhra"? A co je to její cena? Nejlepší by bylo uvést nějaký typický příklad výher a toho, jak mohou tyto výhry "padnout".
2) Jsou jednotlivé různé výhry nezávislé? Tzn. když padne/nepadne např. výhra č.1, má to vliv na to, kdy padne/nepadne např. výhra č.2? (Odpověď na tuto otázku nejspíš vyplyne z odpovědi na otázku č. 1)
3) Jaké jsou "běžné" časy mezi jednotlivými výhrami? Jsou u jednotlivých výher přibližně stejné a nebo se mohou pro různé výhry lišit i o několik řádů? (Tento pod není pro řešení úplně podstaný, spíš mě zajímá z "praktického" hlediska.)
Online

↑ check_drummer:
Ahoj,
myslím, že už rovnost
není správně (teda pokud dobře rozumím tomu, co je
a
).
Náhodný pokus v této hře odpovídá tomu, že máme danou strategii a hrajeme jedno kolo touto strategií. Získaná výhra je pak náhodná veličina, jejíž střední hodnotu se snažíme určit (a chceme najít takovou strategii, abychom jí maximalizovali). Pokud tomu dobře rozumím, tak
je střední hodnota náhodné veličiny (zvolím označení)
odpovídající tomu, že hrajeme kolo dlouhé
a pokud v tomto kole zvolenou strategií vezmeme i-tou výhru a skončíme, pak
, jinak
. Pak by mělo platit
, kde ale
je pravděpodobnost, že n-tou výhru v kole skutečně vyhrajeme. Ale abychom ji vyhráli, tak nestačí, aby výhra padla, nesmí se také stát to, že by před ní padla jiná výhra, kterou bychom vzali. Kdyby
byla pravděpodobnost toho, že výhra
během doby t padne, pak by to znamenalo, že bychom všechny jiné výhry vždy zahazovali, což určitě není obecně optimální strategie.
Podle mě by to, co píšeš, bylo správné, jen pokud by
bylo infinitezimálně malé, aby se výhry vzájemně neovlivňovaly (tím nemyslím, že by padání výher bylo na sobě závislé, to předpokládám, že není, ale myslím tím, že se výhry vzájemně ovlivňují tím, že když vezmu jednu, už nemůžu vzít jinou). Ale tím bychom se dostali k tomu mému řešení (ono vlastně nějak takhle vzniklo :) ).
Nedokážu si moc představit, jak by se mé řešení dalo upravit na jiné než exponenciální rozdělení. To exponenciální rozdělení totiž využívá toho, že „nemá paměť“, takže můžu výpočet provádět „lokálně“ a dostanu tak diferenciální rovnici. S jiným rozdělením by to asi takhle nešlo.
Offline
↑ Pavel Brožek:
Ahoj, zní to rozumně - máš nějaký protipříklad, kdy moje strategie nezafunguje? Tedy "poradí" hrát dál, ale lepší bude vzít stávající výhru (nebo naopak)?
Online
Ahoj,
díky za příspěvky, výborně se diskuze posunula, odpovídám na otázky:
V každém okamžiku je stejná pravděpodobnost výhry. Jde o exponenciální rozdělení.
Výhry se nijak vzájemně neovlivňují, jsou na sobě zcela nezávislé.
Ovlivňuje se pouze vzetí výhry. Pokud už jednou v kole výhru vezmeme, další už nesmíme i kdyby padaly výhry dál.
Z tohoto pohledu je padání výher na hře nezávislé.
Kolo si můžeme představit jako časové okno, ve kterém smíme hrát a na pozadí kontinuálně probíhá padání výher.
To nic na předchozí diskuzi nemění, je to jen druh pohledu na hru, nemění se tím nic na zadání.
Dejte mi teď několik dní, potřebuju se probrat skrz řešení a pochopit je.
Zatím mi přijde (emotivně / dojmem) Pavlovo řešení jako správné.
Jen v rychlosti, prosím pavle pokud přidáš do simulace k "jednotkové" a 10x za hod. výhra 0.8 ještě 90x za hod. výhru 0.799.., tak graf bude vypadat jako ten druhý (0.8, 100x za hod.). Ve správném řešení by to tak bylo. To je jen jedna z potencionálních zkoušek, která řešení testuje a umíme jí vyhodnotit bez počítání.
Případně pokud bys takovou situaci (přidání této menší výhry k 0.8) popsal z pohledu tvého řešení, tak to bude také výborné a pomůže to pochopení.
Díky ještě jednou za dosavadní příspěvky.
Offline
↑ Pavel Brožek:
Ahoj, přesněji jsem jako s(t) zamýšlel střední hodnotu toho, že během času t padne nějaká výhra větší než
(a nikoli, že ji skutečně zvolím). A nesmím do té střední hodnoty započítat dvě nebo více výher. Ono je jedno jestli v úvahách nepočítám s tím, že padne nějaká výhra větší než
a já ji nevezmu - protože už to samo, že taková výhra padne, znamená, že jsem dosáhl lepšího stavu než výhra
- a jakmile ho dosáhnu, tak se budu opět dále rozhodovat, zda výhru vzít nebo ne.
Ty tedy argumentuješ, že je chybně i případ, kdy existuje jen jediná výhra větší než
(tj. m=n)? Pokud ano, máš na mysli to, že
může padnout velmi zřídka a pokud bude
jen velmi blízko
, pak při větším opakování pokusů bude tato strategie nevýhodná?
Tvůj postup tedy obecně uvažuje pro C i interval (do kteréhpo padne v(t))
, pro který může být
? Pokud ano, tak je to royumné - je nutné uvažovat i strategie s menší hodnotou výhry - což já nedělám (asi chybně).
Online
Ahoj,
přečetl jsem si tuhle diskusi a musím říct, že to pro mě bylo dost poučné čtení. Líbí se mi Pavlovo odvození
pomocí diferenciální rovnice.
Zkoušel jsem ještě jiný způsob, který by mohl být použitelný. Nejprve značení:
1)
... čas do konce kola;
2)
... náhodná proměnná s Poissonovým rozdělením s parametrem
, představující počet výher, které padnou v časovém intervalu délky
. Pro
označíme
;
3)
... nezávislé náhodné proměnné s identickým rozdělením,
je hodnota
-té výhry v intervalu délky
(která opravdu spadne právě tehdy, když
). Předpokládáme
. Označme
.
4)
... nejvyšší výhra, která spadne v intervalu délky
. Položíme
, aby byl ošetřen případ, kdy
. Označíme
.
5) Jako
označíme momentovou vytvářející funkci náhodné proměnné
, tj.
pro všechna reálná
.
Nyní vyjádříme
pomocí
:
,
nyní použijeme skutečnost, že momentová vytvářející funkce náhodné proměnné s Poissonovým rozdělením s parametrem
má tvar
, a tím dostaneme vztah
(*)
.
Bylo by zajímavé, kdyby se podařilo použít (*) k odvození vzorce pro střední hodnotu náhodné proměnné
. To se mi bohužel napodařilo. Ale v některých konkrétních případech, kdy je funkce
hezky zadaná, můžeme spočítat
rovnou na základě (*).
Uvažujme stejné příklady jako Pavel. Tj. nejprve předpokládejme, že padá průměrně 1 jednotková výhra za hodinu a 10 výher v ceně 0,8 = 4/5 za hodinu. Potom
a
,
takže z (*) dostaneme

a následně
.
Graf funkce
vypadá takto:
V případě, že každou hodinu spadne průměrně jedna jednotková výhra a 100 výher v hodnotě 4/5, obdržíme
![kopírovat do textarea $\mathbb{E}[Z_t] = 1 - 4/5 e^{-101t} - 1/5 e^{-t}$](/mathtex/72/7283ce6e3de7287084b39bd32dcd96d8.gif)
a graf vypadá následovně:
Grafy vypadají podobně jako v Pavlově řešení, ale zdá se mi, že na základě těch mých by hráč měl čekat déle, než začne přijímat tu nižší výhru. Tj. vypadá to, že
.
Jako možné vyvětlení mě napadá, že hodnotu
táhnou nahoru případy, kdy ta vyšší výhra spadne až těsně na konci kola a hráč z toho nic mít nebude, protože už si předtím (s vysokou pravděpodobností) vybere nižší výhru. Takže se pak nabízí otázka, zda je použití střední hodnoty
vhodné k určení správné strategie.
Offline

V programu Mathematica jsem sestavil něco, co dokáže najít funkci
(ve zdrojáku je značená G…). Můžete si tam zadat libovolné vstupní hodnoty a vyjede vám to graf funkce
. :)
https://dl.dropboxusercontent.com/u/5906979/Vyhry.nb
↑ check_drummer:
Myslím, že už líp chápu, jak to myslíš. Ale tvoje řešení v případě nějaké výhry vůbec neuvažuje nižší výhry a to je podle mě chyba, proč, to už popsal dřív Bivoj:
Bivoj napsal(a):
Pokud totiž do prvního nastavení přidáme třetí výhru s hodnotou 0.999 a četností milionkrát za hod. tak nám tato výhra "zajistí" že můžeme "vesele" riskovat
Jiný argument – tvoje hodnota
závisí na tom, jakou výhru jsme právě vyhráli. To by neměla.
má přece představovat střední hodnotu výhry po tom, co aktuální výhru zahodíme (proto porovnáváme
s aktuální výhrou). No ale když už výhru zahodíme, tak nezáleží na tom, jaká výhra to byla, naše strategie bude ve všech případech stejná, takže na té zahozené výhře nezávisí a tedy na ní nemůže záviset ani
.
A ještě jinak – tvé rozhodování odpovídá podle mě jiné, malinko pozměněné hře (o které na konci odstavce prohlásím, že má jiné řešení než naše hra a proto tvá strategie neřeší naši hru). Jediný rozdíl je v tom, že pokud v té pozměněné hře padne výhra a ty ji zahodíš, pak se dozvíš (to ti řekne někdo, kdo ví dopředu, jaké výhry v budoucnosti padnou), jaká nejvyšší výhra v daném kole ještě padne. Po zahození výhry je tak rozhodování jasné, jen si počkáš na tu nejvyšší výhru, která má padnout, a tu vezmeš. (To znamená, že v každém kole se rozhoduješ maximálně jednou, při prvním padnutí nějaké výhry, v ostatních případech je braní výhry určeno triviálně.) Přesně tuhle hru by podle mě ideálně řešila tvoje strategie. Ale přijde mi zřejmé, že tahle pozměněná hra je jednodušší než ta, kterou řešíme, protože informaci o tom, jaká nejvyšší výhra padne ve zbytku kola po zahození výhry nemáme a tím očekávaný zisk bude určitě v některých případech menší (ne vždy se nám povede vzít tu nejvyšší výhru, která by padla) a může vést k tomu, že první výhru spíše vezmeme.
check_drummer napsal(a):
Tvůj postup tedy obecně uvažuje pro C i interval (do kteréhpo padne v(t))
, pro který může být
?
Nevím úplně jak to myslíš. Můj postup postupně počítá časy, ve kterých
nabude hodnoty různých
(od nejmenších po největší, je to rostoucí funkce). Pokud jsme ještě ani nedostali hodnotu času, který zbývá do konce kola, a přitom už je
, kde
, pak nemusíme dál počítat a je jasné, že máme výhru zahodit (to jsem výše nepsal, to je jen drobné vylepšení algoritmu). Ale hlavní cíl je vyhodnotit funkci
v hodnotě času
, který zbývá do konce kola a tu hodnotu porovnat s
. Hodnota
může být z libovolného intervalu
.
Bivoj napsal(a):
Jen v rychlosti, prosím pavle pokud přidáš do simulace k "jednotkové" a 10x za hod. výhra 0.8 ještě 90x za hod. výhru 0.799.., tak graf bude vypadat jako ten druhý (0.8, 100x za hod.). Ve správném řešení by to tak bylo. To je jen jedna z potencionálních zkoušek, která řešení testuje a umíme jí vyhodnotit bez počítání.
Můžeš buď zkusit ten skript, co jsem poslal, a hrát si, nebo pokud stačí jen tenhle konkrétní případ, tak ten vyjde skoro k nerozeznání od toho, co jsem posílal výše (použil jsem 0,799). Oranžový graf je ten starý, modrý s šedýma čárama je nový. Aby byl vůbec vidět rozdíl, tak jsem z grafu vyřízl jen zajímavou oblast.
Pokud bych to měl popsat z pohledu mého řešení, tak asi takhle: funkce
bude v oboru hodnot
vypadat prakticky stejně, protože v jejím tvaru (*) se všechny hodnoty změní jen minimálně (díky tomu, že v sumě bude
). Takže
nabude hodnoty
skoro ve stejném čase. Pak následuje interval hodnot
, který je ale velmi úzký a proto ho rostoucí funkce
překoná ve velmi krátkém čase. Čas
, kdy funkce
vstupuje do intervalu hodnot
je tak prakticky stejný jako předtím, tvar funkce (*) je proto také prakticky stejný (už se liší jen v hodnotě
, a proto vypadá skoro stejně jako dřív.
↑ vnpg:
Pěkný způsob výpočtu. :) Ale bohužel počítáš střední hodnotu největší výhry, která padne za časový interval. Nezohledňuješ to, že se někdy musíme rozhodnout vzít z nouze menší výhru, i když by větší ještě padla, kdybychom nechali hráče hrát dál.
Offline
↑ Pavel Brožek:
(Edituji některá nekorektní data)
Ahoj,
konečně jsem měl trochu času nad tím přemýšlet.
1) Proč má strategie není správná: Je to tak, jak píšeš. Chybně jsem totiž předpokládal, že když padne výhra c, tak již dále nemusím uvažovat výhry nižší - ovšem není to pravda, ty mi umožní čekat na výhru vyšší (jak píšeš).
2) (Tento bod obsahuje chybnou edukci - z toho, že padne nižší výhra nemohu usoudit zda padne i výhra vyšší.) Moje strategie je dle mého trochu obecnější - umožňuje (dle mého optimálně) hrát hru, při které nesmím vzít výhru stejnou nebo nižší, která již v daném kole padla - jen je potřeba tu sumu upravit a nezačínat od pn.cn,ale od i takového, že pi.ci je maximální ze všech takových - a dále postupovat analogicky.
3) Sice jsi ukázal, že moje strategie popisuje jinou hru - to ovšem neznamená, že by nemohla být optimální i pro naši hru (víme, že není, ale prováděím obecné úvahy) - např. pokud by byly dvě hry "izomorfní", apod.
Online
Ahoj,
Děkuju Pavlovi za jeho řešení, došel jsem k závěru, že postupu řešení, který navrhl rozumím a je správně.
Mám potvrzení od dvou svých kolegů, kteří s Pavlovým postupem řešení také souhlasí.
Díky Pavle za řešení a spojím se s Tebou přes PM kvůli odměně.
Děkuju check_drummerovi, za významnou pomoc při udržování diskuze, zajímavé příspěvky a dotazy na Pavlovo řešení, které vedly k dalším vysvětlení.
Offline
Stránky: 1