mlaco.sk
Naše cykloturistické výlety
- zážitky z ciest bicyklom doma i v zahraničí




Bicyklista na tento deň: Ondro
Ondro



Náhodný vtip:
Pozri sa tam na toho chalana, aké má krivé nohy.
No čo, to je môj syn.
Ééé, ale mu pasujú beťárovi.

ďalší vtip

Vyber si kategóriu:
vseobecné, blondínky, počítače, sexuálne, ženy, škola, alkohol, hlody, múdrosti, zaujímavosti, všetky










Dnes je piatok, 27. decembra 2024.  Meniny má Filoména


Úlohou tejto seminárnej práce je štatisticky analyzovať návštevnosť internetového servera www.masla.sk. Práca na predmet Štatistika B.
Na tejto stránke sa nenachádzajú tabuľky, tie sú zozipovanom worde.
05/2000

[ZIP]
105 kb

Návštevnosť servera

Úvod

Úlohou tejto seminárnej práce je štatisticky analyzovať návštevnosť 
internetového servera www.masla.sk. Tento server je zameraný hlavne na 
vyhľadávanie e-mailových adries ľudí v Martine, ako aj na iných serveroch, 
ktoré sú ochotné poskytnúť tieto informácie. Umožňuje vyhľadávanie v FTP 
archívoch umiestnených na sieti SANET. Ďalšou zaujímavou funkciou je 
počítadlo prístupov niektorých iných serveroch.

Zaznamenávané informácie o prístupoch za celú dobu sledovania prístupov 
na server www.masla.sk (sú uvedené v zdrojových tabuľkách na konci práce) je 
potrebné podrobnejšie analyzovať, aby vlastníci servera mali konkrétnejší 
prehľad, čo sa s návštevnosťou ich servera deje.


Analýza prístupov v čase 

V zdrojovej tabuľke č. 1 sa nachádzajú zdrojové údaje, z ktorých vychádza 
nasledovná analýza. Ide o denné údaje o prístupoch na server za posledných 70 
dní. Za prístupy budeme považovať hodnotu Pagaviews. 

Niektoré elementárne charakteristiky sa nachádzajú vo výpočtovej 
tabuľke č. 1.
Najmenší počet prístupov bol dňa 24.4.2000 s 130 prístupami, a naopak 
najúspešnejčí bol 3. apríl s 914 prístupmi, čo je rozdiel 784 prístupov.
Najväčší denný rast bol 22. marca 2000 (22), keď bol počet prístupov o 
152% vyšší oproti dňu predtým.
Za posledných 70 dní prístup priemerne klesali o približne 4 prístupov 
denne, čo znamená denný pokles 0,99-krát.

Najvhodnejšie vystihuje časový priebeh kvadratická funkcia, lebo pri nej je 
reziduálny rozptyl najmenší (22075.2). Lineárna funkcia sa jej pribižuje.


Data: SERVER.dn_prist                                               Percent: 100
Forecast summary                   M.E.    M.S.E.     M.A.E.  M.A.P.E.    M.P.E.
--------------------------------------------------------------------------------
544.216-4.03064*T                0.00000   22096.4   114.329   34.4256  -15.2350
554.965-4.92637*T+0.012616*T^2   0.00000   22075.2   113.714   34.1322  -15.1777
EXP(6.28108-0.0106317*T)         26.2436   22786.9   112.513   31.4526  -7.37701
EXP(5.83088+1.05403/T)           29.7933   27225.2   127.942   35.5420  -8.72873


y = 554.97 - 4.93*t + 0.013*t2

Z toho vyplýva že predpokladaný počet prístupov o mesiac, 11.júna 2000 
(t=102), je 188 prístupov.

Ako aj z obrázku 1 vyplýva, počet denných prístupov má za posledných 70 
dní klesajúci trend. 
Je to užitočná informácia pre správcov serveru. Ak chcú znova zvýšiť svoju 
popularitu, musia priniesť v budúcom čase niečo nové, lebo záujem 
internetových surferov postupne opadáva.

Obrázok 1, kvadratický odhad trendu časového radu
Tabuľka 1, elementárne charakteristiky časového radu prístupov Návštevnosť a množstvo údajov Následne ide o skúmanie, či existuje závislosť medzi počtom prístupov na server a množstvom prenesených údajov. Za počet prístupov budeme považovať hodnotu Pageviews zo zdrojovej tabuľky č. 2, kde sú uvedené hodnoty za posledných 30 mesiacov. Vtedy sa začali prístupy evidovať. Hodnota Pageviews tomto prípade najlepšie vystihuje počet zobrazených internetových stránok zo servera www.masla.sk. Množstvo prenesených údajov je v tabuľke zachytené pod hlavičkou Kbytes. Najprv treba zvoliť vhodnú regresnú funkciu, ktorá najlepšie vystihuje závislosť. Porovnaním koeficientu determinácie pri rôznych modeloch zistíme, že závislosť celkom dobre vystihuje lineárna funkcia, ktorá vystihuje priebeh závislosti až na 85 percent. Okrem toho je vhodná aj pre jej jednoduchú interpretáciu. Významnosť lineárneho regresného modelu je na hladine významnosti 0,05 potvrdená tým, že tabuľková hodnota fischerovho rozdelenia je menšia ako testovacia charakteristika F. / 154.9 > 4.197 = F(0.95,1,28) / Regression Analysis - Linear model: Y = a+bX --------------------------------------------------------------------------- Dependent variable: SERVER.kbytes Independent variable: SERVER.pageviews --------------------------------------------------------------------------- Standard T Prob. Parameter Estimate Error Value Level --------------------------------------------------------------------------- Intercept -16774.9 31318.9 -0.535616 .59645 Slope 43.8173 3.52065 12.4458 .00000 --------------------------------------------------------------------------- Analysis of Variance --------------------------------------------------------------------------- Source Sum of Squares Df Mean Square F-Ratio Prob. Level Model 1.4744E0012 1 1.4744E0012 1.549E0002 .00000 Residual 2.6651E0011 28 9.5183E0009 --------------------------------------------------------------------------- Total (Corr.) 1.7409E0012 29 Correlation Coefficient = 0.920277 R-squared = 84.69 percent Stnd. Error of Est. = 97561.8 O počítačového výstupu vidieť, že korelačný koeficient je na úrovni 0,92. To značí veľmi silnú kladnú závislosť preneseného objemu dát od počtu prístupov. y = 43.8173x - 16774.9
Obrázok 2, závislosť množstva dát od počtu prístupov
Z uvedeného vyplýva, že každý ďalší prístup na server znamená v priemere zvýšenie preneseného množstva dát o 43.81 Kb. Samotná lokujúca konštanta modelu v tomto prípade nemá vecnú interpretáciu. Dá sa predpokladať, že keby bol mesačný počet prístupov 30000, prenieslo by sa 1297744 Kb dát, teda približne 1,3 Gigabajtov. So spoľahlivosťou 98% sa dá tvrdiť že ak sa zvýši počet prístupov o jeden, tak narastie množstvo prenesených dát v intervale od 35,1 Kb do 52,5 Kb. 98 percent confidence intervals for coefficient estimates -------------------------------------------------------------------------------- Estimate Standard error Lower Limit Upper Limit CONSTANT -16774.9 31318.9 -94059.0 60509.2 SERVER.pageviews 43.8173 3.52065 35.1296 52.5051 -------------------------------------------------------------------------------- A s pravdepodobnosťou 98% môžeme tiež tvrdiť, že ak budú mesačné prístupy na úrovni 4000, tak sa množstvo dát bude nachádzať v intervale od 106 Mb do 211 Mb. 98% 98% Confidence Prediction Ind. variables Predictions lower upper lower upper SERVER.pagev -------------------------------------------------------------------------------- 158494.35748 105935.87464 211052.84032 -87924.42056 404913.13552 4000 Závislosť browsera a rozlíšenia obrazovky K dispozícii sú v tabuľke 2 údaje o používateľoch internetu pristupujúcich na server www.masla.sk. Niektorí používajú na prezeranie internetu program Microsoft Internet Explorer (IE) a iní majú radšej konkurenčný produkt Netscape Navigator (NN). Rozlíšenie obrazovky zväčša súvisí s veľkosťou monitora. Ide o prevládajúci štandard 800x600 bodov a o väčšie, typické pre 17" monitory - 1024x768 bodov. Rozlíšenie obrazovky znamená, koľko bodov sa v danom režime monitora "zmestí" na obrazovku v horizontálnom a vertikálnom smere. Režim môže užívateľ meniť. Zjednodušene povedané, sú pri vyššom rozlíšení písmenka menšie. Preto sa väčšie rozlíšenia používajú najmä pri väčších monitoroch. Úlohou je zistiť, či existuje medzi zvoleným rozlíšením a používaným programom závislosť. Tieto informácie sú cenné pre tvorcov internetových stránok, ktorí musia robiť stránky dobre zobraziteľné s programami a zároveň aj pod oboma rozlíšeniami. Tabuľka 2, prehľad užívateľmi zvoleného browsera a rozlíšenia Na základe výsledkov je oprávnené tvrdenie, že s dostatočnou pravdepodobnosťou 95% nie je závislosť medzi zvoleným programom a rozlíšením. Je to preto, že vypočítaná štvorcová kontingencia (2.94264) je stále menšia ako tabuľková hodnota H2(0.95,1) rozdelenia (3.842). Summary Statistics for Contingency Tables --------------------------------------------------------------------- Chi-square D.F. Significance --------------------------------------------------------------------- 2.94264 1 0.0862694 2.81745 1 0.0932442 with Yates correction With rows With columns Statistic Symmetric dependent dependent --------------------------------------------------------------------- Lambda 0.00000 0.00000 0.00000 Uncertainty Coeff. 0.00044 0.00042 0.00045 Somer's D -0.02098 -0.02217 -0.01991 Koefiecient korelácie (Somer's D) tiež poukazuje na veľmi nevýznamnú závislosť.




www.mlaco.sk  ·  © Marek Laco 1998-2024  ·  mlaco@mlaco.sk