• Ei tuloksia

Tiedon esitys tietokoneessa

N/A
N/A
Info
Lataa
Protected

Academic year: 2022

Jaa "Tiedon esitys tietokoneessa"

Copied!
50
0
0

Kokoteksti

(1)

Tiedon esitys tietokoneessa

T-110.1100 Johdatus tietoliikenteeseen ja multimediatekniikkaan

kevät 2014

Tiedon esitys tietokoneessa

Jyry Suvilehto

(2)

Luennon sisältö

1. Tiedonsiirron perusteet 2. Tiedon binääriluonne

– AD-muunnos

3. Tekstitiedostot

– ASCII – XML

4. Binääritiedostot

– Esimerkkinä BMP

Vähän väriavaruuksista

(3)

TIEDONSIIRRON PERUSTEET

TIEDONSIIRRON PERUSTEET

(4)

Data ja Informaatio

Data: kuvat, luvut, kirjaimet ilman merkitystä

Informaatio: datan merkityssisältö (ihmisen kasvot, hinta, geenin emäsparijärjestys)

Tieto on ihmisen ymmärrystä informaatiosta (tuote on kallis)

(5)

Tiedon esitys

Tietokoneissa informaatio on esitetty binäärimuodossa

– Joskus binääri on esitettävissä merkkeinä, esim. tekstipohjaiset protokollat

Sama informaatio voi viedä vaihtelevan Sama informaatio voi viedä vaihtelevan

määrän tilaa Häviötön pakkaus

Joskus informaatiota ei pyritä säilyttämään kokonaan Häviöllinen pakkaus

(6)

Tiedon siirto

Tietoliikenteessä yleensä pyritään siirtämään informaatio häviöttömänä Tietokoneille virheetön datasiirto

tarpeellista informaation välittymiseksi

– Ihmisille aina ei – Ihmisille aina ei

Esimerkiksi puhe häiriöisen radioyhteyden yli

– Data saattaa olla korruptoitunutta, mutta viestin informaatiosisältö todennäköisesti menee perille

(7)

Tiedonsiirtomediat

Ohjattu media

– Kuparijohto – Parikaapeli

– Koaksiaalikaapeli

– Massatallennusvälineet

Ohjaamaton media Ohjaamaton media

– Sähkömagneettinen säteily – Painevaihtelut (ääni)

Olennaista:

– Vastaanottajien määrä – Lähetteen ”säteily”

(8)

Bitin siirto median yli

Bitit on koodattava jotenkin analogiseksi ilmiöksi Kantataajuusmenetelmässä bitit muutetaan

suoraan esim. jännitteeksi, toimii yhteyksillä, joissa on suhteellisen vähän häiriöitä

Häiriöisillä yhteyksillä kantoaalto auttaa

erottamaan signaalin taustakohinasta, signaali erottamaan signaalin taustakohinasta, signaali muokkaa kantoaaltoa

– Amplitudimodulaatio (AM) – Taajuusmodulaatio (FM) – Vaihemodulaatio (PM)

Nykyään on myös monimutkaisempia koodauksia

– Esim. UMTS:n käyttämä CDMA

(9)

Modulaatio

0 1 0 0 1 1 0 0 0 0 1 1

Amplitudi- Modulaatio (AM)

Taajuus-

Vaihe-

Modulaatio (PM)

Taajuus- Modulaatio (FM)

(10)

Synkronisaatio

Denuntiato solum translata valet = vain vastaanotettu viesti merkitsee

Vastaanottajan pitää siis tunnistaa data Synkronoimattomassa tiedonsiirrossa

vastaanottaja tunnistaa viestin (yksi tavu dataa) alun ja ottaa näytteitä riittävän usein saadakseen viestin

viestin

– Esim. start-bitti, 8 databittiä, pariteetti ja stop-bitti – Ethernetissä viesti alkaa ykkösillä

Synkronoidussa tiedonsiirrossa lähettäjällä ja vastaanottajalla on kellot samassa ajassa,

vastaanottaja tietää milloin bitin pitäisi tulla

– Tehokkaampaa

– Kellojen synkronointi vaikeaa

(11)

Siirtotien laatu

Kaistanleveys (bandwidth)

– Käytettävissä oleva taajuusalue

Kohina (noise)

– Taustalla olevat häiriösignaalit, joista viesti on erotettava

Siirtokapasiteetti (capacity)

– Montako bittiä sekunnissa saadaan siirrettyä (lasketaan edellisistä)

Virhetaajuus (error rate) Virhetaajuus (error rate)

– Montako databittiä sekunnissa muuttuu

Viive (latency)

– Kauanko bitiltä kestää matkata päästä päähän

Huojunta (jitter)

– Perättäisten viestien aikavaihtelut

Vaimennus (attenuation)

– Kuinka usein signaalia on vahvistettava (riippuu mediasta)

(12)

Signaali matkalla

0 1 0 0 1 0

Vaimennus

Kaistanleveyden Lähtevä signaali

0 1 0 1 1 0

Kaistanleveyden pyöristämä

Viive

Saapuva signaali Näytteenotto

Vastaanotettu data

(13)

Kohinasuhde

Analogisissa siirtoteissä on aina erilaisia häiriöitä

Signaalinvoimakkuuden suhde kohinan

voimakkuuteen on hyvin tärkeä mitta siirtotien laadulle

– SNR, Signal to Noise Ratio – SNR, Signal to Noise Ratio

Ilmaistaan yleensä desibeleissä

Esim. jossain analogisessa puhelinverkossa voidaan mitata signaalin olevan 10 000

kertaa taustakohinaa voimakkaampi

– Tällöin SNR on 10 log10 10000 = 40 db

Ihmiskorva selviää vielä noin 0 db:n SNR:stä

(14)

Kaistanleveys ja kapasiteetti

Kaistanleveys tarkoittaa tietyn kanavan läpäisevää taajuusaluetta

– Tyypillisesti siirtotien sähköiset tai optiset ominaisuudet määrittävät lähetettävälle pulssille tietyn minimipituuden, jotta se voitaisi havaita luotettavasti vastaanottopäässä

• Pulssin minimipituudesta saadaan vastaava korkein taajuus, joka voidaan siirtää

– Ilmaistaan Hertzeinä, Hz

Kapasiteetti on tietyn kanavan läpi siirrettävän datan määrä

– Ilmaistaan bitteinä sekunnissa, b/s – Ilmaistaan bitteinä sekunnissa, b/s

Nyquistin kaava tiedonsiirrolle on

rmax = 2 B log2 L

rmax on suurin saavutettava bittien siirtokapasiteetti B on ideaalikanavan kaistanleveys

L on signaalitasojen määrä

Puheessa kapasiteetti sekoitetaan helposti kaistanleveyteen, koska niiden välillä on riippuvuus

Riippuvuus ei ole kaksisuuntaista

(15)

Realistinen kaistanleveys

Käytännön kanavilla on kohinaa, joka rajoittaa signaalitasojen määrää

Shannonin kaava kanavakapasiteetille on

C = B log2 (1 + SNR) b/s

C on kanavan siirtokapasiteetti b/s C on kanavan siirtokapasiteetti b/s B on kaistanleveys

SNR on kanavan signaali/kohinasuhde

• jos ilmaistu desibeleinä: 10(SNR/10)

– Signaalitasojen määrä ei vaikuta, kaava määrittelee suurimman mahdollisen

bitinsiirtokapasiteetin

(16)

Nyquistin kaava kertoo miten kapasiteettia voidaan lisätä lisäämällä signaalitasoja

Shannonin kaava kertoo, että

signaalitasojen määrä ei auta äärettömiin vaan maailma tulee vastaan

vaan maailma tulee vastaan

(17)

TIEDON BINÄÄRILUONNE

TIEDON BINÄÄRILUONNE

(18)

Bitti

Atomi = pienin jakamaton osanen

– Kreik

Reaalimaailmassa on olemassa atomia pienempiä osasia Tietokoneissa bitti on ihan oikeasti pienin jakamaton osa

– Jakamattomuudella järisyttäviä seurauksia

Bitti voi olla kahdessa tilassa, esim. Jännitteenä ilmaistuna

– 0 on 0v – 1 on +5v – 1 on +5v

Kun bitin arvo on 1, sanomme että bitti on päällä tai tosi, 0 vastaavasti on pois päältä tai epätosi

Biteille on olemassa luonnollinen laskujärjestelmä, nk. Boolen logiikka

– 1 and 1 = 1 – 1 or 0 = 1

– 0 and 1 = 0 etc.

(19)

Binääriaritmetiikka

Peräkkäin asetetuille, sähköisesti esitetyille biteille on mahdollista Boolen logiikalla

muodostaa sähköinen piiri joka tekee

piiri joka tekee arbitäärisiä

laskutoimituksia

– Claude Shannonin dippatyö

(20)

Lukujärjestelmämuunnos

(21)

Suurempia mittoja

Bitit ryhmitellään usein tavuiksi (8 bittiä) Tietokoneen alijärjestelmät käsittelevät

monen tavun mittaisia sanoja (tyypillisesti 16-64 bittiä)

Monimutkaisemman konstruktion kautta on mahdollista määritellä desimaalilukuja, joita ovat kiinteän ja liukuvan pilkun luvut

– Olennaista on se, että tarkkuus näilläkin äärellinen!

(22)

AD-muunnos

Joskus tieto tarvitsee muuttaa analogisesta digitaaliseksi

Suurin ongelma muodostuu äärellisyydestä

– Joudutaan määrittelemään joku minimi, jota – Joudutaan määrittelemään joku minimi, jota

pienempi informaatio hävitetään

– Aikasarjoissa näytteenottotaajuus, kuvissa tiheys (dots per inch)

Alkuperäistä ei usein voida konstruoida takaisin tallenntusta

– Joskus voidaan, ns. Nyquistin taajuus

(23)

Näytteenotto

(24)

Kvantisointi

Yleensä ei ole järkevää käyttää

arbitääristä tarkkuutta jokaiselle

mittauspisteelle, vaan näytteet

näytteet

kvantisoidaan

– Arvot pyöristetään

tasaväliselle asteikolle

Kvantisointi lisää virhettä selkeästi

(25)

Edistyneitä AD-muunnoksia

Tyypillisin esimerkki AD-muunnoksesta on yksiulotteinen suure ajassa (esim. Ääni)

Kameran CCD-kenno suorittaa 2D-

muunnoksen kahdessa tilaulottuvuudessa Videokamera suorittaa muunnoksen

kahdessa tilaulottuvuudessa ja ajassa

Perusperiaatteet ja ominaisuudet säilyvät

– 2D-muunnoksessa huomataan miten n^2 kasvaa nopeasti

(26)

41 megapikselin kamera

Nokia ei osannut

tehdä hyvää optista zoomia kännyköihin ”Jos vaan kaapataan

törkeän paljon dataa törkeän paljon dataa ja zoomataan

digitaalisesti”

Hyvä idea

5-vuotissuunnitelmaan

Hypersämpläys Symbian

(27)

Toisinpäin

Digitaalisesta analogiseksi muunnettaessa askeleet käännetään

Toisaalta voi olla signaaleja, jotka on generoitu suoraan digitaalisessa

muodossa muodossa

– AD-muunnoksen ongelmia ei ole

Tietokoneiden ensimmäisiä

käyttötarkoituksia oli maailman simulointi

– Jenkkiarmeijan tykistön ampuma-arvot

(28)

Simulointi

(29)

Tiedon jäsentämisen terminologiaa

Kenttä on yksittäinen pala tietoa

– opiskelijanumero tai nimi

Tietue on kokoelma kenttiä

– Yhdistetty opiskelijanumero, nimi ja ikä

Tiedosto on kokoelma tietueita

– Listaus kurssin opiskelijoiden – Listaus kurssin opiskelijoiden

opiskelijanumeroista, nimistä ja i’istä

Tietokanta kokoelma kenttiä, joiden välillä on relaatioita

(30)

Tiedostotyypeistä

Tiedostoja voidaan luokkiin monella tavalla Unixin file-työkalun filosofian mukaan on

olemassa

– Tekstitiedostoja – Binääritiedostoja

– Ajettavia ohjelmia (binääritiedostojen erikoistapaus)

• Ei käsitellä

(31)

TEKSTITIEDOSTOT

TEKSTITIEDOSTOT

(32)

Teksti

Luku- ja kirjoitustaito ovat aika vanhoja juttuja Syvälle yhteiskuntaan juurtunut

vuorovaikutustapa

Tietokoneiden tekstissä ensimmäinen ja

laajimmalle levinnyt standardi on alunperin lennättimiä varten kehitetty American

lennättimiä varten kehitetty American Standard for Code for Information

Interchange (ASCII)

– 7 bittiä koska haluttiin säästää

– Englannin kirjoittamiseen tarvittavat aakkoset, erikoismerkkejä

– Paljon lennättimen ohjaamiseen erikoistuneita ns.

Non-printable merkkejä

(33)

Ei-tulostuvat ja tulostuvat merkit

(34)

ASCIIn jälkeen

Englannin kirjoittamiseen tarvittavat merkit eivät riitä kovin pitkälle

suuri määrä erilaisia merkistöjä

• Lännessä yleensä taaksepäin yhteensopivia ASCIIn kanssa

ASCIIn kanssa

Unicode –merkistö tullut pysyäkseen

– 32 bittinen osoiteavaruus

– Eri tapoja koodata sama merkistö, UTF-8, UTF-16, UTF-32

(35)

Tekstitiedostoformaatit

Mikäli teksitiedostossa on rakenne,

voidaan tehdä ohjelma joka osaa lukea sitä

Erittäin yksinkertainen esimerkki: Comma Separated Values

Separated Values

26, ”Jyry”, 191 23, ”Teemu”, 165 19, ”Matti”, 180

(36)

Tekstitiedostoformaatit

Tietynlaisen rakenteen odottaminen on rajoittavaa

Voidaan määrittää rakenteen palaset ja sopia että jokainen palanen on merkattu Merkkauskieli

<h1>Tämä on otsikkoa</h1>

<p>Tämä on kappale</p>

(37)

Hyperteksti

Teksti on luonteeltaan sekventiaalista

– Kirjat on tarkoitus lukea alusta loppuun

Lisätään mahdollisuus linkkien tekemiseen

<a href=”#toinenosa”>tästä eteenpäin</a>

...

...

<a name=”toinenosa”>

<h2>Toinen osa</h2>

Miksi rajoittaa saman dokumentin (tai dokumenttikirjaston) sisälle

linkkaamiseen?

<a href=”http://toinen.resurssi.com/jotain/ihan/muuta”>jotain ihan muuta</a>

(38)

HTML:n puutteita

Tägit kertovat ladontatietoa

– Taulukoita, otsikoita, kappalejakoja

Tägejä äärellinen määrä

– Ei laajennusmahdollisuutta – Ei yleinen ratkaisu

Liberaalia sen suhteen, mitä hyväksytään

– Ei koneiden ymmärrettävissä

(39)

XML

eXtensible Markup Language

Vanhan SGML-standardin uudet vaatteet

Kehittynyt irrallaan HTML:stä, ottanut oppia HTML:n virheistä

– XHTML on XML-speksin mukainen HTML

Perusidea on sama Perusidea on sama

<tag attribute=”example”>

This is tagged text

</tag>

XML:ää pidetään välillä liiankin helppolukuisena Koneluettava, laajennettava

(40)

XML-dokumentin rakenne

XML-dokumentin runko koostuu elementeistä (tag), joilla voi olla

attribuutteja

Elementtien välistä suhdetta kuvataan

<!ELEMENT kirjasto (hylly*)>

<!ELEMENT hylly (kirja*)>

<!ELEMENT kirja (nimi, kirjailija?, vuosi) >

suhdetta kuvataan jollain tavalla

– XML schema

Document Type Description

<!ELEMENT nimi (#PCDATA)>

<!ELEMENT kirjailija (#PCDATA)>

<!ELEMENT vuosi (#PCDATA)>

(41)

DTD ja sen mukainen dokumentti

<!ELEMENT kirjasto (hylly*)>

<!ELEMENT hylly (hyllynro, kirja*)>

<!ELEMENT hyllynro (#PCDATA>

<!ELEMENT kirja (nimi, kirjailija?, vuosi) >

<!ELEMENT kirja (#PCDATA)>

<!ELEMENT kirjailija (#PCDATA)>

<!ELEMENT vuosi (#PCDATA)>

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE kirjasto PUBLIC "KIRJASTO"

"http://www.cse.tkk.fi/u/jsuvileh/jotime/esim.dtd">

<?xml-stylesheet type="text/xsl" href="hyllykko.xsl"?>

<kirjasto>

<hylly>

<hyllynro>1</hyllynro>

<kirja>

<nimi>Hobitti</nimi>

<kirjailija>J.R.R. Tolkien</kirjailija>

<vuosi>1937</vuosi>

</kirja>

<kirja>

<nimi>Silmarillion</nimi>

<kirjailija>J.R.R. Tolkien</kirjailija>

<vuosi>1977</vuosi>

DTD on sopimus dokumentin rakenteesta: ohjelma voidaan

tehdä käsittelemään DTD:n <vuosi>1977</vuosi>

</kirja>

</hylly>

<hylly>

<hyllynro>2</hyllynro>

<kirja>

<nimi>1984</nimi>

<kirjailija>George Orwell</kirjailija>

<vuosi>1949</vuosi>

</kirja>

<kirja>

<nimi>Suomen laki</nimi>

<vuosi>2009</vuosi>

</kirja>

</hylly>

tehdä käsittelemään DTD:n mukaista dokumenttia.

Kaikille itseään kunnioittaville ohjelmointialustoille on jo olemassa XML-parsereita valmiina.

(42)

XSL ja XPath

Mm. verkkoselaimet osaavat näyttää XML- dokumentteja

– Muista, että XHTML on XML-kieli

Xpath on tapa viitata dokumentin osiin XSLT-kuvauskielellä voidaan kuvata eri

tapoja kuvata sama kerran määritelty data tapoja kuvata sama kerran määritelty data

– Kuin CSS HTML:lle, paitsi äärettömästi voimakkaampi

Demo

http://www.cse.hut.fi/~jsuvileh/jotime/kirjasto.

xml

– Katso myös esim.dtd ja hyllykko.xsl

(43)

BINÄÄRITIEDOSTOT

BINÄÄRITIEDOSTOT

(44)

Binääritiedostot

Binääritiedostoja ei yleensä ole tarkoitettu ihmisten luettavaksi

Tarvitaan heksaeditori tai jotain muuta ikävää lukemiseen

Binääritiedostot tarjoavat usein

kompaktimman tavan esittää tietoa

– ”vihreä” 6-7 tavua, vaikea esittää tarkkoja astevaihteluja

– (0,255,0) 3 tavua

(45)

Värimallit

Värejä voidaan yhdistää pääväreistä

Värimallit voivat olla joko

– Additiivisia (RGB), usein tietokonenäytöissä

– Subtraktiivisia (CMYK), paperipainatuksessa

Koko väriavaruutta on

käytännössä mahdotonta näyttää

Kuva: Mike Horvath/Wikipedia

käytännössä mahdotonta näyttää

tietyllä laitteella Kuva: Mirsav Todorac/Wikipedia

(46)

BMP -perusidea

Kuva voi antaa väärän käsityksen.

BMP:ssä pikselin värit tallennetaan yhdessä.

Ei erillisinä

kokonaisuuksina.

(47)

Lena

Miss Marraskuu 1972 Käytetty siitä saakka

esimerkkinä

kuvankäsittelyssä

Koska BMP-tiedostot Koska BMP-tiedostot

tuppaavat olemaan kookkaita,

käsittelemme vain

Lenan vasenta silmää

(48)

BMP

Magic number Tavua/pikseli

Korkeus/leveys

Osoitin kuvan alkuun Koko tiedoston koko

Ensimmäisenä alavasen pikseli

85 85 dc hex = 132 (G), 133 (B), 220 (R) Tästä eteenpäin riveittäin ylöspäin.

(49)

BMP -huomioita

BMP ei tässä tapauksessa pakannut tietoa mitenkään

Kuvassa on redundanssia, joka voidaan poistaa häviöttömästi

Kuvassa on paljon ihmissilmälle

tarpeetonta informaatiota, voidaan poistaa häviöllisesti

Näistä myöhemmin

(50)

Yhteenvetoa

Tieto siirretään analogisena siirtotietä pitkin

– Häiriöitä, siirtovirheitä ja muuta ikävää

Tietokoneet äärellisiä, jänniä kapistuksia

Tiedostot voidaan jakaa karkeasti teksti- ja Tiedostot voidaan jakaa karkeasti teksti- ja

binääritiedostoihin

XML on ”human readable”

sisällönkuvauskieli

BMP on erittäin yksinkertainen

binääriformaatti kuvien tallentamiseen

Viittaukset

LIITTYVÄT TIEDOSTOT

Toisaalta polynomin muodostamisessa on aina riskinä, että polynomi perustuu vain lukujonon alkuosaan ei- kä meillä ole tietoa, mitä lukuja jonossa on sen jäl- keen..

Kellyn kaavan mukaisella panostuksella riskiä pyritään pienentämään niin, että pelaaja vaurastuisi mahdollisimman tehok- kaasti pitkällä aikavälillä, kun samaa peliä

Selitys on se, että terveiden joukko on niin valtavasti suurempi kuin sairaiden, että vaik- ka lähes jokainen terve saisi terveen testituloksen, silti niitä, jotka

Kummallinen kortteli – Onnellinen kortteli, erityisesti asutukselle varattu – Jalo ja traaginen kortteli (kilteille lapsille) – Historiallinen kortteli (museoita,

Tutkimus jakautuu neljään lukuun, joista ensimmäisessä esitellään tutkimuksen aihe, metodologia ja taustalla oleva poliittinen keskustelu. Tutkimusta taustoittavassa toisessa

Kyselyn perusteella näyttää siltä 43 , että muutoksenhaku on kokonaisuutena kat- sottuna järjestetty kaava- ja rakentamis- asioissa hyvin: vain neljä vastaajaa oli

Epäselvyys on saattanut koskea sitä, mikä kaava alueella on voimassa ja miten kaava vaikuttaa metsien käyttöön ja metsätalouden harjoittamiseen. Onko alueella voimassa

Otannalla mitattujen segmenttien tiedon yleistä- misen luotettavuutta tarkasteltiin laskemalla ositteit- tain keskitilavuuden keskiarvon keskivirhe (kaava 9) sekä ositteen