Þessi færsla er meira en 6 ára gömul.

10. maí 2018 12:27

Sjálfvirk gagnagreining sjálfsagt mál

Deila

Í augnablikinu er Alþingi með til umfjöllunar breytingu á höfundalögum sem eiga að leyfa sjálfvirka gagnagreiningu. Í stuttu máli snýst það um heimila og auðvelda rannsóknir, þannig að algrímur og gervigreindir geti nýtt sér texta í gagnasöfnun. Engin tapar pening á þessu, enda eru gervigreindir lítið í því að kaupa bækur, blöð eða „lesa“ í þeim skilningi sem við leggjum í orðið. Þetta getur líka skipt sköpun í þróun á forritum sem skilja og nota íslensku. En það er óþarfi fyrir mig að rökstyðja þetta sérstaklega, nútímatækni gerir mér nefnilega kleift að afrita umsögn sem birtist á alþingisvefnum, eftir Ástu Guðrúnu Helgadóttur og má lesa hér að neðan. Ég hvet allt áhugafólk til að lesa þá umsögn, hér eða á alþingissíðunni.

Erindi: Frumvarp til laga um breytingu á höfundalögum (sjálfvirk gagnagreining)

Endurskoðun höfundalaga hefur átt sér stað innan Evrópusambandsins síðan 2014. Þar á meðal hefur verið lagt til að skýra lagalega stöðu sjálfvirkrar gagnagreiningu á höfundaréttarvörðu efni. Gagnanám úr texta eða tölusafni sem er gert með upplýsingatækni í því skyni að rannsaka, finna samhengi eða mynstur, er orðið að grundvallaratriði fyrir nútíma tækni til þess að geta haldið áfram að þróa máltækni, komast yfir mikið magn af texta, þróa gervigreind, og svo mætti lengi telja. Hinsvegar hefur verið rætt hver staða þessarar tækni er gagnvart höfundaréttarvörðu efni, svo sem útgefnum bókum og tímaritum, svo eitthvað sé nefnt. Nú þegar eru mörg Evrópulönd sem leyfa sjálfvirka gagnagreiningu, meðal annars Eistland, Bretland og Þýskaland.

Staða mála innan Evrópusambandsins

Sjálfvirk gagnagreining hefur verið til umfjöllunar innan Evrópusambandsins undanfarið, þar sem almenn endurskoðun á höfundarétti á sér stað. Það hefur verið talið að sjálfvirk gagnagreining sé á gráu svæði gagnvart höfundaréttarvörðu efni miðað við núverandi rétt, en þrátt fyrir það er sjálfvirk gagnagreining undanþegin höfundalögum í Bretlandi, Frakklandi, Eistlandi, og Þýskalandi.

Eins og staðan er núna þá er verið að vinna að samræmingu á höfundarétti innan Evrópska efnahagssvæðisins og er sjálfvirk gagnagreining, eða upp á ensku, text and data mining, meðal þess sem verið er að fjalla um. Eins og staðan er, þá eru eru tvær greinar til umræðu sem fjalla um sjálfvirka gagnagreiningu:

Grein 3. Grein þessi fjallar um að háskólar og fræðastofnanir á borð við bókasöfn geti stundað gagnanám úr textum. Þessi grein verður skyldubundin innan EES. Tilgangur greinar þessarar er að komast til móts við þá lagalegu óvissu sem hefur verið milli útgefenda fræðigreina á borð við Elsevier og háskólasamfélagsins um það hvort það megi stunda sjálfvirka gagnagreiningu á þeim greinum sem Háskólar hafa sannanlega keypt aðgang að eður ei. Þessi grein var sett fram af Framkvæmdaráðinu og er nú til skoðunar bæði hjá ráði Evrópusambandsins og Evrópuþinginu.
Grein 3a. Grein þessi gæfi aðildarríkjum leyfi til þess að veita víðtækari heimildir í löggjöf sinni en það sem hefur greint frá í grein 3, til þess að leyfa sjálfvirka gagnagreiningu á höfundaréttarvörðu efni. Þar sem þónokkur aðildarríki hafa þá þegar innleitt í sín landslög víðtækari heimildir til gagnanáms úr texta í þeim tilgangi að stunda sjálfvirka gagnagreiningu en tillaga Framkvæmdaráðsins gerir ráð fyrir, þá hefur verið til umræðu að komast til móts við þau aðildarríki með valfrjálsri grein. Þessi grein var ekki í upphaflegu drögum Framkvæmdaráðs Evrópusambandsins, heldur hefur verið til umræðu og samþykkis innan Ráði Evrópusambandsins.

Ráð Evrópusambandsins er langt komið umfjöllun sína um sjálfvirka gagnagreiningu, en Evrópuþingið hefur ekki enn komist að niðurstöðu, en það mun gerast á næstu mánuðum.

Er sjálfvirk gagnagreining höfundaréttarbrot?

Það hefur verið til umræðu hvort að sjálfvirk gagnagreining á höfundaréttarvörðu efni sé höfundaréttarbrot eður ei. Það hefur verið bitbein í einhvern tíma og það er ástæðan fyrir því að fjölmörg Evrópuríki hafa nú þegar innleitt undanþágu frá höfundalögum til þess skýra rétt þeirra sem nýtast sjálfvirka gagnagreiningu. Í Bandaríkjunum er notast við ‘fair use’ hugmyndafræðina, en þar sem hún á ekki við í evrópskum höfundarétti þá þarf að skýra undanþágu í lagatexta.

Það eru fjölmargar leiðir til þess að stunda sjálfvirka gagnagreiningu, en í grunninn þá felst sjálfvirk gagnagreining í því að tölva les texta og eftir forskrift, finnur samhengi eða mynstur út frá textanum. Til þess að forritið geti lesið textann þá þarf forritið að hafa aðgang að textanum, sem er fyrsta skrefið. Annaðhvort hefur forritið aðgengi að einhversskonar gagnagrunni eða gagnasafni, eða býr það til. Forritið, eftir því hver tilgangur þess er, getur síðan borið saman textana sem er að finna í gagnagrunninum til þess að finna eitthvað samhengi. Þar sem forritið þarf alltaf að stunda einhversskonar endurritun á efninu sem er borið saman, þá hefur verið uppi sú spurning hvort það að tölva sem búi til afrit í því skyni að stunda sjálfvirka gagnagreiningu, sé höfundalagabrot. Í þessum umræðum er alltaf verið að ganga út frá því að viðkomandi einstaklingur eða stofnun sem býr til og notar forritið hefur löglegan aðgang að efninu sem tölvan les, svo sem stafrænar tímaritsgreinar og fréttir. Spurningin er því: Hafi manneskjan rétt til þess að lesa textann, hefur tölvan rétt til að lesa textann líka?

Eitt af grundvallaratriðum höfundaréttar er að höfundalög vernda einungis frumlega sköpun, ekki einstaka orð eða hugmyndir. Tilgangur með sjálfvirku gagnanámi er ekki að endurrita verkin í heild eða gefa þau út í heild, heldur einungis að finna samhengi annaðhvort innan verksins eða milli verka og búa þannig til nýtt verk - nýja rannsókn. Þær afritanir sem sjálfvirk gagnagreining gerir af verkinu eru því einstaka setningar, bútar, orð, eða tölur, en ekki verkið í heild. Sjálfvirk gagnagreining getur falist í því að telja hversu oft ákveðin orð koma fyrir, í hvaða samhengi ákveðin orð koma fyrir, hvernig orðalag einstaklinga þróast yfir tíma. Forritið hefur ekki áhuga á verkinu í heild, heldur einstaka atriðum eftir þeirri forskrift sem höfundur forritsins biður um. Þau afrit af textanum sem forritið heldur eftir eru því samhengislaus þegar á hólminn er komið og getur því ekki talist frumleg sköpun í sjálfu sér, heldur einungis einstaka orð eða tölur.

Þetta er meðal annars niðurstaða álits frá Center of International Intellectual Property frá Háskólanum í Strasborg skilaði að beiðni JURI nefndarinnar á Evrópuþinginu. Annað álit sem nefndin bað um frá prófessor Eleanor Rossatti frá Southampton háskóla var samhljóma áliti frá Center of International Intellectual Property. Þessi álit hafa hvorutveggja fengið áheyrn hjá JURI nefndinni en komið hefur í ljós að upphaflegi texti Framkvæmdaráðsins var of þröngur í sniðum til þess að vera gagnlegur og myndi til dæmis útiloka blaðamenn og sjálfstæð rannsóknarverkefni á borð við gervigreind. Ráð Evrópusambandsins hefur því farið á þá leið að bæta við grein 3a, en það á eftir að koma í ljós hvað Evrópuþingið ákveður að gera.

Til hvers er sjálfvirk gagnagreining?

Sjálfvirk gagnagreining er hugtak til þess að lýsa því þegar tölva sem les texta, er forrituð til þess að velja ákveðna búta úr textanum til þess að bera saman, finna mynstur eða telja, svo dæmi séu nefnd. Það eru fjölmargar leiðir til þess að nota þessa tækni:

Gervigreind og þróun hennar notast mikið við sjálfvirka gagnagreiningu og gagnanám úr texta. Án gagnanáms úr texta og án þess að búa til handahófskennd afrit og þróa mynstur út frá þeim væri gervigreind ómöguleg.

Talgervlar notast við sjálfvirka gagnagreiningu og gagnanám úr texta. Talgervlar eru mikið notaðir fyrir blinda og sjónskerta, lesblinda og fleiri.

Talgreining þar sem tölva lærir að skilja talað tungumála, rita það niður eða fylgja skipunum. Þetta er mikilvægt hjálpartæki fyrir hreyfihamlaða til að öðlast sjálfstætt líf, getur aðstoðað sjónskerta og lesblinda til að rita texta en er í vaxandi mæli notað af stórfyrirtækjum á borð við Google og Amazon til þess að þróa tækni fyrir raddskipanir á borð við “Alexa”.

Vísindarannsóknir af ýmsum toga. Það eru fleir milljónir fræðigreina birtar á ári hverju og til þess að rýna þær hafa fræðimenn notast við sjálfvirka gagnagreiningu. Dæmi eru um notkun sjálfvirkrar gagnagreiningar sem hefur hjálpað til við krabbameinsrannsóknir.

Tungumálarannsóknir af ýmsum toga, bæði innan háskólasamfélagsins og utan. Dæmi um tungumálarannsóknir sem notast við sjálfvirka gagnagreiningu er rannsókn Lilju Bjarkar Stefánsdóttur, málfræðings, á þingmönnum, m.a. á því hvernig Steingrímur J. Sigfússon stílfræði mál sitt eftir því hvort hann var í ráðherrastól eða almennur þingmaður. Annað dæmi er verkefni Vilhjálms Þorsteinssonar, sem kallast Greynirinn, þar sem sjálfvirk gagnagreining er notuð til þess að skoða kynjahlutföll fréttaumfjallanna á Íslandi.

Sjálfvirkar þýðingaforrit byggjast alfarið á sjálfvirku gagnanámi og aðgengi að tölvulæsilegum texta. Google Translate er dæmi um slíkt, en því meiri texti sem Google hefur til að lesa, greina og bera saman, því nákvæmari hafa þýðingar forritsins orðið.

Rannsóknir blaðamanna. Blaðamenn notast við sjálfvirka gagnagreiningu til þess búa til fréttir, komast upp um spillingu og fleira.

Þetta eru einungis örfá dæmi um það hvernig sjálfvirk gagnagreining er notuð og til hvers. Fyrir lítið tungumál á borð við íslensku er sjálfvirk gagnagreining og gagnanám úr textum mikilvæg til þess að íslenskan haldi áfram að vera gjaldgeng í hinum stafræna heimi, fyrir utan það að þróa hjálpartæki fyrir blinda eða hreyfihamlaða.

Niðurstaða

Það eru fjölmörg lönd í Evrópu sem hafa nú þegar stigið skrefið að gefa út skýra undanþágu í höfundalögum til þess að leyfa sjálfvirka gagnagreiningu og gagnanám úr textum. Nú síðast var það Þýskaland sem í mars 2018 setti í höfundalög sín undanþágu til þess leyfa sjálfvirka gagnagreiningu á höfundaréttarvörðu efni. Það er mikilvægt að líta á þessa undanþágu til þess að auðvelda og tryggja meiri sköpun og framvindu í tækni og vísindum. Það eru miklar efasemdaraddir um hvort að sjálfvirk gagnagreining geti talist vera höfundalagabrot eður ei, og eru rök fyrir því að svo sé ekki. Tilgangur undanþágunnar á að vera til þess að tryggja lagalegan rétt einstaklinga, stofnanna og fyrirtækja til þess að skapa og þróa.

Sú undanþága sem hér um ræðir er almenn og breið, og er mest í ætt við þá undanþágu sem var innleidd inn í breskan höfundarétt árið 2014. Í ljósi áætlana Bretlands um að ganga út úr Evrópusambandinu og þar af leiðandi Evrópska efnahagssvæðinu þá myndi samræmdur höfundaréttur á sviði sjálfvirkrar gagnagreiningar milli landanna vera Íslandi í hag. Þetta gæti opnað viðskiptamöguleika milli landanna í þróun gervigreindar og annarra tækni sem notast við sjálfvirka gagnagreiningu.

Allar líkur leiða til þess að sjálfvirk gagnagreining verði innleidd í samevrópskan höfundarétt og að Ísland muni þurfa að innleiða sambærileg lög. Nú er tækifæri til þess að vera á meðal leiðandi þjóða í framsæknum höfundarétti með því að leyfa sjálfvirka gagnagreiningu. Þess fyrir utan þá er mikilvægt að skýra lagalega stöðu sjálfvirkrar gagnagreiningar til þess að íslenska verði áfram gjaldgengt tungumál í stafrænum heimi og halda áfram þróun á máltæknilegum hjálpartækjum. Það er ekki hægt að leggjast gegn því að frumvarp þetta verði leitt inn í íslensk höfundalög.

Deila

Fyrri færsla

Blogg

Listflakkarinn

Fyrrum ráðherra ræðst á fjölmiðil

Ögmundur Jónasson vegur að starfsheiðri Þórðar Snæs ritstjóra Kjarnans í pistli á bloggi sínu í dag. Þar vísar hann í ritstjórnargrein þar sem Þórður skrifar: Það liggur fyrir að niðurstaða rannsóknar á meintum brotum forstjórans fyrrverandi hefur aldrei verið birt. Í stað þess hafi Ásmundur Einar Daðason, núverandi ráðherra, einfaldlega sagt þingheimi ósatt um niðurstöðu málsins, ákveðið einhliða...

Næsta færsla

Blogg

Listflakkarinn

Sjálfstæðisflokkurinn vill ekki að þú kjósir

Þórólfur heitir maður Halldórsson. Sýslumaður. Ferill hans er um margt athyglisverður. Hann sat í kjördæmisráði fyrir sjálfstæðisflokkinn á norðvesturlandi meðan hann gegndi embætti sýslumanns á Patreksfirði. Þá var hann kærður fyrir það að keyra um bæjinn með kjörkassa og safna í þau atkvæðum sjálfstæðismanna. Framkvæmd kosninga á Íslandi er um margt sérstök, en þetta var svona í sérstakara lagi. Illa...

Athugasemdir

Allar athugasemdir eru ábyrgð á þeirra sem þær skrifa. Heimildin áskilur sér rétt til að fjarlægja ærumeiðandi og óviðeigandi athugasemdir.

Fleiri færslur frá höfundi

Lestrargeta sem píptest

17. október 2022 Kæru menntamálayfirvöld, Hér er hugmynd hvernig við getum aukið lestrarhraða í þágu atvinnulífsins: Ég legg til að við mælum leshraða svipað og við mælum þol. Með píptesti. Start level one. Sami textinn skal lesinn aftur og aftur. Píp! Start level three. Síðan byrja þau sem ærast af leiðindum fyrst að hellast aftur úr lestinni. Start level three. Píp. Eitt af...

Alþingisbrestur

26. nóvember 2021 Í dag er víst svartur fössari. En í gær var niðamyrkur fimmtudagur í sögu lýðræðis á Íslandi. Það var framið lögbrot. Atkvæði voru geymd óinnsigluð og án eftirlits, og af einhverjum ástæðum sem ég fæ ekki skilið eyddi yfirmaður kjörstjórnar dágóðum tíma með þeim einsamall áður en hann svo ákvað að endurtelja, án lagaheimildar og eftirlits. Það var kolólöglegt og...

Hvað finnst vegagerðinni um Kötlu?

23. júní 2021 Nýverið birtist auglýsing í boði FÍFL (félag íslenskra fíkniefnalögreglumanna) í morgunblaðinu. Það mætti í sjálfu sér velta fyrir sér hvers vegna jafn lítt lesið blað, með jafnháu auglýsingaverði verður ítrekað fyrir valinu hjá ríkisstofnunum þegar þær auglýsa eða kaupa sér áskriftir, en við skulum geyma þær pælingar í bili. Auglýsingin lítur í fyrstu út fyrir að vera forvarnar-auglýsing ætluð ungmennum...

Þegar sum atkvæði eru jafnari en önnur

13. júní 2021 Það er rosa margt sem hægt er að vera ósammála um. Hvað er gott álegg á pizzu, hvað er góð tónlist eða góður smekkur, hvort við eigum að setja vatn á tannburstann fyrir eða eftir að tannkremið kemur úr túpunni. Það eru líka ótal skoðanir á hvernig samfélag við eigum að reka, um 80% Íslendinga vilja að sjúkrahús séu rekin...

Sjálfvirk gagnagreining sjálfsagt mál

Fyrri færsla

Listflakkarinn

Fyrrum ráðherra ræðst á fjölmiðil

Næsta færsla

Listflakkarinn

Sjálfstæðisflokkurinn vill ekki að þú kjósir

Athugasemdir

Fleiri færslur frá höfundi

Lestrargeta sem píptest

Alþingisbrestur

Hvað finnst vegagerðinni um Kötlu?

Þegar sum atkvæði eru jafnari en önnur

Mest lesið á blogginu

Nýtt efni

Vilja hærri auðlindagjöld og komugjöld á ferðamenn

Umhverfistofnun telur bæði ótímabundinn kvóta og veðsetningu hans umdeilanlegar breytingar

Flóttafólki fækkað um meira en 60 prósent milli ára

Allt er þegar þrennt er – Samtímaóp

Sýnileiki lögreglu hverfi verði niðurskurður að veruleika

Ójöfnuður kemur okkur öllum við

Halla Tómasdóttir tekur fram úr Jóni Gnarr og nálgast Baldur

Sif Sigmarsdóttir

Fimm ráð til að rífa sig upp af rassinum

Tröllaher Svíþjóðardemókrata ógnar minnihlutastjórn Svíþjóðar

Menja von Schmalensee

Vindorkuver á Íslandi – Stórslys í uppsiglingu?

Grátrana sást á Vestfjörðum

Borgin sökuð um ráðríki og samráðsleysi gagnvart íbúum í Laugardal

Þingið rannsaki framgöngu ráðherra í gjafagjörningi Haraldar

Halla Hrund og Katrín hnífjafnar en með undir fjórðungs fylgi hvor

Konráð nýr efnahagsráðgjafi ríkisstjórnarinnar

Gunnar Karlsson

Spottið 17. maí 2024