Þessi færsla er meira en 6 ára gömul.

Sjálfvirk gagnagreining sjálfsagt mál

Sjálfvirk gagnagreining sjálfsagt mál

Í augnablikinu er Alþingi með til umfjöllunar breytingu á höfundalögum sem eiga að leyfa sjálfvirka gagnagreiningu. Í stuttu máli snýst það um heimila og auðvelda rannsóknir, þannig að algrímur og gervigreindir geti nýtt sér texta í gagnasöfnun. Engin tapar pening á þessu, enda eru gervigreindir lítið í því að kaupa bækur, blöð eða „lesa“ í þeim skilningi sem við leggjum í orðið. Þetta getur líka skipt sköpun í þróun á forritum sem skilja og nota íslensku. En það er óþarfi fyrir mig að rökstyðja þetta sérstaklega, nútímatækni gerir mér nefnilega kleift að afrita umsögn sem birtist á alþingisvefnum, eftir Ástu Guðrúnu Helgadóttur og má lesa hér að neðan. Ég hvet allt áhugafólk til að lesa þá umsögn, hér eða á alþingissíðunni.

Erindi: Frumvarp til laga um breytingu á höfundalögum (sjálfvirk gagnagreining)

 

Endurskoðun höfundalaga hefur átt sér stað innan Evrópusambandsins síðan 2014. Þar á meðal hefur verið lagt til að skýra lagalega stöðu sjálfvirkrar gagnagreiningu á höfundaréttarvörðu efni. Gagnanám úr texta eða tölusafni sem er gert með upplýsingatækni í því skyni að rannsaka, finna samhengi eða mynstur, er orðið að grundvallaratriði fyrir nútíma tækni til þess að geta haldið áfram að þróa máltækni, komast yfir mikið magn af texta, þróa gervigreind, og svo mætti lengi telja. Hinsvegar hefur verið rætt hver staða þessarar tækni er gagnvart höfundaréttarvörðu efni, svo sem útgefnum bókum og tímaritum, svo eitthvað sé nefnt. Nú þegar eru mörg Evrópulönd sem leyfa sjálfvirka gagnagreiningu, meðal annars Eistland, Bretland og Þýskaland.

Staða mála innan Evrópusambandsins

Sjálfvirk gagnagreining hefur verið til umfjöllunar innan Evrópusambandsins undanfarið, þar sem almenn endurskoðun á höfundarétti á sér stað. Það hefur verið talið að sjálfvirk gagnagreining sé á gráu svæði gagnvart höfundaréttarvörðu efni miðað við núverandi rétt, en þrátt fyrir það er sjálfvirk gagnagreining undanþegin höfundalögum í Bretlandi, Frakklandi, Eistlandi, og Þýskalandi.

Eins og staðan er núna þá er verið að vinna að samræmingu á höfundarétti innan Evrópska efnahagssvæðisins og er sjálfvirk gagnagreining, eða upp á ensku, text and data mining, meðal þess sem verið er að fjalla um. Eins og staðan er, þá eru eru tvær greinar til umræðu sem fjalla um sjálfvirka gagnagreiningu:

  1. Grein 3. Grein þessi fjallar um að háskólar og fræðastofnanir á borð við bókasöfn geti stundað gagnanám úr textum. Þessi grein verður skyldubundin innan EES. Tilgangur greinar þessarar er að komast til móts við þá lagalegu óvissu sem hefur verið milli útgefenda fræðigreina á borð við Elsevier og háskólasamfélagsins um það hvort það megi stunda sjálfvirka gagnagreiningu á þeim greinum sem Háskólar hafa sannanlega keypt aðgang að eður ei. Þessi grein var sett fram af Framkvæmdaráðinu og er nú til skoðunar bæði hjá ráði Evrópusambandsins og Evrópuþinginu.

  2. Grein 3a. Grein þessi gæfi aðildarríkjum leyfi til þess að veita víðtækari heimildir í löggjöf sinni en það sem hefur greint frá í grein 3, til þess að leyfa sjálfvirka gagnagreiningu á höfundaréttarvörðu efni. Þar sem þónokkur aðildarríki hafa þá þegar innleitt í sín landslög víðtækari heimildir til gagnanáms úr texta í þeim tilgangi að stunda sjálfvirka gagnagreiningu en tillaga Framkvæmdaráðsins gerir ráð fyrir, þá hefur verið til umræðu að komast til móts við þau aðildarríki með valfrjálsri grein. Þessi grein var ekki í upphaflegu drögum Framkvæmdaráðs Evrópusambandsins, heldur hefur verið til umræðu og samþykkis innan Ráði Evrópusambandsins.

Ráð Evrópusambandsins er langt komið umfjöllun sína um sjálfvirka gagnagreiningu, en Evrópuþingið hefur ekki enn komist að niðurstöðu, en það mun gerast á næstu mánuðum.

Er sjálfvirk gagnagreining höfundaréttarbrot?

Það hefur verið til umræðu hvort að sjálfvirk gagnagreining á höfundaréttarvörðu efni sé höfundaréttarbrot eður ei. Það hefur verið bitbein í einhvern tíma og það er ástæðan fyrir því að fjölmörg Evrópuríki hafa nú þegar innleitt undanþágu frá höfundalögum til þess skýra rétt þeirra sem nýtast sjálfvirka gagnagreiningu. Í Bandaríkjunum er notast við ‘fair use’ hugmyndafræðina, en þar sem hún á ekki við í evrópskum höfundarétti þá þarf að skýra undanþágu í lagatexta.

Það eru fjölmargar leiðir til þess að stunda sjálfvirka gagnagreiningu, en í grunninn þá felst sjálfvirk gagnagreining í því að tölva les texta og eftir forskrift, finnur samhengi eða mynstur út frá textanum. Til þess að forritið geti lesið textann þá þarf forritið að hafa aðgang að textanum, sem er fyrsta skrefið. Annaðhvort hefur forritið aðgengi að einhversskonar gagnagrunni eða gagnasafni, eða býr það til. Forritið, eftir því hver tilgangur þess er, getur síðan borið saman textana sem er að finna í gagnagrunninum til þess að finna eitthvað samhengi. Þar sem forritið þarf alltaf að stunda einhversskonar endurritun á efninu sem er borið saman, þá hefur verið uppi sú spurning hvort það að tölva sem búi til afrit í því skyni að stunda sjálfvirka gagnagreiningu, sé höfundalagabrot. Í þessum umræðum er alltaf verið að ganga út frá því að viðkomandi einstaklingur eða stofnun sem býr til og notar forritið hefur löglegan aðgang að efninu sem tölvan les, svo sem stafrænar tímaritsgreinar og fréttir. Spurningin er því: Hafi manneskjan rétt til þess að lesa textann, hefur tölvan rétt til að lesa textann líka?

Eitt af grundvallaratriðum höfundaréttar er að höfundalög vernda einungis frumlega sköpun, ekki einstaka orð eða hugmyndir. Tilgangur með sjálfvirku gagnanámi er ekki að endurrita verkin í heild eða gefa þau út í heild, heldur einungis að finna samhengi annaðhvort innan verksins eða milli verka og búa þannig til nýtt verk - nýja rannsókn. Þær afritanir sem sjálfvirk gagnagreining gerir af verkinu eru því einstaka setningar, bútar, orð, eða tölur, en ekki verkið í heild. Sjálfvirk gagnagreining getur falist í því að telja hversu oft ákveðin orð koma fyrir, í hvaða samhengi ákveðin orð koma fyrir, hvernig orðalag einstaklinga þróast yfir tíma. Forritið hefur ekki áhuga á verkinu í heild, heldur einstaka atriðum eftir þeirri forskrift sem höfundur forritsins biður um. Þau afrit af textanum sem forritið heldur eftir eru því samhengislaus þegar á hólminn er komið og getur því ekki talist frumleg sköpun í sjálfu sér, heldur einungis einstaka orð eða tölur.

Þetta er meðal annars niðurstaða álits frá Center of International Intellectual Property frá Háskólanum í Strasborg skilaði að beiðni JURI nefndarinnar á Evrópuþinginu. Annað álit sem nefndin bað um frá prófessor Eleanor Rossatti frá Southampton háskóla var samhljóma áliti frá Center of International Intellectual Property. Þessi álit hafa hvorutveggja fengið áheyrn hjá JURI nefndinni en komið hefur í ljós að upphaflegi texti Framkvæmdaráðsins var of þröngur í sniðum til þess að vera gagnlegur og myndi til dæmis útiloka blaðamenn og sjálfstæð rannsóknarverkefni á borð við gervigreind. Ráð Evrópusambandsins hefur því farið á þá leið að bæta við grein 3a, en það á eftir að koma í ljós hvað Evrópuþingið ákveður að gera.

Til hvers er sjálfvirk gagnagreining?

Sjálfvirk gagnagreining er hugtak til þess að lýsa því þegar tölva sem les texta, er forrituð til þess að velja ákveðna búta úr textanum til þess að bera saman, finna mynstur eða telja, svo dæmi séu nefnd. Það eru fjölmargar leiðir til þess að nota þessa tækni:

 

  • Gervigreind og þróun hennar notast mikið við sjálfvirka gagnagreiningu og gagnanám úr texta. Án gagnanáms úr texta og án þess að búa til handahófskennd afrit og þróa mynstur út frá þeim væri gervigreind ómöguleg.

 

  • Talgervlar notast við sjálfvirka gagnagreiningu og gagnanám úr texta. Talgervlar eru mikið notaðir fyrir blinda og sjónskerta, lesblinda og fleiri.
  • Talgreining þar sem tölva lærir að skilja talað tungumála, rita það niður eða fylgja skipunum. Þetta er mikilvægt hjálpartæki fyrir hreyfihamlaða til að öðlast sjálfstætt líf, getur aðstoðað sjónskerta og lesblinda til að rita texta en er í vaxandi mæli notað af stórfyrirtækjum á borð við Google og Amazon til þess að þróa tækni fyrir raddskipanir á borð við “Alexa”.
  • Vísindarannsóknir af ýmsum toga. Það eru fleir milljónir fræðigreina birtar á ári hverju og til þess að rýna þær hafa fræðimenn notast við sjálfvirka gagnagreiningu. Dæmi eru um notkun sjálfvirkrar gagnagreiningar sem hefur hjálpað til við krabbameinsrannsóknir.
  • Tungumálarannsóknir af ýmsum toga, bæði innan háskólasamfélagsins og utan. Dæmi um tungumálarannsóknir sem notast við sjálfvirka gagnagreiningu er rannsókn Lilju Bjarkar Stefánsdóttur, málfræðings, á þingmönnum, m.a. á því hvernig Steingrímur J. Sigfússon stílfræði mál sitt eftir því hvort hann var í ráðherrastól eða almennur þingmaður. Annað dæmi er verkefni Vilhjálms Þorsteinssonar, sem kallast Greynirinn, þar sem sjálfvirk gagnagreining er notuð til þess að skoða kynjahlutföll fréttaumfjallanna á Íslandi.

 

    1. Sjálfvirkar þýðingaforrit byggjast alfarið á sjálfvirku gagnanámi og aðgengi að tölvulæsilegum texta. Google Translate er dæmi um slíkt, en því meiri texti sem Google hefur til að lesa, greina og bera saman, því nákvæmari hafa þýðingar forritsins orðið.

 

  • Rannsóknir blaðamanna. Blaðamenn notast við sjálfvirka gagnagreiningu til þess búa til fréttir, komast upp um spillingu og fleira.

Þetta eru einungis örfá dæmi um það hvernig sjálfvirk gagnagreining er notuð og til hvers. Fyrir lítið tungumál á borð við íslensku er sjálfvirk gagnagreining og gagnanám úr textum mikilvæg til þess að íslenskan haldi áfram að vera gjaldgeng í hinum stafræna heimi, fyrir utan það að þróa hjálpartæki fyrir blinda eða hreyfihamlaða.

Niðurstaða

Það eru fjölmörg lönd í Evrópu sem hafa nú þegar stigið skrefið að gefa út skýra undanþágu í höfundalögum til þess að leyfa sjálfvirka gagnagreiningu og gagnanám úr textum. Nú síðast var það Þýskaland sem í mars 2018 setti í höfundalög sín undanþágu til þess leyfa sjálfvirka gagnagreiningu á höfundaréttarvörðu efni. Það er mikilvægt að líta á þessa undanþágu til þess að auðvelda og tryggja meiri sköpun og framvindu í tækni og vísindum. Það eru miklar efasemdaraddir um hvort að sjálfvirk gagnagreining geti talist vera höfundalagabrot eður ei, og eru rök fyrir því að svo sé ekki. Tilgangur undanþágunnar á að vera til þess að tryggja lagalegan rétt einstaklinga, stofnanna og fyrirtækja til þess að skapa og þróa.

Sú undanþága sem hér um ræðir er almenn og breið, og er mest í ætt við þá undanþágu sem var innleidd inn í breskan höfundarétt árið 2014. Í ljósi áætlana Bretlands um að ganga út úr Evrópusambandinu og þar af leiðandi Evrópska efnahagssvæðinu þá myndi samræmdur höfundaréttur á sviði sjálfvirkrar gagnagreiningar milli landanna vera Íslandi í hag. Þetta gæti opnað viðskiptamöguleika milli landanna í þróun gervigreindar og annarra tækni sem notast við sjálfvirka gagnagreiningu.

Allar líkur leiða til þess að sjálfvirk gagnagreining verði innleidd í samevrópskan höfundarétt og að Ísland muni þurfa að innleiða sambærileg lög. Nú er tækifæri til þess að vera á meðal leiðandi þjóða í framsæknum höfundarétti með því að leyfa sjálfvirka gagnagreiningu. Þess fyrir utan þá er mikilvægt að skýra lagalega stöðu sjálfvirkrar gagnagreiningar til þess að íslenska verði áfram gjaldgengt tungumál í stafrænum heimi og halda áfram þróun á máltæknilegum hjálpartækjum. Það er ekki hægt að leggjast gegn því að frumvarp þetta verði leitt inn í íslensk höfundalög.

Athugasemdir

Allar athugasemdir eru ábyrgð á þeirra sem þær skrifa. Heimildin áskilur sér rétt til að fjarlægja ærumeiðandi og óviðeigandi athugasemdir.

Mest lesið á blogginu

Nýtt efni