Rhannwch lyfrau: Wicidestun yn cynnig OCR

Dyma bwt i gofnodi bod Wicidestun bellach yn cynnig OCR yn ei ryngwyneb trwy Tesseract JS – ers cwpl o flynyddoedd mae’n debyg.

Mewn geiriau eraill mae modd sganio a rhannu llyfrau ar y wefan, a cheisio trosi’r delweddau i ffurf testun ar y wefan ei hun gyda system adnabod nodau gweledol. Cyn hyn roedd angen ffeindio ffordd o adnodau y nodau eich hun felly mae cynnig botwm yn symleiddio’r broses.

A dweud y gwir dw i heb edrych at y wefan Wicidestun Gymraeg ers tro. Efallai bod eisiau mwy o lyfrau cyn i’r wefan gyrraedd mas critigol.

Mae chwiliadau yn amlygu rhai adnoddau a rhai diffygion. Er enghraifft mae cerddi Dafydd ap Gwilym yna, ychydig o gerddi Gwerful Mechain, rhai Iolo Goch. Dyma’r barddoniaeth i gyd o’r Gododdin ymlaen.

Ond does dim Ellis Wynne eto ac does dim Emrys ap Iwan eto i enwi ond dau. Mae rhain yn enghreifftiau o awduron sydd ‘angen’ bod ar gael. Wrth gwrs mae’n cymryd amser sylweddol i sganio llyfr yn ei gyfanrwydd.

Mae’r Llyfrgell Genedlaethol wedi gwneud llawer iawn o ddigido llyfrau o bob math, ond dw i ddim yn ymwybodol o brosiect gan unrhyw sefydliad i rannu llyfrau ar Wicidestun yn benodol.

Yn bennaf ar y wefan fe gewch chi lyfrau sydd yn y parth cyhoeddus achos maen nhw allan o hawlfraint – ond mae rhai eithriadau o bethau mwy diweddar sydd o dan drwyddedau agored.

Mae’n rhaid nodi bod ymdrechion clodwiw gan unigolion i sganio a rhannu llyfrau. Un enghraifft ydy Gwaith John Thomas, hunangofiant y Parch John Thomas, Lerpwl o’i fywyd cynnar; o’i febyd i’w ofalaeth gyntaf yng Nghapel Bwlch Newydd, Abernant, Sir Gaerfyrddin. Diolch i Alwyn ap Huw am rannu ac am dynnu fy sylw at y system OCR.

Bellach os ydych chi’n chwilio am “John Thomas Lerpwl” ar Wicipedia mae dolen i’r llyfr ar Wicidestun yn ymddangos. Mewn ychydig bach o amser bydd peiriannau chwilio fel Google yn cynnig y llyfr fel canlyniad – cofiwch fod llwythi o dermau yn y testun yn ogystal â’r teitl ac awdur.

Dyma dudalen am y system Tesseract sydd hefyd yn cyfeirio at y ffeiliau data Cymraeg mae’r system yn eu defnyddio. Mewn theori mae modd diweddaru’r ffeiliau i gael canlyniadau gwell.

Wrth gwrs os oes unrhyw lyfr sydd wedi ei ddigido i destun yn barod mae modd rhannu’r testun yn syth heb yr angen i ddefnyddio Tesseract.

Gweler hefyd: Rhannu llyfrau Cymraeg – gwersi o Norwy

Llyfrgell Genedlaethol: lluniau Geoff Charles


Gwybodaeth


Gwybodaeth


Gwybodaeth


Gwybodaeth


Gwybodaeth


Gwybodaeth


Gwybodaeth

Mae’r sylwadau ar fy nghofnod am Library of Congress wedi bod yn dda iawn.

I fod yn deg mae cannoedd o luniau o’r archifau Llyfrgell Genedlaethol yn y parth cyhoeddus.

Mae’r saith llun yma gan Geoff Charles. Mae lluniau gan ffotograffwyr eraill hefyd.

Maen nhw i gyd yn dweud ‘No known copyright restrictions’ ar Flickr, sy’n dda iawn.

Nawr allem ni rhyddhau’r llyfrau fel Yn y Lhyvyr Hwnn hefyd?
🙂

Mantais y parth cyhoeddus

Wyt ti erioed wedi clywed araith gan wleidydd na gwas sifil am fanteision y parth cyhoeddus? (Dw i erioed wedi. Ond dw i wedi clywed y geiriau ‘eiddo deallusol’, ‘intellectual property’ ac ‘IP’ sawl gwaith.)


Fersiwn mawr


Fersiwn mawr


Fersiwn mawr


Fersiwn mawr


Fersiwn mawr


Fersiwn mawr

Mae’r lluniau hyfryd yma yn dod o’r archif Library of Congress. Dim trwydded, dim hawlfraint, dim ond ‘No known copyright restrictions’.

Dyma ddau wefan sydd wedi bod yn rhydd i rannu’r lluniau yn y pythefnos diwethaf:

Buzzfeed, mis Gorffenaf 2011 (31,631 yn dilyn ar Twitter, lluniau wedi cael 490 hoff, 69 ‘response’ hyd yn hyn)

How To Be A Retronaut, heddiw (9597 yn dilyn ar Twitter, 17600 yn dilyn y tudalen Facebook, mwy o bobol ar RSS ayyb)

Diolch Library of Congress, UDA. (Gweler hefyd: lluniau NASA)

Wrth gwrs mae lluniau yn dangos un math penodol o Gymru, sef yr 19eg ganrif. Ond mae’n iawn, mae’n rhan o’n hanes, diwylliant ac etifeddiaeth.

Dyma un mantais y parth cyhoeddus i bobol sy’n trio hyrwyddo Cymru neu codi ymwybyddiaeth am Gymru, e.e. Llywodraeth Cymru, Visit Wales.

Ond pa mor aml ydy blogiau o gwmpas y byd yn rhannu stwff o Gymru?

Paid anghofio’r parth cyhoeddus. Syniad da i Lyfrgell Genedlaethol sydd yn digido pethau o ganrifoedd yn ôl ac yn trio rhoi nhw dan drwydded hawlfraint gaeth iawn.

40,000 llun yn yr archif Llyfrgell Genedlaethol

“Mae’n dal i sioc i sawl un, ond mae’r Llyfrgell Genedlaethol yn gartref i 40,000 o luniau” meddai cofnod newydd ar blog Llyfrgell Genedlaethol.

Dw i’n meddwl am y diffyg cynnwys ar y we Gymraeg/Cymru bob dydd felly gallwn i awgrymu dwy strategaeth efallai. Achos ddylai hwn ddim bod yn sioc.

Defnyddia TinEye, chwilio gweledol, i asesu poblogrwydd lluniau. 0 canlyniad hyd yn hyn. Dylai hwn bod yn sioc. Cf. American Gothic ar TinEye: 1235 canlyniad.

1a. Diffyg rhannu lluniau a diffyg anogaeth amlwg

Diolch i’r Llyfrgell am rhannu’r llun Harbwr Aberystwyth o 1792 isod.

Diolch hefyd iddyn nhw am rhannu’r llun yma o’r Harbwr rhwng 1880 a 1899.

Mae Siôn yn dweud

Mae’r Llyfrgell yn edrych ar drwyddedu agored ar hyn o bryd.

Rydym am gasglu rhagor o dystiolaeth ynghylch opsiynau trwyddedu cyn gwneud penderfyniad ar ba ddeunydd i’w drwyddedu a’r math o drwydded agored i’w defnyddio.

Un munud…

Blwyddyn 1792? Blwyddyn 1899? Rydyn ni’n siarad am lluniau sy’n mwy na 100 mlynedd oed. Does dim enw arlunydd i gael am y ddau lun yma. Ond mae’n debyg bod nhw yn y parth cyhoeddus. Fu farw’r arlunydd cyn 1af mis Ionawr 1941? Parth cyhoeddus.

Felly pam ydyn ni’n siarad am drwyddedau agored o gwbl yn y cyd-destun yma?

Paid camddeall – dw i’n ffan mawr o drwyddedau agored, Creative Commons yn enwedig. Dw i wedi blogio amdanyn nhw sawl gwaith. Mae unrhyw trwydded am gynnwys – o “cedwir pob hawl” i Creative Commons yn dibynnu – ar hawlfraint. Wrth gwrs mae’r Llyfrgell yn berchen ar luniau mwy newydd felly bydd trwydded agored yn wych yna.

Ond beth sy’n digwydd yma? Wel mae’n edrych fel mae’r Llyfrgell yn tynnu lluniau o’r delweddau ac yn trio perchen ar y delweddau. Dw i ddim yn siwr gyda lluniau ond maen nhw yn wneud rhywbeth debyg gyda llyfrau, dw i wedi cael sgwrs ar y flog yma gyda nhw. (Crynodeb: os ti eisiau postio lluniau o’r llyfr printiedig cyntaf yn Gymraeg, sef Yn y Lhyvyr Hwnn o 1546, maen nhw yn gofyn am £6. Anhygoel!)

Ydw i’n torri’r rheolau gan bostio’r lluniau uchod?

Pam ydw i mor obsesed gyda hawlfraint ar hyn o bryd? Achos dw i’n hoffi lluniau fel yr enghreifftiau uchod a dw i’n caru Cymru, yr iaith Gymraeg ac ein hetifeddiaeth.

Dw i’n ddiolchgar iawn am waith y Llyfrgell Genedlaethol yma ond dylen nhw rannu/dosbarthu ac annog rhannu heb gyfyngiad am lluniau yn y parth cyhoeddus. Byddan nhw yn werthu mwy o brintiau yn bendant.

rhannwch-pliz?!!

1b. Diffyg ffrydiau

Un ffordd pwerus iawn i godi defnydd ac ymwybyddiaeth yw ffrydiau o luniau. Mae archif o 40,000 yn wych mewn theori. Ond gawn ni weld un – dim ond un – llun sy’n berthnasol heddiw? Sut ydw i’n gallu bod yn ffan o luniau Cymru, Cymru a’r Llyfrgell Genedlaethol? Sut ydw i’n gallu dilyn?

Dw i newydd dechrau blog arall am lluniau Cymru:

http://einlluniau.tumblr.com

Wrth gwrs mae hwn yn gyflym, prawf o’r cysyniad.

Gweler hefyd: lluniau MAWR ar The Big Picture ac In Focus. Neu dilyna @big_picture a @in_focus.

Cer i chwilio am mwy o’r archif lluniau. Bydd yn ofalus gyda hawlfraint – ond os maen nhw yn fas o hawlfraint, defnyddia nhw. Cofia: newid / addasu. Dydy’r Llyfrgell Genedlaethol ddim yn gallu siwio pawb. Mewn gwirionedd, dw i’n meddwl bydd pawb, yn gynnwys Cymru a’r Llyfrgell, yn ennill trwy fwy o ddefnydd.