Rhannwch lyfrau: Wicidestun yn cynnig OCR

Dyma bwt i gofnodi bod Wicidestun bellach yn cynnig OCR yn ei ryngwyneb trwy Tesseract JS – ers cwpl o flynyddoedd mae’n debyg.

Mewn geiriau eraill mae modd sganio a rhannu llyfrau ar y wefan, a cheisio trosi’r delweddau i ffurf testun ar y wefan ei hun gyda system adnabod nodau gweledol. Cyn hyn roedd angen ffeindio ffordd o adnodau y nodau eich hun felly mae cynnig botwm yn symleiddio’r broses.

A dweud y gwir dw i heb edrych at y wefan Wicidestun Gymraeg ers tro. Efallai bod eisiau mwy o lyfrau cyn i’r wefan gyrraedd mas critigol.

Mae chwiliadau yn amlygu rhai adnoddau a rhai diffygion. Er enghraifft mae cerddi Dafydd ap Gwilym yna, ychydig o gerddi Gwerful Mechain, rhai Iolo Goch. Dyma’r barddoniaeth i gyd o’r Gododdin ymlaen.

Ond does dim Ellis Wynne eto ac does dim Emrys ap Iwan eto i enwi ond dau. Mae rhain yn enghreifftiau o awduron sydd ‘angen’ bod ar gael. Wrth gwrs mae’n cymryd amser sylweddol i sganio llyfr yn ei gyfanrwydd.

Mae’r Llyfrgell Genedlaethol wedi gwneud llawer iawn o ddigido llyfrau o bob math, ond dw i ddim yn ymwybodol o brosiect gan unrhyw sefydliad i rannu llyfrau ar Wicidestun yn benodol.

Yn bennaf ar y wefan fe gewch chi lyfrau sydd yn y parth cyhoeddus achos maen nhw allan o hawlfraint – ond mae rhai eithriadau o bethau mwy diweddar sydd o dan drwyddedau agored.

Mae’n rhaid nodi bod ymdrechion clodwiw gan unigolion i sganio a rhannu llyfrau. Un enghraifft ydy Gwaith John Thomas, hunangofiant y Parch John Thomas, Lerpwl o’i fywyd cynnar; o’i febyd i’w ofalaeth gyntaf yng Nghapel Bwlch Newydd, Abernant, Sir Gaerfyrddin. Diolch i Alwyn ap Huw am rannu ac am dynnu fy sylw at y system OCR.

Bellach os ydych chi’n chwilio am “John Thomas Lerpwl” ar Wicipedia mae dolen i’r llyfr ar Wicidestun yn ymddangos. Mewn ychydig bach o amser bydd peiriannau chwilio fel Google yn cynnig y llyfr fel canlyniad – cofiwch fod llwythi o dermau yn y testun yn ogystal â’r teitl ac awdur.

Dyma dudalen am y system Tesseract sydd hefyd yn cyfeirio at y ffeiliau data Cymraeg mae’r system yn eu defnyddio. Mewn theori mae modd diweddaru’r ffeiliau i gael canlyniadau gwell.

Wrth gwrs os oes unrhyw lyfr sydd wedi ei ddigido i destun yn barod mae modd rhannu’r testun yn syth heb yr angen i ddefnyddio Tesseract.

Gweler hefyd: Rhannu llyfrau Cymraeg – gwersi o Norwy