Rhannwch lyfrau: Wicidestun yn cynnig OCR

Dyma bwt i gofnodi bod Wicidestun bellach yn cynnig OCR yn ei ryngwyneb trwy Tesseract JS – ers cwpl o flynyddoedd mae’n debyg.

Mewn geiriau eraill mae modd sganio a rhannu llyfrau ar y wefan, a cheisio trosi’r delweddau i ffurf testun ar y wefan ei hun gyda system adnabod nodau gweledol. Cyn hyn roedd angen ffeindio ffordd o adnodau y nodau eich hun felly mae cynnig botwm yn symleiddio’r broses.

A dweud y gwir dw i heb edrych at y wefan Wicidestun Gymraeg ers tro. Efallai bod eisiau mwy o lyfrau cyn i’r wefan gyrraedd mas critigol.

Mae chwiliadau yn amlygu rhai adnoddau a rhai diffygion. Er enghraifft mae cerddi Dafydd ap Gwilym yna, ychydig o gerddi Gwerful Mechain, rhai Iolo Goch. Dyma’r barddoniaeth i gyd o’r Gododdin ymlaen.

Ond does dim Ellis Wynne eto ac does dim Emrys ap Iwan eto i enwi ond dau. Mae rhain yn enghreifftiau o awduron sydd ‘angen’ bod ar gael. Wrth gwrs mae’n cymryd amser sylweddol i sganio llyfr yn ei gyfanrwydd.

Mae’r Llyfrgell Genedlaethol wedi gwneud llawer iawn o ddigido llyfrau o bob math, ond dw i ddim yn ymwybodol o brosiect gan unrhyw sefydliad i rannu llyfrau ar Wicidestun yn benodol.

Yn bennaf ar y wefan fe gewch chi lyfrau sydd yn y parth cyhoeddus achos maen nhw allan o hawlfraint – ond mae rhai eithriadau o bethau mwy diweddar sydd o dan drwyddedau agored.

Mae’n rhaid nodi bod ymdrechion clodwiw gan unigolion i sganio a rhannu llyfrau. Un enghraifft ydy Gwaith John Thomas, hunangofiant y Parch John Thomas, Lerpwl o’i fywyd cynnar; o’i febyd i’w ofalaeth gyntaf yng Nghapel Bwlch Newydd, Abernant, Sir Gaerfyrddin. Diolch i Alwyn ap Huw am rannu ac am dynnu fy sylw at y system OCR.

Bellach os ydych chi’n chwilio am “John Thomas Lerpwl” ar Wicipedia mae dolen i’r llyfr ar Wicidestun yn ymddangos. Mewn ychydig bach o amser bydd peiriannau chwilio fel Google yn cynnig y llyfr fel canlyniad – cofiwch fod llwythi o dermau yn y testun yn ogystal â’r teitl ac awdur.

Dyma dudalen am y system Tesseract sydd hefyd yn cyfeirio at y ffeiliau data Cymraeg mae’r system yn eu defnyddio. Mewn theori mae modd diweddaru’r ffeiliau i gael canlyniadau gwell.

Wrth gwrs os oes unrhyw lyfr sydd wedi ei ddigido i destun yn barod mae modd rhannu’r testun yn syth heb yr angen i ddefnyddio Tesseract.

Gweler hefyd: Rhannu llyfrau Cymraeg – gwersi o Norwy

4 Ateb i “Rhannwch lyfrau: Wicidestun yn cynnig OCR”

  1. Diolch am dynnu sylw at hwn.

    Er mwyn gwneud cynnydd ym maes prosesu iaith naturiol (natural language processing), sef adain testun o ddeallusrwydd artiffisial, mae angen mwy o ddata o safon da. Mae Wicidestun yn helpu gyda hyn yn fawr.

    Dwi di defnyddio Tesseract tipyn o’r blaen. Mae’n cyfuno rheolau gyda model rhwydwaith niwral LSTM (long short-term memory), sef y gallu i ddarogan y gair nesaf mewn dilyniant. E.e. Y gath ___. Gall ddarogan y gair nesaf mewn brawddeg (short-term memory) yn seiliedig ar y testun ar ddechrau paragraff (long memory) etc.

    Y broblem gyda safon OCR y Gymraeg Tesseract yw fod y data sydd y tu ôl i’r model LSTM yn wael. Gweler https://github.com/tesseract-ocr/langdata/tree/main/cym sy’n dangos bod y data wedi ei grafu o Wicipedia! Arfer cyffredin efo ‘dysgu’ modelau iaith deallusrwydd artiffisial.

    Trwy gael data da i wella Tesseract i grafu mwy o ddata da, gall greu corpws mwy at bwrpasau deallusrwydd artiffisial.

    Dwi’n gwybod bod yr uchod yn swnio fel tipyn o broses adborthol, oherwydd dyna ydyw! Gall hyn creu risg newydd ei hun gan fod model LSTM yn ceisio mynd ar ôl patrymau mae’n ei hadnabod yn barod, a’r patrymau hynny’n cael eu defnyddio i atgyfnerthu’r model etc. Y canlyniad yw diffyg y model i ‘gyffredinoli’ ar ddata, a chymell unrhyw fath o ddarogan ac adnabod patrymau i’r hyn mae’n ei wybod eisoes.

  2. Tydi Wikipedia ddim yn beth drwg, oherwydd mae’n cynnwys amrywiaeth o destunau – rhyddiaith a thechnegol – gyda chyfraniadau gan sawl awdur. Oherwydd hyn mae sawl arddull o ysgrifennu gydag amrediad eang o eiriau gwahanol i adeiladu corpws. Mae hyn yn wir am ieithoedd sydd efo nifer o erthyglau hir, cynhwysfawr, ond mae diffyg hyn yn y Gymraeg. Oes, mae’r nifer o erthyglau yn y Gymraeg yn cynyddu, ond maent yn tueddu i fod yn bytiau.

    Ffynhonell arall yw’r Cofnod o’r Senedd. Dwi’n meddwl bod Google wedi defnyddio hyn i gyfrannu at ei gwasanaeth cyfieithu. Y broblem yw ei fod yn math unffurf diflas o’r Gymraeg.

    O ystyried y ddau ffynhonell uchod, bydd cael Wicidestun o gymorth mawr. Bydd yn ein cynorthwyo i addysgu cyfrifiaduron sut i adnabod a dehongli’r Gymraeg.

    Nid oes digon o ddata ar gael ar hyn o bryd, ond byse modd ysgrifennu brawddeg a chael model iaith i ddarogan parhad i’r dilyniant. Trwy ddewis model sydd wedi ei haddysgu ar destunau o adegau gwahanol, byse modd ysgrifennu rhywbeth yng Nghymraeg William Morgan, Daniel Owen neu Kate Roberts.

    Mewn tasg gwahanol, edrychais ar amlder geiriau yn y Traethodydd dros sawl degawd. Lawrlwythais y PDF o ‘Cylchgronau Cymru’ y Llyfrgell Genedlaethol a chymwyso OCR Tesseract. Dyma ffynhonell arall o destun sydd prin yn cael ei ddefnyddio. Mwy yma: https://github.com/huwwaters/PIN/blob/master/atal_eiriau_y_traethodydd.csv

  3. Mae Alwyn wedi gwneud gwaith ardderchog, er mae wedi dod ar draws mater sy’n creu cyfyng gyngor iddo:
    https://cy.wikipedia.org/wiki/Wicipedia:Y_Caffi#Hiliaeth_mewn_hen_lyfrau

    Mae darllen y sylwadau uchod gan Huw yn ddiddordol, ac mae ei bwynt: Tydi Wikipedia ddim yn beth drwg, oherwydd mae’n cynnwys amrywiaeth o destunau – rhyddiaith a thechnegol – gyda chyfraniadau gan sawl awdur. yn berthnasol iawn i mi, gan fod y golygydd ynof yn ysu am safonni erthyglau a sicrhau cysondeb o ran ffurf, sillafu, cystrawen, ond mae’n debyg mai eu gydael gyda chyn lleied o newid ddylwn i oni bai bod gwall.

Mae'r sylwadau wedi cau.