3 Replies to “Sharing books: Wikisource now offers OCR”

  1. Diolch am dynnu sylw at hwn.

    Er mwyn gwneud cynnydd ym maes prosesu iaith naturiol (natural language processing), sef adain testun o ddeallusrwydd artiffisial, mae angen mwy o ddata o safon da. Mae Wicidestun yn helpu gyda hyn yn fawr.

    Dwi di defnyddio Tesseract tipyn o’r blaen. Mae’n cyfuno rheolau gyda model rhwydwaith niwral LSTM (long short-term memory), sef y gallu i ddarogan y gair nesaf mewn dilyniant. E.e. Y gath ___. Gall ddarogan y gair nesaf mewn brawddeg (short-term memory) yn seiliedig ar y testun ar ddechrau paragraff (long memory) etc.

    Y broblem gyda safon OCR y Gymraeg Tesseract yw fod y data sydd y tu ôl i’r model LSTM yn wael. Gweler https://github.com/tesseract-ocr/langdata/tree/main/cym sy’n dangos bod y data wedi ei grafu o Wicipedia! Arfer cyffredin efo ‘dysgu’ modelau iaith deallusrwydd artiffisial.

    Trwy gael data da i wella Tesseract i grafu mwy o ddata da, gall greu corpws mwy at bwrpasau deallusrwydd artiffisial.

    Dwi’n gwybod bod yr uchod yn swnio fel tipyn o broses adborthol, oherwydd dyna ydyw! Gall hyn creu risg newydd ei hun gan fod model LSTM yn ceisio mynd ar ôl patrymau mae’n ei hadnabod yn barod, a’r patrymau hynny’n cael eu defnyddio i atgyfnerthu’r model etc. Y canlyniad yw diffyg y model i ‘gyffredinoli’ ar ddata, a chymell unrhyw fath o ddarogan ac adnabod patrymau i’r hyn mae’n ei wybod eisoes.

  2. Pwyntiau diddorol iawn Huw, diolch.

    Rhaid bod cymryd Wicipedia fel corpws yn well na dim byd. Ond mae llawer wedi newid ar Wicipedia ers 2015 hefyd!

  3. Tydi Wikipedia ddim yn beth drwg, oherwydd mae’n cynnwys amrywiaeth o destunau – rhyddiaith a thechnegol – gyda chyfraniadau gan sawl awdur. Oherwydd hyn mae sawl arddull o ysgrifennu gydag amrediad eang o eiriau gwahanol i adeiladu corpws. Mae hyn yn wir am ieithoedd sydd efo nifer o erthyglau hir, cynhwysfawr, ond mae diffyg hyn yn y Gymraeg. Oes, mae’r nifer o erthyglau yn y Gymraeg yn cynyddu, ond maent yn tueddu i fod yn bytiau.

    Ffynhonell arall yw’r Cofnod o’r Senedd. Dwi’n meddwl bod Google wedi defnyddio hyn i gyfrannu at ei gwasanaeth cyfieithu. Y broblem yw ei fod yn math unffurf diflas o’r Gymraeg.

    O ystyried y ddau ffynhonell uchod, bydd cael Wicidestun o gymorth mawr. Bydd yn ein cynorthwyo i addysgu cyfrifiaduron sut i adnabod a dehongli’r Gymraeg.

    Nid oes digon o ddata ar gael ar hyn o bryd, ond byse modd ysgrifennu brawddeg a chael model iaith i ddarogan parhad i’r dilyniant. Trwy ddewis model sydd wedi ei haddysgu ar destunau o adegau gwahanol, byse modd ysgrifennu rhywbeth yng Nghymraeg William Morgan, Daniel Owen neu Kate Roberts.

    Mewn tasg gwahanol, edrychais ar amlder geiriau yn y Traethodydd dros sawl degawd. Lawrlwythais y PDF o ‘Cylchgronau Cymru’ y Llyfrgell Genedlaethol a chymwyso OCR Tesseract. Dyma ffynhonell arall o destun sydd prin yn cael ei ddefnyddio. Mwy yma: https://github.com/huwwaters/PIN/blob/master/atal_eiriau_y_traethodydd.csv

Leave a Reply

Your email address will not be published. Required fields are marked *