Jawi#

This tutorial is available as an IPython notebook at Malaya/example/jawi.

This module heavily trained on news and wikipedia dataset.

Explanation#

Originally from https://www.ejawi.net/converterV2.php?go=rumi able to convert Rumi to Jawi using heuristic method. So Malaya convert from heuristic and map it using deep learning model by inverse the dataset.

چوميل -> comel

[1]:
%%time
import malaya
CPU times: user 2.77 s, sys: 3.96 s, total: 6.73 s
Wall time: 1.99 s
/home/husein/dev/malaya/malaya/tokenizer.py:214: FutureWarning: Possible nested set at position 3397
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))
/home/husein/dev/malaya/malaya/tokenizer.py:214: FutureWarning: Possible nested set at position 3927
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))

List available HuggingFace model#

[3]:
malaya.jawi.available_huggingface
[3]:
{'mesolitica/jawi-nanot5-tiny-malaysian-cased': {'Size (MB)': 205,
  'Suggested length': 2048,
  'jawi-rumi chrF2++': 97.72,
  'rumi-jawi chrF2++': 98.57,
  'from lang': ['jawi', 'rumi'],
  'to lang': ['jawi', 'rumi']},
 'mesolitica/jawi-nanot5-small-malaysian-cased': {'Size (MB)': 358,
  'Suggested length': 2048,
  'jawi-rumi chrF2++': 98.01,
  'rumi-jawi chrF2++': 98.97,
  'from lang': ['jawi', 'rumi'],
  'to lang': ['jawi', 'rumi']}}
[4]:
print(malaya.jawi.info)
tested on first 10k Rumi-Jawi test set, dataset at https://huggingface.co/datasets/mesolitica/rumi-jawi

Load HuggingFace model#

def huggingface(
    model: str = 'mesolitica/jawi-nanot5-small-malaysian-cased',
    force_check: bool = True,
    **kwargs,
):
    """
    Load HuggingFace model to translate.

    Parameters
    ----------
    model: str, optional (default='mesolitica/jawi-nanot5-small-malaysian-cased')
        Check available models at `malaya.jawi.available_huggingface`.
    force_check: bool, optional (default=True)
        Force check model one of malaya model.
        Set to False if you have your own huggingface model.

    Returns
    -------
    result: malaya.torch_model.huggingface.Translation
    """
[5]:
model = malaya.jawi.huggingface()
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.

Convert to Rumi#

def generate(self, strings: List[str], to_lang: str = 'ms', **kwargs):
    """
    Generate texts from the input.

    Parameters
    ----------
    strings : List[str]
    to_lang: str, optional (default='ms')
        target language to translate.
    **kwargs: vector arguments pass to huggingface `generate` method.
        Read more at https://huggingface.co/docs/transformers/main_classes/text_generation

        If you are using `use_ctranslate2`, vector arguments pass to ctranslate2 `translate_batch` method.
        Read more at https://opennmt.net/CTranslate2/python/ctranslate2.Translator.html?highlight=translate_batch#ctranslate2.Translator.translate_batch

    Returns
    -------
    result: List[str]
    """
[7]:
strings = ['د لابوان ابفچ.',
 'سبلومڽ لبيه باڽق جوملهڽ.',
 'دان ممرلوكن ڤمبلاان.',
 'يڠ لاين.',
 'كريتا ڤروندا درڤد بالاي ڤوليس باچوق.',
 'سلڤس ٢٨ ڤوسيڠن رونديڠن دان ١٨ مشوارت منتري سلاما كيرا-كيرا توجوه تاهون، رونديڠن ايت',
 'ڤنجاڬ ڤرلو فهم دان اد علمو اوروس ورڬ امس، ايلق ڽاڽوق لبيه تروق.',
 'ڬوندڠ اداله تيدق بنر، كات كمنترين ڤرتانين دان ايندوستري اساس تاني ﴿موا﴾.',
 'بلياو ﴿ازهم﴾ داتڠ ك فام ڤد خميس لڤس برجومڤا دڠن ستياءوسها اڬوڠ فام ﴿ستوارت راماليڠام﴾ سلڤس ايت كلوار دڠن كڽاتأن',
 'يڠ توروت حاضر، تيمبالن ڤردان منتري، داتوق سري در وان عزيزه وان اسماعيل دان منتري كابينيت.']
[8]:
model.generate(strings, to_lang = 'rumi', max_length = 1000)
spaces_between_special_tokens is deprecated and will be removed in transformers v5. It was adding spaces between `added_tokens`, not special tokens, and does not exist in our fast implementation. Future tokenizers will handle the decoding process on a per-model rule.
[8]:
['di labuan ibfc.',
 'sebelumnya lebih banyak jumlahnya.',
 'dan memerlukan pembelaan.',
 'yang lain.',
 'kereta peronda daripada balai polis bachok.',
 'selepas 28 pusingan rundingan dan 18 mesyuarat menteri selama kira-kira tujuh tahun, rundingan itu',
 'penjaga perlu faham dan ada ilmu urus warga emas, elak nyanyuk lebih teruk.',
 'gundang adalah tidak benar, kata kementerian pertanian dan industri asas tani (moa).',
 'beliau (izham) datang ke fama pada khamis lepas berjumpa dengan setiausaha agung fama (stuart ramalingam) selepas itu keluar dengan kenyataan',
 'yang turut hadir, timbalan perdana menteri, datuk seri dr wan azizah wan ismail dan menteri kabinet.']

Convert to Jawi#

[13]:
s = 'Selain itu, pameran kerjaya membantu para pelajar menentukan kerjaya yang akan diceburi oleh mereka. Seperti yang kita ketahui, pasaran kerjaya di Malaysia sangat luas dan masih banyak sektor pekerjaan di negara ini yang masih kosong kerana sukar untuk mencari tenaga kerja yang benar-benar berkelayakan. Sebagai contohnya, sektor perubatan di Malaysia menghadapi masalah kekurangan tenaga kerja yang kritikal, khususnya tenaga pakar disebabkan peletakan jawatan oleh doktor dan pakar perubatan untuk memasuki sektor swasta serta berkembangnya perkhidmatan kesihatan dan perubatan. Setelah menyedari  hakikat ini, para pelajar akan lebih berminat untuk menceburi bidang perubatan kerana pameran kerjaya yang dilaksanakan amat membantu memberikan pengetahuan am tentang kerjaya ini'
[14]:
model.generate([s], to_lang = 'jawi', max_length = 1000)
[14]:
['سلاين ايت، ڤاميرن كرجاي ممبنتو ڤارا ڤلاجر مننتوكن كرجاي يڠ اكن دچبوري اوليه مريك. سڤرتي يڠ كيت كتاهوي، ڤاسرن كرجاي د مليسيا ساڠت لواس دان ماسيه باڽق سيكتور ڤكرجأن د نڬارا اين يڠ ماسيه كوسوڠ كران سوكر اونتوق منچاري تناڬ كرجا يڠ بنر-بنر بركلاياكن. سباڬاي چونتوهڽ، سيكتور ڤروبتن د مليسيا مڠهادڤي مسئله ككوراڠن تناڬ كرجا يڠ كريتيكال، خصوصڽ تناڬ ڤاكر دسببكن ڤيليتاكن جاوتن اوليه دوكتور دان ڤاكر ڤروبتن اونتوق مماسوقكي سيكتور سواستا سرتا بركمبڠڽ ڤرخدمتن كصيحتن دان ڤروبتن. ستله مڽدري  حقيقة اين، ڤارا ڤلاجر اكن لبيه برمينت اونتوق منچبوري بيدڠ ڤروبتن كران ڤاميرن كرجاي يڠ دلقسانكن امت ممبنتو ممبريكن ڤڠتاهوان عام تنتڠ كرجاي اين']
[32]:
import re
from unidecode import unidecode

def simple_cleaning(s):
    s = unidecode(s).replace('\n', '')
    return re.sub(r'[ ]+', ' ', s).strip()

s = """
PENJUALAN ASET GAS PETRONAS DI AZERBAIJAN \n\n \n\n11.33 pg. \n\nDato’ Seri Anwar bin Ibrahim [Port Dickson]: Tuan Yang di-Pertua, saya \nmohon mengemukakan usul di bawah Peraturan Mesyuarat 18(1) dan 18(2) Peraturan-\nperaturan Majlis Mesyuarat Dewan Rakyat seperti berikut: \n\n“Bahawa Dewan yang bersidang pada hari ini merundingkan \nlaporan bahawa Petronas telah menjual aset gas di Azerbaijan dengan \nharga hampir RM10 bilion berikutan desakan kerajaan menaikkan \nbayaran dividen Petronas sebanyak RM25 bilion kepada kerajaan bagi \ntahun 2021.” \n\n \nPerkara ini adalah perkara tertentu kerana penjualan aset gas di Azerbaijan \n\nbernilai RM10 bilion dan juga pembayaran dividen kepada kerajaan sebanyak RM25 bilion \nbagi tahun 2021 adalah berbahaya dan menjejaskan masa depan Petronas. Terkait \ndengan― sedikit penjelasan.  Kerana tindakan seperti ini telah menyebabkan J.P. Morgan \nmengeluarkan Petronas dari ESG Emerging Market Bond Index dan ESG Asia Credit \nIndex.  \n\nOleh itu, perkara itu perlu disegerakan kerana Petronas mengalami defisit \nberikutan pembayaran dividen berlebihan sejak tahun 2018 sehingga kini yang memaksa \nPetronas menjual aset atau meminjam lebih banyak dana luar negara bagi menampung \naliran tunai.
"""
s = simple_cleaning(s)
model.generate([s], to_lang = 'jawi', max_length = 1000)
[32]:
['ڤنجوالان اسيت ڬس ڤيترونس د ازيربيجن ١١.٣٣ ڤڬ. داتوء سري انور بن إبراهيم تدبير عيماه: توان يڠ د-ڤرتوا، ساي موهون مڠموكاكن اصول د باوه ڤراتورن مشوارت ١٨﴿١﴾ دان ١٨﴿٢﴾ ڤراتورن-ڤراتورن مجليس مشوارت ديوان رعيت سڤرتي برايكوت:"بهاوا ديوان يڠ برسيدڠ ڤد هاري اين مرونديڠكن لاڤورن بهاوا ڤيترونس تله منجوال اسيت ڬس د أذربيجان دڠن هرڬ همڤير رم١٠ بيلياون برايكوتن دسقن كراجأن مناءيقكن بايرن ديۏيدن ڤيترونس سباڽق رم٢٥ بيلياون كڤد كراجأن باڬي تاهون ٢٠٢١." ڤركارا اين اداله ڤركارا ترتنتو كران ڤنجوالن اسيت ڬس د أذربيجان برنيلاي رم١٠ بيلياون دان جوڬ ڤمبايرن ديۏيدن كڤد كراجأن سباڽق رم٢٥ بيلياون باڬي تاهون ٢٠٢١ اداله بربهاي دان منجيجسكن ماس دڤن ڤيترونس. تركايت دڠن-- سديكيت ڤنجلسن. كران تيندقن سڤرتي اين تله مڽببكن ج.ڤ. مورڬن مڠلواركن ڤيترونس دري ايس عيم كي ايميرڬيڠ مركيت بوند اينديك س دان ايس عيم كي ايايك س ڤيچتل اسس. اوليه ايت، ڤركارا ايت ڤرلو دسڬراكن كران ڤيترونس مڠالمي دفيسيت برايكوتن ڤمبايرن ديۏيدن برلبيهن سجق تاهون ٢٠١٨ سهيڠڬ كيني يڠ ممقسا ڤيترونس منجوال اسيت اتاو ممينجم لبيه باڽق دانا لوار نڬارا باڬي منمڤوڠ اليرن توناي.']
[ ]: