Isi Penting Generator karangan style#

Generate a long text with karangan style given isi penting (important facts).

This tutorial is available as an IPython notebook at Malaya/example/isi-penting-generator-karangan-style.

Results generated using stochastic methods.

[1]:
%%time
import malaya
from pprint import pprint
CPU times: user 2.81 s, sys: 3.92 s, total: 6.73 s
Wall time: 1.98 s
/home/husein/dev/malaya/malaya/tokenizer.py:214: FutureWarning: Possible nested set at position 3397
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))
/home/husein/dev/malaya/malaya/tokenizer.py:214: FutureWarning: Possible nested set at position 3927
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))

List available HuggingFace#

[2]:
malaya.generator.isi_penting.available_huggingface
[2]:
{'mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased': {'Size (MB)': 242,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024},
 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased': {'Size (MB)': 892,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024}}

Load HuggingFace#

Transformer Generator in Malaya is quite unique, most of the text generative model we found on the internet like GPT2 or Markov, simply just continue prefix input from user, but not for Transformer Generator. We want to generate an article or karangan like high school when the users give ‘isi penting’.

def huggingface(
    model: str = 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased',
    force_check: bool = True,
    **kwargs,
):
    """
    Load HuggingFace model to generate text based on isi penting.

    Parameters
    ----------
    model: str, optional (default='mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased')
        Check available models at `malaya.generator.isi_penting.available_huggingface`.
    force_check: bool, optional (default=True)
        Force check model one of malaya model.
        Set to False if you have your own huggingface model.

    Returns
    -------
    result: malaya.torch_model.huggingface.IsiPentingGenerator
    """
[3]:
model = malaya.generator.isi_penting.huggingface()
Loading the tokenizer from the `special_tokens_map.json` and the `added_tokens.json` will be removed in `transformers 5`,  it is kept for forward compatibility, but it is recommended to update your `tokenizer_config.json` by uploading it again. You will see the new `added_tokens_decoder` attribute that will store the relevant information.
You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. If you see this, DO NOT PANIC! This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thouroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565

generate#

def generate(
    self,
    strings: List[str],
    mode: str = 'surat-khabar',
    **kwargs,
):
    """
    generate a long text given a isi penting.

    Parameters
    ----------
    strings : List[str]
    mode: str, optional (default='surat-khabar')
        Mode supported. Allowed values:

        * ``'surat-khabar'`` - news style writing.
        * ``'tajuk-surat-khabar'`` - headline news style writing.
        * ``'artikel'`` - article style writing.
        * ``'penerangan-produk'`` - product description style writing.
        * ``'karangan'`` - karangan sekolah style writing.

    **kwargs: vector arguments pass to huggingface `generate` method.
        Read more at https://huggingface.co/docs/transformers/main_classes/text_generation

    Returns
    -------
    result: List[str]
    """

Good thing about HuggingFace#

In generate method, you can do greedy, beam, sampling, nucleus decoder and so much more, read it at https://huggingface.co/blog/how-to-generate

And recently, huggingface released https://huggingface.co/blog/introducing-csearch

[4]:
isi_penting = ['ayam yang sihat dan sejahtera', 'nasi ayam yang sedap dan lazat', 'kedai bernama Husein Nasi Ayam']
[5]:
pprint(model.generate(isi_penting, mode = 'karangan',
    do_sample=True,
    max_length=256,
    top_k=50,
    top_p=0.95,))
spaces_between_special_tokens is deprecated and will be removed in transformers v5. It was adding spaces between `added_tokens`, not special tokens, and does not exist in our fast implementation. Future tokenizers will handle the decoding process on a per-model rule.
['Mutakhir ini, pelbagai berita mengenai penternakan ayam di negara ini hangat '
 'diperkatakan di media sosial. Hal ini demikian kerana ayam merupakan sumber '
 'protein yang sangat penting dalam kehidupan seharian dan terdapat banyak '
 'lemak, lemak dan kalori yang boleh disalurkan secara terus ke dalam badan '
 'kita melalui cara yang mudah seperti memasak. Kita perlu sedar bahawa haiwan '
 'juga memerlukan sumber makanan yang cukup untuk kelangsungan hidup mereka. '
 'Oleh itu, kita perlu mengenal pasti cara-cara untuk memastikan proses '
 'penternakan ayam berjalan dengan lancar. Prakarsa utama dalam memastikan '
 'penjagaan ayam yang halal adalah dengan memastikan setiap produk yang '
 'dihasilkan selamat untuk dimakan. Sebagai contoh, pihak pengeluar telah '
 'membuat senarai produk yang menggunakan bahan-bahan yang selamat untuk '
 'dimakan, dimana bahan-bahan seperti ayam dan telur sentiasa berada di dalam '
 'keadaan yang bersih. Dengan berbuat demikian, pengguna dapat menjamin '
 'keselamatan makanan mereka dan kesihatan ayam terjamin. Penyediaan makanan '
 'yang selamat dan bersih merupakan satu cara yang baik bagi ayam untuk '
 'memastikan tahap kesihatan ayam terjamin dan mempunyai sijil halal. Bak kata '
 'peribahasa Melayu, sediakan payung sebelum hujan yang bermaksud kita '
 'seeloknya bersedia sebelum hujan. Amalan ini sekurang-kurangnya dapat '
 'melahirkan ayam yang sihat dan sejahtera pada masa hadapan. Oleh itu, setiap '
 'pihak perlu berganding bahu dalam usaha untuk memastikan ayam yang dimasak '
 'memenuhi standard kesihatan diri dan kebersihannya. Terdapat juga cara untuk']
[6]:
pprint(model.generate(isi_penting, mode = 'karangan',
    do_sample=True,
    max_length=256,
    penalty_alpha=0.8, top_k=4,))
['Dalam era pasca-2020 yang penuh cabaran lantaran pandemik COVID-19, negara '
 'telah kehilangan khazanah makanan yang amat bernilai buat rakyat. Ayam '
 'merupakan makanan asas yang disediakan untuk penduduk negara yang bergantung '
 'kepada kita untuk menghantar makanan ke rumah masing-masing. Oleh itu, kita '
 'perlu mengenal pasti cara terbaik untuk menyediakan nasi berlauk yang cukup '
 'sedap untuk dimakan bersama-sama. Cara pertama untuk menyediakan nasi '
 'berlauk yang cukup sedap adalah dengan membawa makanan tersebut ke dalam '
 'mangkuk yang disediakan. Sebaiknya kita membawa makanan tersebut ke dalam '
 'mangkuk yang disediakan dan kita perlu mengambil makanan tersebut dengan '
 'teliti kerana ia mengandungi zat-zat yang sangat penting untuk kesihatan '
 'tubuh badan kita. Antara cara lain untuk menyediakan nasi berlauk yang cukup '
 'sedap adalah dengan membawa hidangan makanan tersebut ke dalam mangkuk yang '
 'disediakan. Seperti peribahasa Melayu, di mana ada gula, di situ ada semut. '
 'Dengan mudahnya kita akan dibawa ke mangkuk makanan yang disediakan oleh ibu '
 'dan bapa untuk dimakan bersama-sama. Bagi yang berkemampuan dan mempunyai '
 'anak-anak yang saban hari dihidangkan dengan nasi berlauk, kita hendaklah '
 'memastikan anak-anak mempunyai selera makan yang seimbang. Ibu bapa juga '
 'perlu memastikan anak-anak mempunyai tahap kebersihan yang baik']
[7]:
# http://mieadham86.blogspot.com/2016/09/isi-isi-penting-karangan-bahasa-melayu.html
# CARA MENJADI MURID CEMERLANG

isi_penting = ['Rajin berusaha – tidak mudah putus asa',
               'Menghormati orang yang lebih tua – mendapat keberkatan',
               'Melibatkan diri secara aktif dalam bidang kokurikulum',
               'Memberi tumpuan ketika guru mengajar.',
               'Berdisiplin – menepati jadual yang disediakan.',
               'Bercita-cita tinggi – mempunyai keazaman yang tinggi untuk berjaya']
[8]:
pprint(model.generate(isi_penting, do_sample=True, mode = 'karangan',
    max_length=256,
    top_k=50,
    top_p=0.95, ))
["'Kejayaan' bukan sahaja dirasai masyarakat di negara ini tetapi seluruh "
 'masyarakat kita di negara ini kerana ia adalah tulang belakang kejayaan '
 'kokurikulum yang berjaya. Bukan sahaja dalam kalangan pelajar malah '
 'orang-orang tua juga mendapat kejayaan yang sama kerana bangsa kita itu '
 'bersatu padu. Namun, apa yang berlaku di negara kita ibarat telur di hujung '
 'tanduk, selepas seharian kita melangit akibat daripada salah satu impak '
 'negatif daripada kegagalan ini. Jika ditelusuri, kejayaan pelajar '
 'terutamanya dalam akademik tidak akan dapat dicapai jika mereka terus '
 'cemerlang dalam akademik tanpa sokongan moral. Apa yang lebih membimbangkan, '
 'pelajar-pelajar yang cemerlang semakin dipinggirkan kerana tidak mendapat '
 'pendidikan yang sempurna. Kesilapan dalam menghafal dan menafsiran mata '
 'pelajaran ini mungkin disebabkan mereka tidak bersungguh-sungguh dalam '
 'subjek atau program yang disertai. Mereka akan ketagih dan mereka perlu '
 'melalui pelbagai cabaran untuk mendapat kejayaan dalam peperiksaan yang '
 'disertai. Justeru itu, kita seharusnya mengenali cara-cara agar kejayaan '
 'pelajar cemerlang tidak sia-sia. Cara menyinggung perasaan perasaan '
 'merupakan amalan mulia yang sering dilakukan oleh masyarakat kita. Antara '
 'cara lain untuk meredakan perasaan adalah dengan memberi tumpuan ketika guru '
 'mengajar atau mengajar. Dengan cara ini, pelajar bukan sahaja memahami '
 'tetapi dapat menilai suasana dan jiwa mereka dengan lebih baik. Guru di '
 'sekolah']
[9]:
pprint(model.generate(isi_penting, mode = 'karangan',
    do_sample=True,
    max_length=256,
    penalty_alpha=0.8, top_k=4,))
['Dalam mendepani arus modenisasi hari ini, pelbagai cabaran yang bakal '
 'menghambat kemajuan negara pada masa kini. Misalnya, pandemik COVID-19 yang '
 'melanda negara telah menyebabkan banyak negara mengalami kemelesetan '
 'ekonomi, pengangguran dan juga kadar pengangguran yang tinggi. Namun '
 'demikian, terdapat segelintir yang langsung tidak mengambil kisah dan '
 'mengambil endah akan nasib yang menimpa negara kita. Sebagai warganegara '
 'Malaysia, kita sewajarnya bersyukur dan bertuah kerana mempunyai pelbagai '
 'kemudahan dan infrastruktur yang cukup baik disamping mengharungi kehidupan '
 'yang sejahtera dan harmoni. Sebagai warganegara Malaysia yang bertuah, kita '
 'haruslah mengharumkan nama negara di mata dunia dengan melakukan pelbagai '
 'aktiviti yang dapat membantu kita untuk menjadi seorang yang lebih baik. '
 'Antara aktiviti yang boleh dilakukan adalah seperti bersukan, sukan, '
 'melepak, dan beriadah bersama-sama. Aktiviti ini adalah penting dalam '
 'membentuk generasi yang celik teknologi dan mampu menjadi seorang yang lebih '
 'baik. Persis peribahasa Melayu, berakit-rakit ke hulu berenang-renang ke '
 'tepian, bersakit-sakit dahulu, bersenang-senang kemudian. Aktiviti ini dapat '
 'memberikan motivasi kepada kita untuk terus berusaha dalam mencapai kejayaan '
 'yang lebih baik. Oleh itu, kita seharusnya bersyukur dengan kemudahan dan '
 'infrastruktur yang disediakan oleh Kerajaan Malaysia bagi membantu kita '
 'mengatasi']