Isi Penting Generator: Headline News Style#

Generate a long text output with the style of a news headline when given important facts (isi penting in Malay).

This tutorial is available as an IPython notebook at Malaya/example/isi-penting-generator-headline-news-style.

The results you see here are generated using stochastic methods. Learn more about the stochastic process on Wikipedia

[1]:
%%time
import malaya
from pprint import pprint
CPU times: user 3.01 s, sys: 503 ms, total: 3.51 s
Wall time: 3.3 s
/home/maguswyvern/PythonVenvs/dev-malaya/lib/python3.10/site-packages/malaya/tokenizer.py:214: FutureWarning: Possible nested set at position 3397
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))
/home/maguswyvern/PythonVenvs/dev-malaya/lib/python3.10/site-packages/malaya/tokenizer.py:214: FutureWarning: Possible nested set at position 3927
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))

List all available HuggingFace transformers#

The malaya library has a built in function to find all available transformers for this task. As of writing we have two transformers which are:

  1. mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased https://huggingface.co/mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased

  2. mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased https://huggingface.co/mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased

[2]:
malaya.generator.isi_penting.available_huggingface
[2]:
{'mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased': {'Size (MB)': 242,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024},
 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased': {'Size (MB)': 892,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024}}
[3]:
print(malaya.generator.isi_penting.info)

tested on semisupervised summarization on unseen AstroAwani 20 news, https://github.com/huseinzol05/malay-dataset/tree/master/summarization/semisupervised-astroawani
each news compared ROUGE with 5 different generated texts.


Load HuggingFace#

The Generator transformer in malaya is quite unique, most of the text generative model we found on the internet like GPT2 or Markov simply just continue the prefix input from user, but not for our Generator transformer.

We want to generate an article or karangan like high school when the users give ‘isi penting’ or important facts for the article.

def huggingface(
    model: str = 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased',
    force_check: bool = True,
    **kwargs,
):
    """
    Load HuggingFace model to generate text based on isi penting.

    Parameters
    ----------
    model: str, optional (default='mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased')
        Check available models at `malaya.generator.isi_penting.available_huggingface`.
    force_check: bool, optional (default=True)
        Force check model one of malaya model.
        Set to False if you have your own huggingface model.

    Returns
    -------
    result: malaya.torch_model.huggingface.IsiPentingGenerator
    """
[4]:
model = malaya.generator.isi_penting.huggingface()
You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565

Here is the generate function and the parameters it expects.

def generate(
    self,
    strings: List[str],
    mode: str = 'surat-khabar',
    **kwargs,
):
    """
    generate a long text given a isi penting.

    Parameters
    ----------
    strings : List[str]
    mode: str, optional (default='surat-khabar')
        Mode supported. Allowed values:

        * ``'surat-khabar'`` - news style writing.
        * ``'tajuk-surat-khabar'`` - headline news style writing.
        * ``'artikel'`` - article style writing.
        * ``'penerangan-produk'`` - product description style writing.
        * ``'karangan'`` - karangan sekolah style writing.

    **kwargs: vector arguments pass to huggingface `generate` method.
        Read more at https://huggingface.co/docs/transformers/main_classes/text_generation

    Returns
    -------
    result: List[str]
    """

Benefits of HuggingFace#

With the generate method you can use Greedy, Beam, Sampling, Nucleus decoder and so much more, read more about it on the HuggingFace Article on How to Generate. And recently, HuggingFace also released a new article Introducing Csearch

Let’s give a few lines of important facts or isi penting for the model to use to generate text.

[5]:
isi_penting = ['Dr M perlu dikekalkan sebagai perdana menteri',
              'Muhyiddin perlulah menolong Dr M',
              'rakyat perlu menolong Muhyiddin']

As above, we can give any isi penting even if it does not make any sense. Now we’ll use the generate method and pass in a few of the vector arguments mentioned in a previous linked article by HuggingFace.

[6]:
pprint(model.generate(isi_penting, mode = 'tajuk-surat-khabar',
    do_sample=True,
    max_length=256,
    top_k=50,
    top_p=0.95,))
['KUALA LUMPUR:Perdana Menteri Tan Sri Muhyiddin Yassin perlu meletakkan '
 'jawatan sebagai perdana menteri (PM) sekiranya beliau terus gagal membentuk '
 'kabinet, kata Setiausaha Agung Bersatu Datuk Seri Hamzah Zainudin. Menurut '
 'Hamzah, Muhyiddin perlulah menolong Dr Mahathir memimpin negara ini dengan '
 'melakukan perubahan yang terbaik sebagai perdana menteri. Tegas Hamzah, '
 'tidak salah untuk PH menyokong Dr Mahathir sebagai perdana menteri selagi Dr '
 'Mahathir masih berpegang kepada prinsip asas - prinsip-prinsip tersebut. '
 '"Rakyat perlu menolong Muhyiddin dalam mentadbir negara. Hamzah berkata, '
 'Muhyiddin mesti terus berusaha menyelesaikan isu-isu yang dihadapi oleh '
 'negara selain menjaga integriti dan pentadbiran negara.']

At this point if you get the following error:

FeatureNotFound: Couldn’t find a tree builder with the features you requested: lxml.

Try installing lxml with pip install lxml


Previously we set the top_k parameter to 50. A higher top_k value means the model considers more candidates, potentially leading to more diversity in the generated text but also increasing the computational cost.

Now let’s try lowering the parameter down and introduce the penalty_alpha argument to decrease randomness.

[7]:
pprint(model.generate(isi_penting, mode = 'tajuk-surat-khabar',
    do_sample=True,
    max_length=256,
    penalty_alpha=0.8, top_k=4,))
['Presiden PKR, Datuk Seri Anwar Ibrahim perlu dikekalkan sebagai perdana '
 'menteri kerana beliau merupakan individu paling layak untuk memimpin negara. '
 'Menurut Ahli Parlimen Port Dickson itu, Muhyiddin juga perlulah menolong Dr '
 'M. Beliau juga perlu memastikan Dr Mahathir kekal sebagai perdana menteri '
 'sehingga Parlimen dibubarkan bagi memberi laluan kepada Pilihan Raya Umum '
 'ke-15 (PRU15). "Perdana Menteri, Muhyiddin Yassin perlu dikekalkan sebagai '
 'perdana menteri. "Rakyat perlu menolong Muhyiddin.']

Try changing the isi_penting variable and rerun the generate method again for more results.

[8]:
isi_penting = ['Neelofa tetap dengan keputusan untuk berkahwin akhir tahun ini',
              'Long Tiger sanggup membantu Neelofa',
              'Tiba-tiba Long Tiger bergaduh dengan Husein Zolkepli']
[9]:
pprint(model.generate(isi_penting, do_sample=True, mode = 'tajuk-surat-khabar',
    max_length=256,
    top_k=50,
    top_p=0.95, ))
['KUALA LUMPUR: Walaupun bakal melangsungkan perkahwinan bersama pasangan '
 'pilihan hatinya, Neelofa tetap dengan keputusan untuk berkahwin akhir tahun '
 'ini. Tidak mahu membiarkan keadaan bertambah parah, Neelofa sanggup membantu '
 'Long Tiger untuk ke Makkah demi membantu mutakhir anak-anak kesayangannya '
 'itu. "Long Tiger sanggup membantu Neelofa. Tiba-tiba Long Tiger bergaduh '
 'dengan suami saya, Husein Zolkepli. BACA: Selepas berkahwin, Neelofa sedia '
 'bantu mahligai Neelofa.']
[10]:
pprint(model.generate(isi_penting, mode = 'tajuk-surat-khabar',
    do_sample=True,
    max_length=256,
    penalty_alpha=0.8, top_k=4,))
['KUALA LUMPUR: Penyanyi popular, Neelofa tetap dengan keputusan untuk '
 'berkahwin akhir tahun ini selepas dua tahun bergelar ibu tunggal. '
 '"Alhamdulillah, selepas dua tahun bergelar ibu tunggal, akhirnya saya sudah '
 'mempunyai perancangan untuk berkahwin. "Alhamdulillah, selepas dua tahun '
 'bergelar ibu tunggal, akhirnya saya sudah mempunyai perancangan untuk '
 'berkahwin akhir tahun ini. "Sepanjang tempoh itu, saya juga tidak mahu '
 'mengambil sebarang tindakan kerana bimbang akan menjejaskan hubungan. '
 'Tiba-tiba Long Tiger bergaduh dengan suaminya, Husein Zolkepli," katanya '
 'kepada BH Online. Long Tiger sanggup membantu Neelofa.']
[11]:
isi_penting = ['Anwar Ibrahim jadi perdana menteri', 'Muhyiddin cemburu jadi PM tepi',
              'PAS menggunakan isu sentimen kaum dan agama']
[12]:
pprint(model.generate(isi_penting, do_sample=True, mode = 'tajuk-surat-khabar',
    max_length=256))
['PKR harus melihat ke kaca mata masyarakat Melayu dan umat Islam yang begitu '
 'setia kepada UMNO dan Barisan Nasional (BN), kata Setiausaha Agung PKR, '
 'Saifuddin Nasution Ismail. Bukan Umno dan PAS yang menyanggah keputusan '
 'Anwar dan Mahathir, kata Saifuddin. "Muhyiddin cemburu jadi PM tepi, bila '
 'Zahid nak naik PM barulah Anwar jadi PM. Anwar kembali jadi PM jika PAS mahu '
 'bergabung dengan Umno. Ketika pentadbiran PH, PKR juga dilihat mempunyai '
 'sekutu Melayu yang cukup kuat. Sementara itu, mengulas isu sentimen kaum dan '
 'agama, Saifuddin berkata PKR tidak boleh guna isu agama dan kaum.']
[13]:
pprint(model.generate(isi_penting, mode = 'tajuk-surat-khabar',
    do_sample=True,
    max_length=256,
    penalty_alpha=0.8, top_k=4,))
['PAS menggunakan isu sentimen kaum dan agama sebagai alasan untuk tidak '
 'menyokong Datuk Seri Anwar Ibrahim sebagai perdana menteri. Ketua Penerangan '
 'PAS Datuk Takiyuddin Hassan berkata, PAS tidak boleh menggunakan isu '
 'sentimen kaum dan agama untuk menganggu-gugat pentadbiran kerajaan Pakatan '
 'Harapan (PH). "Ini adalah isu agama dan kaum," katanya kepada pemberita di '
 'Kuala Lumpur, hari ini. Anwar, 75, menjadi perdana menteri pada 9 Mei 2018 '
 'selepas PH menang pada Pilihan Raya Umum ke-13, yang menyaksikan PH '
 'membentuk kerajaan persekutuan. Muhyiddin cemburu jadi PM tepi.']