Isi Penting Generator headline news style#

Generate a long text with headline news style given isi penting (important facts).

This tutorial is available as an IPython notebook at Malaya/example/isi-penting-generator-headline-news-style.

Results generated using stochastic methods.

[1]:
%%time
import malaya
from pprint import pprint
CPU times: user 2.81 s, sys: 3.91 s, total: 6.72 s
Wall time: 2.01 s
/home/husein/dev/malaya/malaya/tokenizer.py:214: FutureWarning: Possible nested set at position 3397
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))
/home/husein/dev/malaya/malaya/tokenizer.py:214: FutureWarning: Possible nested set at position 3927
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))

List available HuggingFace#

[2]:
malaya.generator.isi_penting.available_huggingface
[2]:
{'mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased': {'Size (MB)': 242,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024},
 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased': {'Size (MB)': 892,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024}}
[3]:
print(malaya.generator.isi_penting.info)

tested on semisupervised summarization on unseen AstroAwani 20 news, https://github.com/huseinzol05/malay-dataset/tree/master/summarization/semisupervised-astroawani
each news compared ROUGE with 5 different generated texts.

Load HuggingFace#

Transformer Generator in Malaya is quite unique, most of the text generative model we found on the internet like GPT2 or Markov, simply just continue prefix input from user, but not for Transformer Generator. We want to generate an article or karangan like high school when the users give ‘isi penting’.

def huggingface(
    model: str = 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased',
    force_check: bool = True,
    **kwargs,
):
    """
    Load HuggingFace model to generate text based on isi penting.

    Parameters
    ----------
    model: str, optional (default='mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased')
        Check available models at `malaya.generator.isi_penting.available_huggingface`.
    force_check: bool, optional (default=True)
        Force check model one of malaya model.
        Set to False if you have your own huggingface model.

    Returns
    -------
    result: malaya.torch_model.huggingface.IsiPentingGenerator
    """
[4]:
model = malaya.generator.isi_penting.huggingface()
Loading the tokenizer from the `special_tokens_map.json` and the `added_tokens.json` will be removed in `transformers 5`,  it is kept for forward compatibility, but it is recommended to update your `tokenizer_config.json` by uploading it again. You will see the new `added_tokens_decoder` attribute that will store the relevant information.
You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. If you see this, DO NOT PANIC! This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thouroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565

generate#

def generate(
    self,
    strings: List[str],
    mode: str = 'surat-khabar',
    **kwargs,
):
    """
    generate a long text given a isi penting.

    Parameters
    ----------
    strings : List[str]
    mode: str, optional (default='surat-khabar')
        Mode supported. Allowed values:

        * ``'surat-khabar'`` - news style writing.
        * ``'tajuk-surat-khabar'`` - headline news style writing.
        * ``'artikel'`` - article style writing.
        * ``'penerangan-produk'`` - product description style writing.
        * ``'karangan'`` - karangan sekolah style writing.

    **kwargs: vector arguments pass to huggingface `generate` method.
        Read more at https://huggingface.co/docs/transformers/main_classes/text_generation

    Returns
    -------
    result: List[str]
    """

Good thing about HuggingFace#

In generate method, you can do greedy, beam, sampling, nucleus decoder and so much more, read it at https://huggingface.co/blog/how-to-generate

And recently, huggingface released https://huggingface.co/blog/introducing-csearch

[5]:
isi_penting = ['Dr M perlu dikekalkan sebagai perdana menteri',
              'Muhyiddin perlulah menolong Dr M',
              'rakyat perlu menolong Muhyiddin']
[6]:
pprint(model.generate(isi_penting, mode = 'tajuk-surat-khabar',
    do_sample=True,
    max_length=256,
    top_k=50,
    top_p=0.95,))
spaces_between_special_tokens is deprecated and will be removed in transformers v5. It was adding spaces between `added_tokens`, not special tokens, and does not exist in our fast implementation. Future tokenizers will handle the decoding process on a per-model rule.
['Presiden Umno, Ahmad Zahid Hamidi meminta agar Dr Mahathir Mohamad tidak '
 'dikekalkan sebagai perdana menteri sementara. Dalam satu temubual bersama '
 'stesen radio CNA, Zahid berkata Muhyiddin perlulah menolong Dr Mahathir. '
 '"Disebabkan Mahathir telah hilang majoriti, eloklah Dr Mahathir berundur '
 'sebagai perdana menteri sementara. "Berilah peluang kepada Dr Mahathir '
 'sebagai perdana menteri sementara.']
[7]:
pprint(model.generate(isi_penting, mode = 'tajuk-surat-khabar',
    do_sample=True,
    max_length=256,
    penalty_alpha=0.8, top_k=4,))
['Presiden Parti Pribumi Bersatu Malaysia (Bersatu) Tan Sri Muhyiddin Yassin '
 'menegaskan bahawa Dr Mahathir Mohamad perlu dikekalkan sebagai perdana '
 'menteri kerana beliau mempunyai banyak kelebihan. "Dr Mahathir perlu '
 'dikekalkan sebagai perdana menteri kerana beliau mempunyai banyak kelebihan. '
 'Muhyiddin juga berkata, Muhyiddin tidak boleh hanya bergantung kepada Dr '
 'Mahathir sahaja kerana ada beberapa masalah yang perlu ditangani. "Perlulah '
 'menolong Dr M. "Janganlah hanya kerana satu masalah, rakyat perlu menolong '
 'beliau.']
[8]:
isi_penting = ['Neelofa tetap dengan keputusan untuk berkahwin akhir tahun ini',
              'Long Tiger sanggup membantu Neelofa',
              'Tiba-tiba Long Tiger bergaduh dengan Husein Zolkepli']

We also can give any isi penting even does not make any sense.

[9]:
pprint(model.generate(isi_penting, do_sample=True, mode = 'tajuk-surat-khabar',
    max_length=256,
    top_k=50,
    top_p=0.95, ))
['KUALA LUMPUR: Di sebalik pelbagai kecaman netizen, pengacara dan usahawan, '
 'Neelofa tetap dengan keputusan untuk berkahwin akhir tahun ini. Neelofa yang '
 'sedang hangat meraikan hari lahir di sebuah restoran mewah di ibu kota, '
 'mengumumkan perkara tersebut menerusi satu entri di laman Instagram '
 'miliknya. "I have a chance to be berkahwin akhir tahun this year," tulis '
 'Neelofa. Long Tiger sanggup membantu Neelofa. Tiba-tiba Long Tiger bergaduh '
 'dengan teman lelakinya, Husein Zolkepli. Ketika itu, Husein sedang minum di '
 'restoran berkenaan, yang kemudian diseret, sebelum Long Tiger sekali lagi '
 'mencemuh Neelofa. Sumber: BH Online.']
[10]:
pprint(model.generate(isi_penting, mode = 'tajuk-surat-khabar',
    do_sample=True,
    max_length=256,
    penalty_alpha=0.8, top_k=4,))
['KUALA LUMPUR: Pelakon dan pengacara terkenal, Neelofa tetap dengan keputusan '
 'untuk berkahwin penghujung tahun ini. Namun, kata Neelofa, perkara itu akan '
 'dibincangkan dalam mesyuarat yang akan diadakan tidak lama lagi. Long '
 'Tiger," katanya menerusi akaun Instagramnya. Tiba-tiba Long Tiger bergaduh '
 'dengan Husein Zolkepli. "Long Tiger sanggup membantu Neelofa. "Long Tiger '
 'juga sanggup membantu Husein Zolkepli untuk mendapatkan hak perkahwinan," '
 'kata Neelofa. "Semoga Long Tiger terus tabah dan sabar menghadapi dugaan," '
 'tulis Neelofa lagi. "Sekali lagi ucapkan jutaan terima kasih kepada semua '
 'yang mendoakan kesejahteraan dan kebahagiaan Long Tiger dan Husein.']
[11]:
isi_penting = ['Anwar Ibrahim jadi perdana menteri', 'Muhyiddin cemburu jadi PM tepi',
              'PAS menggunakan isu sentimen kaum dan agama']
[12]:
pprint(model.generate(isi_penting, do_sample=True, mode = 'tajuk-surat-khabar',
    max_length=256))
['Setiausaha Agung DAP, Lim Guan Eng berkata, bukan menjadi isu bagi beliau '
 'yang juga Menteri Kewangan untuk tidak mencampuri usaha memperkukuhkan '
 'kerajaan dan mentadbir negara. "Sekarang (Datuk Seri) Anwar Ibrahim Ibrahim '
 'sedang jadi perdana menteri. Muhyiddin cemburu jadi PM tepi," katanya, di '
 'sini hari ini. Sebelum ini, PAS menggunakan isu sentimen kaum dan agama '
 'untuk menarik sokongan pengundi kepada Pakatan Harapan (PH). Setiausaha '
 'Agung PAS, TakiyuddinDecemberon dalam kenyataan menegaskan, parti itu tidak '
 'akan menarik sokongan sebaliknya memberi tumpuan kepada usaha mengurangkan '
 'beban rakyat.']
[13]:
pprint(model.generate(isi_penting, mode = 'tajuk-surat-khabar',
    do_sample=True,
    max_length=256,
    penalty_alpha=0.8, top_k=4,))
['Presiden PAS, Abdul Hadi Awang tidak pernah menggunakan isu kaum dan agama '
 'untuk menggambarkan dirinya sebagai seorang yang tidak bertanggungjawab. '
 'Sebaliknya, kata beliau, PAS menggunakan isu sentimen kaum dan agama untuk '
 'menggambarkan dirinya sebagai seorang yang tidak bertanggungjawab. "Anwar '
 'Ibrahim jadi perdana menteri dan Muhyiddin (Muhyiddin) cemburu jadi PM tepi.']