Isi Penting Generator product description style#

Generate a long text with product description style given isi penting (important facts).

This tutorial is available as an IPython notebook at Malaya/example/isi-penting-generator-product-description-style.

Results generated using stochastic methods.

[1]:
%%time
import malaya
from pprint import pprint
CPU times: user 2.76 s, sys: 3.98 s, total: 6.74 s
Wall time: 2 s
/home/husein/dev/malaya/malaya/tokenizer.py:214: FutureWarning: Possible nested set at position 3397
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))
/home/husein/dev/malaya/malaya/tokenizer.py:214: FutureWarning: Possible nested set at position 3927
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))

List available HuggingFace#

[2]:
malaya.generator.isi_penting.available_huggingface
[2]:
{'mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased': {'Size (MB)': 242,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024},
 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased': {'Size (MB)': 892,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024}}

Load HuggingFace#

Transformer Generator in Malaya is quite unique, most of the text generative model we found on the internet like GPT2 or Markov, simply just continue prefix input from user, but not for Transformer Generator. We want to generate an article or karangan like high school when the users give ‘isi penting’.

def huggingface(
    model: str = 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased',
    force_check: bool = True,
    **kwargs,
):
    """
    Load HuggingFace model to generate text based on isi penting.

    Parameters
    ----------
    model: str, optional (default='mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased')
        Check available models at `malaya.generator.isi_penting.available_huggingface`.
    force_check: bool, optional (default=True)
        Force check model one of malaya model.
        Set to False if you have your own huggingface model.

    Returns
    -------
    result: malaya.torch_model.huggingface.IsiPentingGenerator
    """
[3]:
model = malaya.generator.isi_penting.huggingface()
Loading the tokenizer from the `special_tokens_map.json` and the `added_tokens.json` will be removed in `transformers 5`,  it is kept for forward compatibility, but it is recommended to update your `tokenizer_config.json` by uploading it again. You will see the new `added_tokens_decoder` attribute that will store the relevant information.
You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. If you see this, DO NOT PANIC! This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thouroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565

generate#

def generate(
    self,
    strings: List[str],
    mode: str = 'surat-khabar',
    **kwargs,
):
    """
    generate a long text given a isi penting.

    Parameters
    ----------
    strings : List[str]
    mode: str, optional (default='surat-khabar')
        Mode supported. Allowed values:

        * ``'surat-khabar'`` - news style writing.
        * ``'tajuk-surat-khabar'`` - headline news style writing.
        * ``'artikel'`` - article style writing.
        * ``'penerangan-produk'`` - product description style writing.
        * ``'karangan'`` - karangan sekolah style writing.

    **kwargs: vector arguments pass to huggingface `generate` method.
        Read more at https://huggingface.co/docs/transformers/main_classes/text_generation

    Returns
    -------
    result: List[str]
    """

Good thing about HuggingFace#

In generate method, you can do greedy, beam, sampling, nucleus decoder and so much more, read it at https://huggingface.co/blog/how-to-generate

And recently, huggingface released https://huggingface.co/blog/introducing-csearch

[4]:
isi_penting = ['ayam yang sihat dan sejahtera', 'nasi ayam yang sedap dan lazat', 'kedai bernama Husein Nasi Ayam']
[5]:
pprint(model.generate(isi_penting, mode = 'penerangan-produk',
    do_sample=True,
    max_length=256,
    top_k=50,
    top_p=0.95,))
spaces_between_special_tokens is deprecated and will be removed in transformers v5. It was adding spaces between `added_tokens`, not special tokens, and does not exist in our fast implementation. Future tokenizers will handle the decoding process on a per-model rule.
['Makanan yang enak dan sihat untuk anjing yang sihat dan sejahtera. Tidak ada '
 'jagung, soya, jagung, pemanis dan gluten yang ditambahkan. Tidak ada '
 'pengawet yang ditambahkan. Husein Nasi Ayam adalah makanan yang sihat dan '
 'lazat yang dibuat dengan ayam dan ayam yang sihat dan lazat. Biarkan haiwan '
 'kesayangan anda makan dan sihat dengan ayam yang sedap dan lazat. Apabila '
 'anda menghidangkannya, Husein memberitahu kami bahawa dia akan membawa anda '
 'ke kedai bernama Husein Nasi Ayam. Kami meletakkan resipi kami yang '
 'berkualiti tinggi di dalam kotak, jadi ada sesuatu yang anda boleh '
 'bergantung pada Husein untuk makanan hebat ini. Dengan 50 ons, anda boleh '
 'memberi makan Husein kepada anjing kegemaran anda. Mengenai Husein Kami '
 'menggunakan bahan-bahan yang berkualiti, termasuk 100% Nasi Ayam Amerika, '
 '100% Gula Dan Dicairkan. Kami tidak pernah menambahkan bahan kimia, hormon '
 'atau antibiotik ke dalam rasa buatan, atau buatan. Proses kami telah diuji '
 'untuk memastikan ia adalah makanan yang lazat, semula jadi, dan sihat untuk '
 'anjing. Kami hanya menggunakan bahan-bahan berkualiti tinggi dan kami '
 'menggunakan 100% bahan-bahan tersebut']
[6]:
pprint(model.generate(isi_penting, mode = 'penerangan-produk',
    do_sample=True,
    max_length=256,
    penalty_alpha=0.8, top_k=4,))
['Husein Nasi Ayam adalah makanan yang enak dan lazat yang dibuat dengan ayam '
 'yang sihat dan sejahtera. Dibungkus dengan nasi yang enak dan sedap di dalam '
 'beg plastik, Husein Nasi Ayam sangat sesuai sebagai makanan ringan atau '
 'makanan ringan. Ia adalah makanan ringan yang enak, lazat dan lazat yang '
 'dibuat dengan ayam yang sihat dan sejahtera.']
[13]:
isi_penting = ['sabun lembut untuk kulit anda',
               'sabun bebas dari DNA babi',
               '44 herba dipetik oleh ibu tunggal yang cantik lagi ayu',
               'sabun bebas dari kes rasuah SPRM',]
[8]:
pprint(model.generate(isi_penting, do_sample=True, mode = 'penerangan-produk',
    max_length=256,
    top_k=50,
    top_p=0.95, ))
['Tidak ada sabun lembut untuk kulit anda. Sebenarnya, sabun bebas dari DNA '
 'babi. 44 herba dipetik oleh ibu tunggal yang cantik lagi ayu. Oleh itu, '
 'sabun bebas dari kes rasuah SPRM ini telah memberi makan kepada kulit anda, '
 'anda juga tahu bahawa anda benar-benar ingin menjauhkannya daripada '
 'tercekik. Ini bukan sabun yang penuh dengan wangi. Diambil dari daging '
 'lembu, itik dan tembikai dari kacang, kacang hijau dan kentang, sabun semula '
 'jadi ini memberikan kulit anda aroma segar dan pedas. Formula emolien semula '
 'jadi dicampur dengan vitamin C dan vitamin E dan dicampurkan dengan aloe '
 'vera. Dibuat dengan bahan semula jadi, sabun ini mempunyai sifat '
 'anti-penuaan, antiseptik dan anti-oksidan. Bahan-bahan semula jadi dan '
 'emolien semula jadi terdapat dalam bentuk cecair dan susu yang menenangkan.']
[14]:
pprint(model.generate(isi_penting, mode = 'penerangan-produk',
    do_sample=True,
    max_length=256,
    penalty_alpha=0.8, top_k=4,))
['- Bahan semula jadi dan semula jadi. - Bebas dari polimer, alkohol, dan '
 'bahan kimia yang keras. - Bebas dari DNA babi. - Bebas sulfat, phthalates, '
 'sulfat, dan bahan kimia keras yang keras. - Bebas daripada bahan kimia yang '
 'keras. - Bebas daripada bahan kimia yang keras. - Bebas dari alkohol, '
 'alkohol, dan bahan kimia keras yang keras. - Bebas dari polimer, alkohol, '
 'dan bahan kimia keras yang keras. - Bebas dari polimer, alkohol, dan bahan '
 'kimia keras yang keras. - Bebas dari alkohol, alkohol, dan bahan kimia '
 'keras. - Bebas dari alkohol, alkohol, dan bahan kimia keras. - Bebas dari '
 'alkohol, alkohol, dan bahan kimia keras. - Bebas daripada alkohol alkohol, '
 'alkohol, dan bahan kimia keras. - Bebas dari alkohol alkohol, alkohol, dan '
 'bahan kimia keras. - Bebas alkohol alkohol']

If you give better isi penting, the results will be much better.

[10]:
# https://ms.wikipedia.org/wiki/Burger_Ramly
isi_penting = ['Penubuhan Makma Mikrobiologi',
               'mengawal kualiti produk',
               'memastikan produknya adalah suci',
               'satu tempat penyelidikan dan pembangunan produk',
              'peralatan teknologi tinggi']
[11]:
pprint(model.generate(isi_penting, do_sample=True, mode = 'penerangan-produk',
    max_length=256,
    top_k=50,
    top_p=0.95, ))
['Penubuhan Makma Mikrobiologi: Produk "Penubuhan Makma Mikrobiologi" direka '
 'untuk mengawal kualiti produk sambil memastikan produknya suci. "Penubuhan '
 'Makma Mikrobiologi" adalah alat yang direkayasa khas dan generik yang telah '
 "dikembangkan dan dikembangkan paperback 'Tunnel Project' sejak tahun 2005. "
 '"Penubuhan Makma Mikrobiologi" adalah salah satu cara untuk mendapatkan '
 'peralatan teknologi tinggi dengan cekap. Sebagai satu tempat penyelidikan '
 'dan pembangunan produk, "Penubuhan Makma Mikrobiologi" adalah asas yang '
 'sangat diperlukan dalam membina produk ini dan seterusnya.']
[12]:
pprint(model.generate(isi_penting, mode = 'penerangan-produk',
    do_sample=True,
    max_length=256,
    penalty_alpha=0.8, top_k=4,))
['Penubuhan Makma Mikrobiologi adalah alat untuk mengawal kualiti produk yang '
 'dihasilkan oleh organisma hidup dan peralatan teknologi tinggi. Ia mempunyai '
 'banyak kegunaan dalam penyelidikan biologi, perubatan, kejuruteraan dan '
 'industri. Produk ini adalah alat yang digunakan dalam industri perubatan dan '
 'farmaseutikal dan telah menjadi salah satu alat yang paling dihormati di '
 'dunia untuk penyelidikan dan pembangunan. Alat ini adalah alat penting untuk '
 'memastikan produknya suci. Penubuhan Makma Mikrobiologi adalah alat yang '
 'digunakan dalam industri perubatan dan farmaseutikal dan telah menjadi salah '
 'satu alat yang paling dihormati di dunia untuk penyelidikan dan pembangunan. '
 'Alat ini adalah alat penting untuk memastikan produknya suci. Penubuhan '
 'Makma Mikrobiologi adalah alat penting untuk memastikan produknya adalah '
 'suci. Penubuhan Makma Mikrobiologi adalah alat penting untuk memastikan '
 'produknya suci. Penubuhan Makma Mikrobiologi adalah alat penting untuk '
 'memastikan produknya adalah suci. Penubuhan Makma Mikrobiologi adalah alat '
 'penting untuk memastikan produknya adalah suci.']