Isi Penting Generator: Product Description Style#

Generate a long text output with the style of a product description when given important facts (isi penting in Malay).

This tutorial is available as an IPython notebook at Malaya/example/isi-penting-generator-product-description-style.

The results you see here are generated using stochastic methods. Learn more about the stochastic process on Wikipedia

[1]:
%%time
import malaya
from pprint import pprint
CPU times: user 3.13 s, sys: 269 ms, total: 3.4 s
Wall time: 3.25 s
/home/maguswyvern/PythonVenvs/dev-malaya/lib/python3.10/site-packages/malaya/tokenizer.py:214: FutureWarning: Possible nested set at position 3397
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))
/home/maguswyvern/PythonVenvs/dev-malaya/lib/python3.10/site-packages/malaya/tokenizer.py:214: FutureWarning: Possible nested set at position 3927
  self.tok = re.compile(r'({})'.format('|'.join(pipeline)))

List all available HuggingFace transformers#

The malaya library has a built in function to find all available transformers for this task. As of writing we have two transformers which are:

  1. mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased https://huggingface.co/mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased

  2. mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased https://huggingface.co/mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased

[2]:
malaya.generator.isi_penting.available_huggingface
[2]:
{'mesolitica/finetune-isi-penting-generator-t5-small-standard-bahasa-cased': {'Size (MB)': 242,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024},
 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased': {'Size (MB)': 892,
  'ROUGE-1': 0.24620333,
  'ROUGE-2': 0.05896076,
  'ROUGE-L': 0.15158954,
  'Suggested length': 1024}}

Load HuggingFace#

The Generator transformer in malaya is quite unique, most of the text generative model we found on the internet like GPT2 or Markov simply just continue the prefix input from user, but not for our Generator transformer.

We want to generate an article or karangan like high school when the users give ‘isi penting’ or important facts for the article.

def huggingface(
    model: str = 'mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased',
    force_check: bool = True,
    **kwargs,
):
    """
    Load HuggingFace model to generate text based on isi penting.

    Parameters
    ----------
    model: str, optional (default='mesolitica/finetune-isi-penting-generator-t5-base-standard-bahasa-cased')
        Check available models at `malaya.generator.isi_penting.available_huggingface`.
    force_check: bool, optional (default=True)
        Force check model one of malaya model.
        Set to False if you have your own huggingface model.

    Returns
    -------
    result: malaya.torch_model.huggingface.IsiPentingGenerator
    """
[3]:
model = malaya.generator.isi_penting.huggingface()
You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565

Here is the generate function and the parameters it expects.

def generate(
    self,
    strings: List[str],
    mode: str = 'surat-khabar',
    **kwargs,
):
    """
    generate a long text given a isi penting.

    Parameters
    ----------
    strings : List[str]
    mode: str, optional (default='surat-khabar')
        Mode supported. Allowed values:

        * ``'surat-khabar'`` - news style writing.
        * ``'tajuk-surat-khabar'`` - headline news style writing.
        * ``'artikel'`` - article style writing.
        * ``'penerangan-produk'`` - product description style writing.
        * ``'karangan'`` - karangan sekolah style writing.

    **kwargs: vector arguments pass to huggingface `generate` method.
        Read more at https://huggingface.co/docs/transformers/main_classes/text_generation

    Returns
    -------
    result: List[str]
    """

Benefits of HuggingFace#

With the generate method you can use Greedy, Beam, Sampling, Nucleus decoder and so much more, read more about it on the HuggingFace Article on How to Generate. And recently, HuggingFace also released a new article Introducing Csearch

Let’s give a few lines of important facts or isi penting for the model to use to generate text.

[4]:
isi_penting = ['ayam yang sihat dan sejahtera', 'nasi ayam yang sedap dan lazat', 'kedai bernama Husein Nasi Ayam']

Now we’ll use the generate method and pass in a few of the vector arguments mentioned in a previous linked article by HuggingFace.

[5]:
pprint(model.generate(isi_penting, mode = 'penerangan-produk',
    do_sample=True,
    max_length=256,
    top_k=50,
    top_p=0.95,))
['Husein Nasi Ayam adalah untuk mereka yang berada di sekitar rumah atau '
 'pejabat mereka dan mungkin menginginkan sesuatu yang istimewa. Ia juga boleh '
 'digunakan sebagai pemanis. Di sini kami membuat nasi ayam yang sedap dan '
 'lazat. Dengan ramuan yang sihat dan kenyal, ini adalah cara yang lazat untuk '
 'memulakan hari anda. Kami telah mencipta rasa yang asli, tanpa biji-bijian, '
 'bebas gluten, dan bebas biji-bijian. Terdapat sebilangan rasa di sini di '
 'kedai kami, seperti nasi ayam, nasi ayam, nasi ayam, nasi putih, dan banyak '
 'lagi. Kami juga telah membuat nasi yang lazat seperti itu di rumah mereka '
 'sendiri. Tidak seperti banyak rasa yang enak, kami tidak mencampurkan resipi '
 'dengan bahan-bahan Amerika. Kami hanya menggunakan bahan-bahan berkualiti '
 'tinggi, seperti ayam yang sihat dan sejahtera, seperti tepung gandum dan '
 'nasi, yang kami dapat. Setiap nasi kami terdapat dalam satu kantung dengan '
 'penutup yang mudah dan selamat. Kami tahu bahawa kami mempunyai restoran '
 'yang lebih baik daripada kedai bernama Husein Nasi Ayam untuk nasi ayam yang '
 'sedap dan sedap. Kami mahu nasi ayam ini menjadi makanan sihat. Kami ingin '
 'memberi pengguna rasa yang sihat yang mereka suka.']
[6]:
pprint(model.generate(isi_penting, mode = 'penerangan-produk',
    do_sample=True,
    max_length=256,
    penalty_alpha=0.8, top_k=4,))
['Husein Nasi Ayam adalah nasi ayam yang lazat dan enak yang dibuat dengan '
 'ayam yang sihat dan sejahtera. Dibungkus dengan nasi ayam yang sedap dan '
 'lazat, nasi ayam Husein Nasi Ayam adalah sumber protein yang hebat, yang '
 'sangat baik untuk anjing yang gemuk dan anak anjing yang tidak dapat menahan '
 'diri dari makan makanan yang tidak sihat. Husein Nasi Ayam adalah sumber '
 'protein yang hebat, yang sangat baik untuk anjing yang gemuk dan anak anjing '
 'yang tidak dapat menahan dari makan makanan yang tidak sihat.']
[7]:
isi_penting = ['sabun lembut untuk kulit anda',
               'sabun bebas dari DNA babi',
               '44 herba dipetik oleh ibu tunggal yang cantik lagi ayu',
               'sabun bebas dari kes rasuah SPRM',]
[8]:
pprint(model.generate(isi_penting, do_sample=True, mode = 'penerangan-produk',
    max_length=256,
    top_k=50,
    top_p=0.95, ))
['Formula yang terbukti memberikan kelegaan yang kaya untuk kulit, terutama '
 'yang sensitif terhadap DNA babi. Rumus bebas kimia dan boleh dicampurkan '
 'dengan bahan-bahan semula jadi lain, sabun lembut untuk kulit anda juga '
 'memberikan kelegaan yang kaya. Formula ini meluap-luap, melembutkan, lembut '
 'dan melembapkan. • Pembersihan badan yang lebih cepat dan pembersihan kulit '
 'yang lebih mudah • Penyahhidratan badan yang lebih cepat & banyak dengan '
 'pengelupasan mudah • Formula kaya ini meluap-luap, melembutkan dan lembut '
 'tanpa meninggalkan tanda-tanda pengelupasan & bull; Diselitkan dengan '
 'vitamin E dan D dan vitamin C, sabun ini melembutkan dan melembapkan kulit, '
 'terutama yang sensitif terhadap DNA babi. Shampoo yang enak membuat anda '
 'tidak boleh kering dan segar, dengan 44 herba dipetik oleh ibu tunggal yang '
 'cantik lagi ayu. Shampoo adalah sabun bebas dari kes rasuah SPRM, sabun '
 'bebas untuk lelaki, sabun bebas untuk lelaki, sabun bebas untuk wanita, dan '
 'sabun untuk kanak-kanak. Shampoo adalah alternatif']
[9]:
pprint(model.generate(isi_penting, mode = 'penerangan-produk',
    do_sample=True,
    max_length=256,
    penalty_alpha=0.8, top_k=4,))
['"Saya rasa sabun lembut untuk kulit anda. Saya suka sabun, dan ia sangat '
 'berkesan, jadi anda boleh merasa seperti anda mempunyai sabun bebas yang '
 'anda gemari." '
 '-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------']

If you give better isi penting, the results will be much better.

[10]:
# https://ms.wikipedia.org/wiki/Burger_Ramly
isi_penting = ['Penubuhan Makma Mikrobiologi',
               'mengawal kualiti produk',
               'memastikan produknya adalah suci',
               'satu tempat penyelidikan dan pembangunan produk',
              'peralatan teknologi tinggi']
[11]:
pprint(model.generate(isi_penting, do_sample=True, mode = 'penerangan-produk',
    max_length=256,
    top_k=50,
    top_p=0.95, ))
['Penubuhan Makma Mikrobiologi (MSC) adalah program penyelidikan yang inovatif '
 'yang menghasilkan "penubuhan organik" yang membolehkan anda memantau '
 'persekitaran yang lebih baik dan mewujudkan persekitaran yang lebih sihat '
 'untuk produk organik yang anda tanam secara lestari. MSC tidak mengawal '
 'kualiti produk yang dihasilkan dalam organisma mikrobiologi atau manusia '
 'kerana mereka terus dihasilkan tanpa lesen dan lesen yang sah. MSC adalah '
 'satu-satunya pengeluar di dunia yang memastikan produknya adalah suci dan '
 'boleh dipercayai dan bebas dari peralatan teknologi tinggi. Ia adalah satu '
 'tempat penyelidikan dan pembangunan produk yang diiktiraf oleh ISO 9001 '
 'untuk membantu syarikat-syarikat dalam industri organik.']
[12]:
pprint(model.generate(isi_penting, mode = 'penerangan-produk',
    do_sample=True,
    max_length=256,
    penalty_alpha=0.8, top_k=4,))
['Penubuhan Makma Mikrobiologi - Penubuhan Makma Mikrobiologi - Penubuhan '
 'Makma Mikrobiologi - Penubuhan Makma Mikrobiologi - Digunakan sebagai satu '
 'tempat penyelidikan dan pembangunan produk dan peralatan teknologi tinggi '
 'untuk mengawal kualiti produk dan memastikan produknya adalah suci.']
[ ]: