# Nondeterministic Context (NDETC) Stemmer
**This is Kaenova's maintained NDETCStemmer, a fork from the [original](https://github.com/alifadwitiyap/NDETCStemmer). I upload the model to Huggingface for model reliability.**
Nondeterministic Context (NDETC) Stemmer adalah library yang mengimplementasikan metode stemming nondeterministic berbasis context untuk memecahkan permasalahan kata-kata ambigu (bermakna lebih dari satu) morfologis pada proses stemming kata dalam bahasa Indonesia.
## Installation
Untuk menginstall library ini diperlukan pip python yang dapat anda download dengan mengikuti link [berikut](https://pip.pypa.io/en/stable/installation/#).
Kemudian anda dapat menjalankan kode berikut pada terminal yang anda gunakan
```bash
pip install NDETCStemmer-kaenova
```
## Usage
Setelah menginstall library ini, anda dapat menggunakannya dengan membuat file baru di dalam folder yang sama dengan NDETCStemmer_IO.py atau dengan cara mengubah file NDETCStemmer_IO.py dengan mengikuti baris code berikut sebagai percobaan:
```python
#import NDETCStemmer library
from NDETCStemmer import NDETCStemmer
#init stemmer
stemmer=NDETCStemmer()
# stemming process
output=stemmer.stem('boleh saya memerah lembu ini')
print(output)
#boleh saya perah lembu ini
print(stemmer.stem('bibirnya memerah tangannya jadi selengket madu'))
#bibir merah tangan jadi lengket madu
```
## Cititation
```
@INPROCEEDINGS{9617514,
author={Bunyamin and Huda, Arief Fatchul and Suryani, Arie Ardiyanti},
booktitle={2021 International Conference on Data Science and Its Applications (ICoDSA)},
title={Indonesian Stemmer for Ambiguous Word based on Context},
year={2021},
volume={},
number={},
pages={1-9},
doi={10.1109/ICoDSA53588.2021.9617514}}
```
## Tentang Nondeterministic Context Stemmer
Merupakan stemmer yang dikembangkan oleh <a href="https://ieeexplore.ieee.org/document/9617514">Bunyamin et al.</a> yang merupakan penelitian lanjutan dari pendekatan nondeterministic yang diusulkan oleh <a href="https://ieeexplore.ieee.org/document/6021829">Purwarianti</a>. Dalam penelitian Purwarianti, setiap kata tidak diperiksa menurut urutan aturan morfologi, tetapi diperiksa menggunakan semua aturan. Kemudian, hasilnya disimpan satu per satu dalam daftar kandidat kata. Kata akhir akan dipilih menggunakan beberapa aturan heuristik, yaitu ketersediaan kosakata dari kata dasar khusus dan panjang kata. </br> </br>Masalah yang dihadapi oleh metode nondeterministic yang dikembangkan Purwarianti ini dan stemmer deterministic (<a href="https://dl.acm.org/doi/10.1145/1316457.1316459">Andiani et al.</a>) adalah masalah ambiguitas kata yang dihasilkan oleh stemmer. Misalkan kata "memalukan" mempunyai 2 kata dasar, yaitu “malu” dan “palu” , tergantung konteksnya. Pada pernyataan-pernyataan berikut “dia tidak ingin memalukan keluarganya” dan “tukang memalukan paku di tembok” kata ambigu "memalukan" akan menghasilkan kata dasar "malu" secara terus-menerus. Berdasarkan konteksnya, hasilnya seharusnya menjadi "malu" di kalimat pertama dan "palu" di kalimat kedua. Nondeterministic stemmer dari Purwarianti menghasilkan beberapa alternatif kandidat kata dari kata-kata ambigu tersebut, tetapi memiliki kelemahan dalam memilih hasil yang tepat, karena ketiadaan konteks. </br></br>Nondeterministic Context Stemmer memperbaiki pendekatan nondeterministik itu dengan menambahkan konteks dalam pemilihan kata terbaik. Dalam menyelesaikan masalah pemilihan kata terbaik untuk setiap masukan kata ambigu, diusulkan penggunaan model word2vec. Dengan cara ini stemmer akan lebih akurat dalam melakukan stemming dibandingkan dengan cara-cara sebelumnya.
#### Kelebihan
NDETC stemmer mampu menstemming kata ambigu, kata reduplikasi, dan kata majemuk dengan imbuhan. Namun, kualitas stemmer tergantung pada pemeriksa aturan afiks, model kata, kamus kata dasar, dan konteksnya. Berikut beberapa contoh kelebihan nondeterministc context stemmer (NDETC) dibandingkan deterministic stemmer (DET):
- Input: kalau pandai <b>menggulai</b>, badar jadi tenggiri, output (NDETC): kalau pandai <b>gulai</b> badar jadi tenggiri. Output (DET): kalau pandai <b>gulai</b> badar jadi tenggiri
- Input: ibu <b>menggulai</b> kopi. Output (NDETC): ibu <b>gula</b> kopi. Output (DET): ibu <b>gulai</b> kopi
- Input: <b>Selangkah</b> lagi, Pedrosa jadi pembalap tes KTM. Output (NDETC): <b>langkah</b> lagi pedrosa jadi balap tes ktm. Output (DET): <b>selang</b> lagi pedrosa jadi balap tes ktm
- Input: Indonesia memiliki <b>beribu-ribu</b> pulau. Output (NDETC): indonesia milik <b>ribu</b> pulau. Output (DET): indonesia milik <b>beribu-ribu</b> pulau
- Input: Kita harus <b>mempertanggungjawabkannya</b>. Output (NDETC): kita harus <b>tanggung jawab</b>. Output (DET): kita harus <b>mempertanggungjawabkannya</b>
- Input: pengampun. Output (NDETC): ampun. Output (DET): kam
- Input: membantah. Output (NDETC): bantah. Output (DET): ban
- Input: pemakalah. Output (NDETC): makalah. Output (DET): maka
- Input: berimanlah. Output (NDETC): iman. Output (DET): rim
- Input: berantai. Output (NDETC): rantai. Output (DET): beranta
- Input: berduri. Output (NDETC): duri. Output (DET): dur
- Input: peperangan. Output (NDETC): perang. Output (DET): peperangan
#### Kekurangan
- Aturan infiks -el-, -em-, -er-, dan -in- tidak digunakan dalam stemmer ini karena memiliki dampak signifikan terhadap semua proses stemmer.
- Konteks kata sebelum dan sesudah kata-kata ambigu morfologis seringkali tidak mendukung pemilihan kata-kata terbaik.
#### Penting
- Kualitas model kata hasil pelatihan word2vec mempengaruhi pemilihan kata-kata terbaik dalam kata-kata ambigu. Model kata dibuat menggunakan pelatihan word2vec dengan beberapa parameter. Beberapa parameter dalam membuat model harus dipilih dengan cermat dan hasilnya harus dibandingkan dari satu model ke model lainnya. Dalam stemmer ini terdapat model yang telah dilatih dengan menggunakan corpus wikipedia berbahasa Indonesia yang diunduh tanggal 2 November 2021.
- Kualitas kamus kata dasar mempengaruhi kualitas stemmer. Kamus kata dasar harus bebas dari kata berimbuhan.
## License
[MIT](https://choosealicense.com/licenses/mit/)
Raw data
{
"_id": null,
"home_page": "https://github.com/kaenova/NDETCStemmer",
"name": "NDETCStemmer-kaenova",
"maintainer": "",
"docs_url": null,
"requires_python": "",
"maintainer_email": "",
"keywords": "linguistic stemming indonesian bahasa",
"author": "",
"author_email": "",
"download_url": "https://files.pythonhosted.org/packages/e7/57/984c809219215b5fb5b47e4123a62a7801b984123d3563b0d6caced2df42/NDETCStemmer_kaenova-1.4.3.tar.gz",
"platform": null,
"description": "# Nondeterministic Context (NDETC) Stemmer\r\n\r\n**This is Kaenova's maintained NDETCStemmer, a fork from the [original](https://github.com/alifadwitiyap/NDETCStemmer). I upload the model to Huggingface for model reliability.**\r\n\r\nNondeterministic Context (NDETC) Stemmer adalah library yang mengimplementasikan metode stemming nondeterministic berbasis context untuk memecahkan permasalahan kata-kata ambigu (bermakna lebih dari satu) morfologis pada proses stemming kata dalam bahasa Indonesia.\r\n\r\n## Installation\r\nUntuk menginstall library ini diperlukan pip python yang dapat anda download dengan mengikuti link [berikut](https://pip.pypa.io/en/stable/installation/#).\r\nKemudian anda dapat menjalankan kode berikut pada terminal yang anda gunakan\r\n```bash\r\npip install NDETCStemmer-kaenova\r\n```\r\n \r\n## Usage\r\nSetelah menginstall library ini, anda dapat menggunakannya dengan membuat file baru di dalam folder yang sama dengan NDETCStemmer_IO.py atau dengan cara mengubah file NDETCStemmer_IO.py dengan mengikuti baris code berikut sebagai percobaan:\r\n```python\r\n#import NDETCStemmer library\r\nfrom NDETCStemmer import NDETCStemmer\r\n\r\n#init stemmer\r\nstemmer=NDETCStemmer()\r\n\r\n# stemming process\r\noutput=stemmer.stem('boleh saya memerah lembu ini')\r\n\r\nprint(output)\r\n#boleh saya perah lembu ini\r\n\r\nprint(stemmer.stem('bibirnya memerah tangannya jadi selengket madu'))\r\n#bibir merah tangan jadi lengket madu\r\n\r\n```\r\n\r\n\r\n## Cititation\r\n```\r\n@INPROCEEDINGS{9617514,\r\n author={Bunyamin and Huda, Arief Fatchul and Suryani, Arie Ardiyanti},\r\n booktitle={2021 International Conference on Data Science and Its Applications (ICoDSA)}, \r\n title={Indonesian Stemmer for Ambiguous Word based on Context}, \r\n year={2021},\r\n volume={},\r\n number={},\r\n pages={1-9},\r\n doi={10.1109/ICoDSA53588.2021.9617514}}\r\n```\r\n\r\n## Tentang Nondeterministic Context Stemmer\r\nMerupakan stemmer yang dikembangkan oleh <a href=\"https://ieeexplore.ieee.org/document/9617514\">Bunyamin et al.</a> yang merupakan penelitian lanjutan dari pendekatan nondeterministic yang diusulkan oleh <a href=\"https://ieeexplore.ieee.org/document/6021829\">Purwarianti</a>. Dalam penelitian Purwarianti, setiap kata tidak diperiksa menurut urutan aturan morfologi, tetapi diperiksa menggunakan semua aturan. Kemudian, hasilnya disimpan satu per satu dalam daftar kandidat kata. Kata akhir akan dipilih menggunakan beberapa aturan heuristik, yaitu ketersediaan kosakata dari kata dasar khusus dan panjang kata. </br> </br>Masalah yang dihadapi oleh metode nondeterministic yang dikembangkan Purwarianti ini dan stemmer deterministic (<a href=\"https://dl.acm.org/doi/10.1145/1316457.1316459\">Andiani et al.</a>) adalah masalah ambiguitas kata yang dihasilkan oleh stemmer. Misalkan kata \"memalukan\" mempunyai 2 kata dasar, yaitu \u201cmalu\u201d dan \u201cpalu\u201d , tergantung konteksnya. Pada pernyataan-pernyataan berikut \u201cdia tidak ingin memalukan keluarganya\u201d dan \u201ctukang memalukan paku di tembok\u201d kata ambigu \"memalukan\" akan menghasilkan kata dasar \"malu\" secara terus-menerus. Berdasarkan konteksnya, hasilnya seharusnya menjadi \"malu\" di kalimat pertama dan \"palu\" di kalimat kedua. Nondeterministic stemmer dari Purwarianti menghasilkan beberapa alternatif kandidat kata dari kata-kata ambigu tersebut, tetapi memiliki kelemahan dalam memilih hasil yang tepat, karena ketiadaan konteks. </br></br>Nondeterministic Context Stemmer memperbaiki pendekatan nondeterministik itu dengan menambahkan konteks dalam pemilihan kata terbaik. Dalam menyelesaikan masalah pemilihan kata terbaik untuk setiap masukan kata ambigu, diusulkan penggunaan model word2vec. Dengan cara ini stemmer akan lebih akurat dalam melakukan stemming dibandingkan dengan cara-cara sebelumnya.\r\n\r\n\r\n#### Kelebihan\r\nNDETC stemmer mampu menstemming kata ambigu, kata reduplikasi, dan kata majemuk dengan imbuhan. Namun, kualitas stemmer tergantung pada pemeriksa aturan afiks, model kata, kamus kata dasar, dan konteksnya. Berikut beberapa contoh kelebihan nondeterministc context stemmer (NDETC) dibandingkan deterministic stemmer (DET):\r\n- Input: kalau pandai <b>menggulai</b>, badar jadi tenggiri, output (NDETC): kalau pandai <b>gulai</b> badar jadi tenggiri. Output (DET): kalau pandai <b>gulai</b> badar jadi tenggiri \r\n- Input: ibu <b>menggulai</b> kopi. Output (NDETC): ibu <b>gula</b> kopi. Output (DET): ibu <b>gulai</b> kopi\r\n- Input: <b>Selangkah</b> lagi, Pedrosa jadi pembalap tes KTM. Output (NDETC): <b>langkah</b> lagi pedrosa jadi balap tes ktm. Output (DET): <b>selang</b> lagi pedrosa jadi balap tes ktm \r\n- Input: Indonesia memiliki <b>beribu-ribu</b> pulau. Output (NDETC): indonesia milik <b>ribu</b> pulau. Output (DET): indonesia milik <b>beribu-ribu</b> pulau\r\n- Input: Kita harus <b>mempertanggungjawabkannya</b>. Output (NDETC): kita harus <b>tanggung jawab</b>. Output (DET): kita harus <b>mempertanggungjawabkannya</b>\r\n- Input: pengampun. Output (NDETC): ampun. Output (DET): kam\r\n- Input: membantah. Output (NDETC): bantah. Output (DET): ban \r\n- Input: pemakalah. Output (NDETC): makalah. Output (DET): maka\r\n- Input: berimanlah. Output (NDETC): iman. Output (DET): rim\r\n- Input: berantai. Output (NDETC): rantai. Output (DET): beranta\r\n- Input: berduri. Output (NDETC): duri. Output (DET): dur\r\n- Input: peperangan. Output (NDETC): perang. Output (DET): peperangan\r\n\r\n#### Kekurangan\r\n- Aturan infiks -el-, -em-, -er-, dan -in- tidak digunakan dalam stemmer ini karena memiliki dampak signifikan terhadap semua proses stemmer.\r\n- Konteks kata sebelum dan sesudah kata-kata ambigu morfologis seringkali tidak mendukung pemilihan kata-kata terbaik.\r\n\r\n#### Penting\r\n- Kualitas model kata hasil pelatihan word2vec mempengaruhi pemilihan kata-kata terbaik dalam kata-kata ambigu. Model kata dibuat menggunakan pelatihan word2vec dengan beberapa parameter. Beberapa parameter dalam membuat model harus dipilih dengan cermat dan hasilnya harus dibandingkan dari satu model ke model lainnya. Dalam stemmer ini terdapat model yang telah dilatih dengan menggunakan corpus wikipedia berbahasa Indonesia yang diunduh tanggal 2 November 2021. \r\n- Kualitas kamus kata dasar mempengaruhi kualitas stemmer. Kamus kata dasar harus bebas dari kata berimbuhan.\r\n\r\n## License\r\n\r\n[MIT](https://choosealicense.com/licenses/mit/)\r\n",
"bugtrack_url": null,
"license": "",
"summary": "Library untuk stemming kata dalam Bahasa Indonesia menggunakan metode Nondeterministic Context",
"version": "1.4.3",
"project_urls": {
"Homepage": "https://github.com/kaenova/NDETCStemmer"
},
"split_keywords": [
"linguistic",
"stemming",
"indonesian",
"bahasa"
],
"urls": [
{
"comment_text": "",
"digests": {
"blake2b_256": "56947e41ca3e212a04501ead7546e6123e68995bc7a16f32690b412dbc130b53",
"md5": "ab0a20ca53a695ec871b520846abc5be",
"sha256": "483386aa39b0517530ec12485b2043dc278a2ff5d8a54d8fd329c7e2030c9037"
},
"downloads": -1,
"filename": "NDETCStemmer_kaenova-1.4.3-py3-none-any.whl",
"has_sig": false,
"md5_digest": "ab0a20ca53a695ec871b520846abc5be",
"packagetype": "bdist_wheel",
"python_version": "py3",
"requires_python": null,
"size": 141826,
"upload_time": "2023-05-04T08:20:31",
"upload_time_iso_8601": "2023-05-04T08:20:31.560594Z",
"url": "https://files.pythonhosted.org/packages/56/94/7e41ca3e212a04501ead7546e6123e68995bc7a16f32690b412dbc130b53/NDETCStemmer_kaenova-1.4.3-py3-none-any.whl",
"yanked": false,
"yanked_reason": null
},
{
"comment_text": "",
"digests": {
"blake2b_256": "e757984c809219215b5fb5b47e4123a62a7801b984123d3563b0d6caced2df42",
"md5": "d83550520c11776549871c887b1fd74d",
"sha256": "00a94467c560aed84dd2dfc6dde6f90bac0d5aa281bfe626c619a026148543ff"
},
"downloads": -1,
"filename": "NDETCStemmer_kaenova-1.4.3.tar.gz",
"has_sig": false,
"md5_digest": "d83550520c11776549871c887b1fd74d",
"packagetype": "sdist",
"python_version": "source",
"requires_python": null,
"size": 127815,
"upload_time": "2023-05-04T08:20:33",
"upload_time_iso_8601": "2023-05-04T08:20:33.948079Z",
"url": "https://files.pythonhosted.org/packages/e7/57/984c809219215b5fb5b47e4123a62a7801b984123d3563b0d6caced2df42/NDETCStemmer_kaenova-1.4.3.tar.gz",
"yanked": false,
"yanked_reason": null
}
],
"upload_time": "2023-05-04 08:20:33",
"github": true,
"gitlab": false,
"bitbucket": false,
"codeberg": false,
"github_user": "kaenova",
"github_project": "NDETCStemmer",
"travis_ci": false,
"coveralls": false,
"github_actions": false,
"requirements": [],
"lcname": "ndetcstemmer-kaenova"
}