Journal Article

Optimization of Sentiment Analysis Classification of ChatGPT on Big Data Twitter in Indonesia using BERT

Frans Mikael Sinaga, Ronsen Purba, Sio Jurnalis Pipin, Wulan Sri Lestari, Sunaryo Winardi

MATRIK: Jurnal Manajemen, Teknik Informatika dan Rekayasa Komputer, Vol. 8 No. 3 (2024) • 2024

5 citations

Abstract

This research is grounded in the emergence of ChatGPT technology and prior studies showing non-convergent classification results in LSTM-based methods due to suboptimal hyperparameter settings and limitations in understanding Big Data text. While ChatGPT provides many benefits, it also raises concerns such as copyright infringement, unauthorized news extraction, and accountability issues. This study aims to optimize sentiment analysis classification of public opinion toward ChatGPT on Twitter in Indonesia using the BERT (Bidirectional Encoder Representations from Transformers) model. The research includes a series of Natural Language Processing (NLP) preprocessing steps, after which vectorized text is classified using BERT into positive, negative, and neutral sentiments. The model is evaluated using a confusion matrix, and with Max Sequence Length = 128 and Batch Size = 16, the best classification accuracy achieved is 93.4%, demonstrating that BERT can provide more accurate, convergent, and contextually relevant sentiment analysis on Big Data.

Overview

Penelitian ini mengoptimalkan klasifikasi analisis sentimen terhadap ChatGPT pada Big Data Twitter di Indonesia dengan memanfaatkan model BERT untuk mengatasi keterbatasan pendekatan LSTM sebelumnya.

Serangkaian tahapan prapemrosesan NLP diterapkan sebelum data teks yang telah tervektorisasi diklasifikasikan menjadi sentimen positif, negatif, dan netral menggunakan BERT, dengan evaluasi kinerja berbasis confusion matrix.

Key Contributions

Mengidentifikasi keterbatasan metode LSTM dalam klasifikasi sentimen pada data berskala besar terkait ChatGPT, terutama terkait konvergensi dan pemahaman konteks teks.
Menerapkan model BERT untuk klasifikasi sentimen publik terhadap ChatGPT pada Big Data Twitter di Indonesia dengan konfigurasi parameter yang dioptimalkan.
Mencapai akurasi klasifikasi hingga 93,4% dengan Max Sequence Length = 128 dan Batch Size = 16, menunjukkan peningkatan performa dibandingkan pendekatan sebelumnya.
Memberikan wawasan tentang dampak dan persepsi publik terhadap teknologi ChatGPT serta menunjukkan efektivitas BERT untuk tugas analisis sentimen berbasis Big Data.