畢業專題

題目名稱:

用Python實作PTT熱門看版情感分析

研究動機:

v 在台灣PTT是熱門的網路論壇之一,很多人會在網路上瀏覽PTT熱門看板上的話題並留下看法
所以我們想透過python 製作網路爬蟲抓取回文並進行情感分析。了解PTT讀者對於不同主題的想法

專題目標:

如何在網路資訊累積速度越來越快時,即時且精確地分析網路評論的情感傾向,是情感分析重要的研究方向。在網路評論中,部份詞彙具有其對應的情緒,可能為正向、也可能為負向,一般來說稱之為詞彙極性。在情感分析領域中,對於詞彙極性之標注採用人工的方式最為準確,但也最花費時間與成本。找出論壇使用者在某些話題上或者針對某些事件正負面的觀點態度,並且對他們在話題上的正負面的觀點態度做評估和分析,用以判斷與話題或事件的評論內容是屬於正面,或是負面的。藉由分析大量的評論,了解人們對於某事物的看法、態度這個態度或許是他或她的個人判斷或是評估,也許是他當時的情感狀態(就是說,作者在做出這個言論時的情緒狀態)並由此進而預測人們對於其他更多事物的觀點與態度。

專題開發過程:

專題開發分為四步驟
1. 資料收集(資料集的建立)
    因為我們在網路上找不到可以直接使用的資料集,所以只好自己做資料集(即使用人工加標籤的方式一則一則留言)。
    但因為利用網路爬蟲抓下來的留言不是完整的所以需花費一段時間整理和加上標籤。
    最後我們收集了55276條留言
2. 撰寫語意分析程式(使用類神經網路)
   有了資料集後,就可以撰寫請感分析的程式
3. 訓練和測試神經網路
一個人工智慧的程式有了資料集後就可以開始訓練,我們使用資料集中百分之八十(44220則留言)進行訓練剩下的(11056則留言)則用來測試。
經過測試精準度為82.85%
4. 實作demo程式(系展使用)
引用剛剛實作完的python 模組(神經網路)將PTT上的隨便一條留言拿來測試由模組分析出來得結果輸出到螢幕

成果概述:

進行專題實作時,本專題是以python程式語言撰寫,也利用到很多python的模組,並藉由網路爬蟲依照PTT的網頁原始碼蒐集PTT中大量回文,並以人工加標籤的方式分得正、負面各27638條回文,然後再從蒐集好的55276條回文利用羅吉斯回歸(Logistic-regression)演算法以及梯度下降演算法進行情感分析的實作,並測出本專題之情感分析的準確率,然後本專題將44221筆回文(80%的筆數)用於訓練,再將11055筆回文(20%的筆數)用於測試,每一筆回文的預測結果和label(人工加標籤做情感分類)進行比較,並且根據這兩者方法比較出的結果,分析出導致有誤差的原因。

系展海報:



https://drive.google.com/file/d/1sxSR410K6_AdZbOXoRnDpvY7oEqrAyUz/view?usp=sharing

留言

這個網誌中的熱門文章

關於我