一、 讀取、存取各家新聞資料
陳冠宇:在暑假時,我們先用爬蟲將各家新聞資料抓下來,並且用程式將其分類放入excel,以下放上程式碼,因為後續程式碼偏多,便不一一放上來
接著得到資料後從dataframe轉到excel裡面,分別是標題,內容,標題+內容(為了之後用演算法算關鍵字時不用分開算,特地將其合併),關鍵字,主題,日期,網址,以及新聞廠商。
陳佑恩:我們分配一人去蒐集七家不同的新聞,並且用程式碼存入到excel,其中有幾家的資料型態不一致,導致我們去讀取的時候,需要再去了解哪個地方需要更改。
目的:我們希望透過從這14家的新聞裡面,篩選2018年到2021年中的文章,並挑選出我們所要技術關鍵字。
二、 標記關鍵字
接下來我們為了知道科技趨勢,我們必須先人工審視一次,內文中與科技相關的關鍵字詞,一共有多達6000筆資料,花了我們不少時間。
再接下來我們將其內文使用演算方法嘗試,演算法算出來的關鍵字詞與我們抓出來的關鍵字詞有多少是相符的,我們從演算法抓出來的關鍵字詞去排序分數,假設n為前n高分的關鍵詞,再假設我們抓出來的關鍵詞並且與前n項演算關鍵詞相同的數量為k,那比率就是k/n,n是用實驗假設出來的,到底使用多少目前我們還不確定。我們的演算方法使用兩種,第一項是TF-IDF,第二種是textrank,兩種皆在暑期時寫出來並套用了,接下來要做的便是看哪一種方法得出的k/n比率較高。
Comments