貳、實習期間完成之進度

佑恩陳
Oct 4, 2021
1 min read

一、讀取、存取各家新聞資料

陳冠宇:在暑假時，我們先用爬蟲將各家新聞資料抓下來，並且用程式將其分類放入excel，以下放上程式碼，因為後續程式碼偏多，便不一一放上來

接著得到資料後從dataframe轉到excel裡面，分別是標題，內容，標題+內容(為了之後用演算法算關鍵字時不用分開算，特地將其合併)，關鍵字，主題，日期，網址，以及新聞廠商。

陳佑恩:我們分配一人去蒐集七家不同的新聞，並且用程式碼存入到excel，其中有幾家的資料型態不一致，導致我們去讀取的時候，需要再去了解哪個地方需要更改。

目的:我們希望透過從這14家的新聞裡面，篩選2018年到2021年中的文章，並挑選出我們所要技術關鍵字。

二、標記關鍵字

接下來我們為了知道科技趨勢，我們必須先人工審視一次，內文中與科技相關的關鍵字詞，一共有多達6000筆資料，花了我們不少時間。

再接下來我們將其內文使用演算方法嘗試，演算法算出來的關鍵字詞與我們抓出來的關鍵字詞有多少是相符的，我們從演算法抓出來的關鍵字詞去排序分數，假設n為前n高分的關鍵詞，再假設我們抓出來的關鍵詞並且與前n項演算關鍵詞相同的數量為k，那比率就是k/n，n是用實驗假設出來的，到底使用多少目前我們還不確定。我們的演算方法使用兩種，第一項是TF-IDF，第二種是textrank，兩種皆在暑期時寫出來並套用了，接下來要做的便是看哪一種方法得出的k/n比率較高。

貳、實習期間完成之進度

Recent Posts

Comments