top of page
Writer's picture佑恩 陳

貳、實習期間完成之進度

一、 讀取、存取各家新聞資料

陳冠宇:在暑假時,我們先用爬蟲將各家新聞資料抓下來,並且用程式將其分類放入excel,以下放上程式碼,因為後續程式碼偏多,便不一一放上來



接著得到資料後從dataframe轉到excel裡面,分別是標題,內容,標題+內容(為了之後用演算法算關鍵字時不用分開算,特地將其合併),關鍵字,主題,日期,網址,以及新聞廠商。




陳佑恩:我們分配一人去蒐集七家不同的新聞,並且用程式碼存入到excel,其中有幾家的資料型態不一致,導致我們去讀取的時候,需要再去了解哪個地方需要更改。








目的:我們希望透過從這14家的新聞裡面,篩選2018年到2021年中的文章,並挑選出我們所要技術關鍵字。


二、 標記關鍵字

接下來我們為了知道科技趨勢,我們必須先人工審視一次,內文中與科技相關的關鍵字詞,一共有多達6000筆資料,花了我們不少時間。

再接下來我們將其內文使用演算方法嘗試,演算法算出來的關鍵字詞與我們抓出來的關鍵字詞有多少是相符的,我們從演算法抓出來的關鍵字詞去排序分數,假設n為前n高分的關鍵詞,再假設我們抓出來的關鍵詞並且與前n項演算關鍵詞相同的數量為k,那比率就是k/n,n是用實驗假設出來的,到底使用多少目前我們還不確定。我們的演算方法使用兩種,第一項是TF-IDF,第二種是textrank,兩種皆在暑期時寫出來並套用了,接下來要做的便是看哪一種方法得出的k/n比率較高。



41 views0 comments

Recent Posts

See All

壹、工作內容

一、 工作環境 由於疫情關係,從六月底學期結束到現在,都是在家裡做專題,並使用teams討論,依照完成的進度向指導教授報告。 二、 工作詳述 蒐集資料,開始去分析文章關鍵字,並使用演算法去幫我們求得與我們預期得到的關鍵字。

Comments


bottom of page