輿情監測系統的分析與設計
輿情監測系統它是眾多技術結合的成果。
一、網絡輿情采集
在信息采集步驟中,主要包括網絡爬蟲(We-bCrawler)和網頁清洗(WebPageCleaning)等技術。
網絡爬蟲是一個按照一定規則自動抓取網絡信息的程序,又稱為網絡蜘蛛(WebSpider)。網絡爬蟲分為三類:通用爬蟲(GeneralPurposeWebCrawler) ,面向主題爬蟲(FocusCrawlerorTopicalCrawler) ,面向DeepWeb爬蟲(DeepWebCrawler)。考慮到網絡輿情監測一般是面向行業監測,傾向于使用面向主題爬蟲。
網頁清洗就是從網頁中過濾掉“噪聲"數據,提取出網頁中有價值的信息內容。網頁清洗分析方法主要分為三類:基于樹結構分析方法,基于Web挖掘方法,基于正則表達式方法。基于樹結構分析方法應用最廣,開源軟件Htmlparse是比較有代表性的工具,缺點是高度依賴每個網站網頁的結構。
二、輿情自動分類
網絡輿情分類是將收集的輿情進行自動分類,是整理和發現輿情的關鍵步驟,主要運用到自然語言處理中的文本分類(TextCategorization)和文本聚類(TextClusters)等技術。
三、話題識別與跟蹤
話題識別與跟蹤(TopicDetectionandTracking)是對網絡輿情聚類分析后,通過算法找出熱點問題,并通過算法跟蹤話題發展過程,是網絡輿情監測中的核心技術。
四、文本情感分析
文本情感分析(又稱文本傾向性或意見挖掘(OpinionMining)),是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。文本情感分析是自然語言處理技術中新興的研究課題,具有很大的研究價值和應用價值,一般來說,它分為三個主要研究任務:情感信息抽取、情感信息分類、情感信息的檢索與歸納。
【文章聲明】識微科技網倡導尊重與保護知識產權。本網站文章發布目的在于分享輿情知識。部分內容僅是發稿人為完善客觀信息整理參考,不代表發稿人的觀點。未經許可,不得復制、轉載、或以其他方式使用本網站的內容。如發現本網站文章、圖片等存在版權問題,請及時聯系并發郵件至zhangming@civiw.com,電話:4008299196,我們會在第一時間刪除或處理相關內容。