❶ 怎麼通過URL抓取google的上證指數
是個AJAX網頁,很多抓取工具無能為力,但是,對於MetaSeeker工具包來說很容易,使用工具包中的MetaStudio工具定義抓取規則,已經有人定義了,主題名demo_ajax_google_shIndex,然後使用工具包中的DataScraper定題網路爬蟲周期性抓取就行了。
指數刷新很快,要很頻繁抓取。也許採用一些網站的財經指數API更容易,好像有新浪財經API,可以獲得指數和股票價格信息
❷ 如何用爬蟲抓取股市數據並生成分析報表
1. 關於數據採集
股票數據是一種標准化的結構數據,是可以通過API介面訪問的(不過一般要通過渠道,開放的API有一定的局限性)。也可以通過爬蟲軟體進行採集,但是爬蟲軟體採集數據不能保證實時性,根據數據量和採集周期,可能要延遲幾十秒到幾分鍾不等。我們總結了一套專業的爬蟲技術解決方案(Ruby + Sidekiq)。能夠很快實現這個採集,也可以後台可視化調度任務。
2. 關於展現
網路股票數據的展現,網頁端直接通過HTML5技術就已經足夠,如果對界面要求高一點,可以採用集成前端框架,如Bootstrap;如果針對移動端開發, 可以使用Ionic框架。
3. 關於觸發事件
如果是採用Ruby on Rails的開發框架的話,倒是很方便了,有如sidekiq, whenever這樣子的Gem直接實現任務管理和事件觸發。
❸ java採集騰訊的股票行情
用firefox的httpfox插件,攔截訪問這個頁面時,所有response的內容。模擬瀏覽器的提交順序來弄,來的到js返回的內容。
參考爬蟲,蜘蛛,網頁抓取等技術