當下熱門的大數據應用是以分析場內交易數據和如何選股為主,對投資者情緒的研究不足。近期引發市場關注的是,天弘基金所編制的餘額寶情緒指數,通過對餘額寶資金流入股市的數據進行挖掘,能刻畫出散戶入市意願,值得一提的是,該指數與官方銀證轉帳數據相關性高達0.9。餘額寶情緒指數的背後到底有著哪些秘密,可以如此高度準確地反映市場整體散戶的投資情緒?
與銀證轉帳相關性高達0.9
投資者情緒對投資決策、風險管理和市場監管等具有重要意義,場內資金的流入流出直接影響股市的流動性。
然而由於散戶數量多且分散,對這部分群體的行為很難做出精準判斷。目前衡量市場整體散戶資金流入流出量變化的官方數據是銀證轉帳數據,由中國證券投資者保護基金每周公布一次。
經過測算,天弘基金編制的餘額寶情緒指數與銀證轉帳數據的相關係數高達0.9,可見該指數高度反映了全市場入市資金量變動,自然也可以在一定程度上代表整體散戶參與股市的意願。值得一提的是,天弘基金的餘額寶情緒指數是日級高頻指數,每個交易日更新一次,查詢更加方便快捷。
海量靠譜數據,每秒億級處理能力
餘額寶情緒指數的準確性依託於天弘基金對餘額寶大數據資源的深度開發和利用,整體來看,餘額寶擁有五大核心資源優勢,分別是用戶、交易、存儲、計算和挖掘。
截至2015年6月底,餘額寶的用戶人數達到2.26億,相當於每6個中國人當中就有一個人是餘額寶用戶,從各個維度來看,這些用戶涵蓋了各種類型的投資者。餘額寶用戶基本覆蓋了全國的各個民族、各個地域、各個職業、各年齡階段。廣泛的數據採集使其毫無疑問具有很強的代表性。2.26億的用戶,每個人的每個投資行為都會產生相應數據,這些數據正是構成餘額寶情緒指數準確性的基礎。
隨著餘額寶功能的日益豐富,餘額寶用戶已經發展到具有轉帳、購物,消費,信用卡還款,購買金融理財產品等各種行為,兼具電商屬性、社交屬性和金融屬性。餘額寶情緒指數的編制方法就是基於餘額寶的業務場景,篩選出用戶直接或
間接進入股市的資金,在剝離IPO、節假日等影響後,對數據進行標準化指數構建,從而確保編制的科學性。
從數據的儲存量和處理能力來看,餘額寶累積交易金額已達到十萬億級,累積交易筆數百億級,儲存的核心交易數據超140TB。天弘基金大數據中心採用阿里雲作為底層架構,使用RDS、ECS、OSS、ODPS等雲產品搭建大數據架構,為海量數據高效快速的計算提供了可靠的保障。目前,天弘基金大數據中心,356秒可處理360億條數據,平均1秒即可處理1億條信息。這樣的計算能力,在金融行業乃至網際網路行業,均處於領先水平。
目前,天弘基金大數據分析中心團隊超過10人,平均年齡只有27歲,既有來自微軟、TERADATA的IT高手,也有來自私募曾有過高頻交易、量化投資的金融人才,還有通過創新渠道招到的應屆精英。正是這樣一支年輕的精英隊伍,在為市場提供最新的前沿數據。