由江西省發改委、贛江新區管委會、阿里雲等聯合舉辦的「萬創杯」中醫藥天池大數據競賽於12月9日拉開決賽帷幕。大賽旨在優選出中醫藥領域的大數據優秀應用和創新解決方案,並以科技扶持、產業發展資金或產業扶持、對接創投資本等方式吸引項目落地應用,可快速提升當地智慧中醫藥的應用水平,實現全國領先的工作目標。
由華坤道威數據分析部周揚、劉妍、張子奇組建的「the answer」團隊參與了此次大賽。針對賽題任務,該團隊使用RoBERTa的預訓練參數,以及採用end2end思路,且加入lattice structure,一共構建了六類模型。並通過多種loss組合、數據增強等額外方法,提升了比賽中的模型性能。最終,「the answer」團隊用優秀的建模思路和算法能力,在全球1683支競賽隊伍中勇奪季軍。
本次大賽中,「the answer」團隊充分利用NLP方面技術,其重要性主要體現在人工智慧方面,是一種人工智慧方法,能夠處理機器和人類自然語言之間的交互,包括進行分析、理解、改變或生成自然語言。除了我們日常所普及到的智能音箱外,NLP技術還廣泛應用於輿情分析、民意調查。在今年,華坤道威也為浙江政法委研發了一款融入NLP技術的社會治理平臺——融媒雲。
數據分析部三位小夥伴們的獲獎,不僅僅是個人實力的體現,更是因為數據分析部作為公司重要部門,已經擁有20年行業經驗的沉澱。從最早的房產事業部,到後來的教育、家居、電商、遊戲等事業部的陸續成立,得以讓數據分析部的算法不斷優化,也讓公司不斷在使用的算法和模型一直保持行業領先優勢,從常用機器算法來判斷用戶的標籤屬性,逐步發展為深度神經網絡等高性能算法,通過多樣化、多行業的用戶行為大數據導入深度網絡,大大提高了用戶行為標籤化建模的精確度和準確率。
此外針對不同垂直行業,公司還為其定製不同的算法模型,以及更細化的標籤體系。例如金融行業,是基於金融用戶歷史投資、行為關注、社群參與、貢獻能力、身份特質五個維度,拆分出160多個分項維度,使用專家打分法,基於基尼指數最小化原則,做分類樹及回歸等多次迭代算法,最終形成一個算法模型,從而得出標籤值。而在電商方面,公司則採取不同的定義標籤進行深度網絡訓練和交叉驗證,同時採用多種算法模型進行數據篩選,得出更精準的銷售線索。
20年的行業服務底蘊,讓公司在數據分析方面積累了大量方法和經驗,面對不同行業需求,公司能夠給予更快更好的決策方案,以及提供更匹配場景的算法模型。隨著公司在數據分析方面的口碑不斷提升,也收穫了更多不同行業客戶。在嶄新一年,公司勢必將保持和增強數據分析方面的能力,為更多行業客戶賦能。