2024年澳门太阳集团9728网站
信息技術研究生論壇(四)
場次一、
時間:2024年4月1日(星期一)10:00-11:30
地點:澳门太阳集团9728网站604教室
報告題目一:基于情境感知的人機混合智能過濾推薦模型
報告人:王鵬哲
報告簡介:農業場景下的知識服務具有周期性長、活動時間長的特點。傳統推薦模型無法有效挖掘農業場景下的基于農時的隐藏信息。針對上述問題,提出一種融合時間感知和增強過濾的農業知識個性化推薦模型(Time-aware and Filter-enhanced Sequential Recommendation Model for Agriculture Knowledge, TiFSA)。首先,基于時間感知的位置嵌入方法,将農戶交互的時間信息與位置嵌入相結合,幫助學習農業情境下基于農時的項目相關性。其次,在時間感知位置嵌入的基礎上,引入濾波器過濾算法,自适應地衰減農戶情境數據中的噪聲。最後,引入時間信息的多頭自注意力網絡,實現對時間、項目和特征的統一建模,對農戶随時間變化的偏好特征進行情境表示,從而為用戶提供可靠的推薦結果。
報告題目二:基于計算機視覺的甘藍移栽狀态檢測方法
報告人:吳小燕
報告簡介:目前缺乏用計算機對甘藍移栽狀态進行監測的方法。為了實現甘藍大田移栽情況的實時監測和統計,提高甘藍移栽後的成活率以及制定後續工作方案,減少人力和物力的浪費,研究一種自然環境下高效識别甘藍移栽狀态的算法。采集移栽後的甘藍圖像,利用數據增強方式對數據進行處理,輸入 YOLOv8s(You Only Look Once Version 8s) 算法中進行識别,通過結合可變形卷積,提高算法特征提取和目标定位能力,捕獲更多有用的目标信息,提高對目标的識别效果;通過嵌入多尺度注意力機制,降低背景因素幹擾,增加算法對目标區域的關注,提高模型對不同尺寸的甘藍的檢測能力,降低漏檢率;通過引入Focal-EIoU Loss (Focal Extended Intersection over Union Loss),優化算法定位精度,提高算法的收斂速度和定位精度。
場次二、
時間:2024年4月1日(星期一)9:00-12:00
地點:澳门太阳集团9728网站214教室
報告題目一:基于Swin Transformer的腹部多器官醫學圖像分割
報告人:傅勵瑤
報告簡介:基于Swin Transformer的腹部多器官醫學圖像分割的研究旨在解決傳統圖像分割方法在處理多器官醫學圖像時的挑戰。傳統方法往往難以準确捕捉器官之間的複雜邊界以及區分相似結構,導緻分割結果不夠精确。基于Swin Transformer模型提出的圖像分割方法,充分利用Swin Transformer在跨尺度特征提取和全局上下文感知方面的優勢,實現了對腹部多器官圖像的高效分割。通過引入滑動窗口和智能掩碼機制,有效提高了分割的準确性和魯棒性。這一方法不僅在分割準确度和速度上具有顯著優勢,還為醫學圖像分析領域提供了一種可靠的解決方案,有望在臨床診斷和醫學研究中發揮重要作用。
報告題目二:基于擴撒模型的聯邦學習
報告人:趙狀
報告簡介:聯邦學習是一種分布式機器學習範式,它的主要特點是允許多個設備或計算節點在不共享原始數據的情況下進行模型訓練。然而,非獨立同分布(non-IID)數據可能會導緻聯邦學習的學習性能下降。為了解決這個問題,已經提出了數據增強方案,但它們通常需要共享客戶端的原始數據,這帶來了隐私風險。為了應對這些挑戰,我們提出了FedDDA,這是一種基于數據增強的聯邦學習架構,它使用擴散模型生成符合全局類别分布的數據,并緩解非IID數據問題。在FedDDA中,擴散模型通過聯邦學習進行訓練,然後用于數據增強,從而在不披露客戶端原始數據的情況下減輕非IID數據的程度。我們通過大量的實驗表明,FedDDA的性能顯著優于FedAvg,在Cifar10數據集上最高提高了43.04%,在Fashion-MNIST數據集上最高提升了20.05%。此外,我們還發現,符合全局類别分布的相對較低質量的生成樣本仍然可以顯著提高聯邦學習的性能。
報告題目三:基于廣義稀疏矩陣乘法的深度學習優化方法
報告人:計偉
報告簡介:廣義稀疏矩陣乘法(SpGEMM)是各種工程和科學應用中普遍存在的任務。廣義稀疏矩陣乘法(SpGEMM)也是許多算法的關鍵計算核心,如壓縮深度神經網絡、三角形計數、馬爾可夫聚類、搜索算法和匹配算法。它也普遍存在于科學和工程應用中,如語法解析、化學分子動力學、顔色交叉搜索、線性求解器和許多其他應用。然而,在傳統的通用計算平台(如CPU和GPU)上,由于低密度矩陣造成了不規則的内存訪問模式和較差的局部性,相關架構性能往往受到很大的限制。對于處理稀疏矩陣相關性能問題亟待解決。引入SpArch,這是一種特定于領域的加速器,用于聯合優化輸入和輸出數據重用。通過外積實現輸入重用,通過片上部分矩陣合并實現輸出重用。為了實現這一點,論文中設計了一個高度并行的合并,将乘法和合并這兩個計算階段流水線化。乘法階段生成部分矩陣,合并階段将部分矩陣合并為最終結果。然而我們發現,對于大型矩陣,部分矩陣的數量超過了合并的并行性。一次隻合并部分矩陣的一部分,進行多輪合并,會增加部分矩陣合并結果的内存訪問量,這抵消了流水線乘積和合并的性能增益,使DRAM訪問變得更大。基于此我們提出将矩陣分片使用SpArch,将最終的計算結果進行合并。
場次三、
時間:2024年4月1日(星期一)14:00-18:30
地點:澳门太阳集团9728网站604教室
報告題目一:基于監督學習的單目深度估計方法
報告人:賴鵬飛
報告簡介:單目深度估計技術緻力于從單張圖像中恢複出場景的深度信息,對于機器人導航、三維重建和增強現實等應用至關重要。本報告将深入探讨基于監督學習的單目深度估計方法,特别是卷積神經網絡(CNN)在特征提取、深度預測以及數據增強等方面的應用,并分析當前技術的局限性與未來發展方向。監督學習,尤其是深度學習技術,在單目深度估計領域取得了顯著的成果。希望通過深入分析和研究,探索新的網絡結構、損失函數和訓練策略,以進一步提升深度估計的精度和效率。
報告題目二:基于自監督學習的單目深度估計方法
報告人:賴鵬飛
報告簡介:單目深度估計技術在資源受限的環境下從單張圖像中推斷深度信息,對于機器人導航、虛拟現實和增強現實等領域具有重要意義。自監督學習作為一種無需昂貴标注數據的學習方法,為單目深度估計提供了新的解決方案。盡管自監督學習減少了對标注數據的依賴,但訓練數據的多樣性仍然對模型性能有重要影響。通過合成數據生成、領域随機化等技術,可以提高模型對不同場景的适應性。本報告将探讨自監督學習在單目深度估計中的應用,分析其工作原理、優勢、挑戰以及最新研究進展。
報告題目三:基于圖卷積與TransFormer的三維人體姿态估計
報告人:梁家僥
報告簡介:合理利用2D關節之間的關系在2D-to-3D姿态估計中起着至關重要的作用,但這仍處于半發展階段。為了緩解這個問題,論文作者提出了GraFormer,這是一種結合圖卷積的用于三維姿态估計的新型變換器結構。所提出的GraFormer包括兩個重複堆疊的核心模塊,GraAttention和ChebGConv塊。GraAttention使所有2D關節能夠在全局感受野中進行交互,而不會削弱關節的圖形結構信息,這為後續模塊引入了重要功能。與僅建模關節表面關系的普通圖卷積不同,ChebGConv塊使2D關節能夠在高階函數中交互,從而形成其隐式關系。
報告題目四:路徑規劃技術在現代交通系統中的應用與發展
報告人:梁永豪
報告簡介:本次報告将探讨路徑規劃技術的最新進展、實際應用,以及面臨的挑戰和未來的發展趨勢。報告将首先介紹路徑規劃的基本概念和原理,包括經典的路徑規劃算法(如Dijkstra算法、A*算法等)和現代的啟發式搜索算法。此外,報告還将讨論路徑規劃技術面臨的挑戰,如複雜動态環境建模、實時性要求、多目标優化等問題,并探讨相應的解決策略和技術創新。最後,将展望路徑規劃技術的未來發展趨勢,包括與人工智能、大數據、物聯網等技術的融合,以及在新興領域(如智慧城市、無人化物流等)的應用前景。通過本次報告,旨在加深對路徑規劃技術的理解,探讨其在實際應用中的問題和解決方案,展望未來的發展趨勢,為相關領域的研究和實踐提供參考和啟示。
報告題目五:路徑規劃技術的創新與應用探索
報告人:梁永豪
報告簡介:本報告将基于研究生視角,深入探讨路徑規劃技術的創新點、應用領域以及未來發展趨勢。結合具體的研究項目或實驗案例,分析路徑規劃技術在智能交通、無人駕駛、機器人導航等領域的創新應用,展示其在解決實際問題中的獨特優勢和潛力。此外,報告還将探讨路徑規劃技術所面臨的挑戰與機遇,如動态環境适應、多目标優化、實時計算等,并提出可能的解決方案和研究方向。最後,報告将展望路徑規劃技術的未來趨勢,包括與人工智能、大數據、物聯網等前沿技術的融合創新,以及在智慧城市、無人駕駛交通等領域的應用前景。通過本次報告,期望能夠為研究生們提供一個展示研究成果、交流學術思想的平台,推動路徑規劃技術的不斷突破與發展。
報告題目六:基于弱監督學習的圖像局部特征提取方法
報告人:尹一帆
報告簡介:圖像局部特征提取是計算機視覺領域的重要任務之一,對于圖像檢索、目标識别和圖像配準等應用具有關鍵作用。然而,傳統的局部特征提取方法通常需要大量的标注數據進行監督學習,而這些數據往往難以獲取或成本較高。為了解決這一問題,基于弱監督學習的圖像局部特征提取方法應運而生。本報告旨在探讨基于弱監督學習的圖像局部特征提取方法的研究現狀、技術原理和應用前景,為進一步推動該領域的發展提供參考和指導。
報告題目七:基于弱監督學習的圖像局部特征提取方法改進
報告人:尹一帆
報告簡介:圖像局部特征提取在計算機視覺領域中扮演着至關重要的角色,但傳統方法往往受限于标注數據的稀缺性或高成本。為了克服這些挑戰,基于弱監督學習的圖像局部特征提取方法備受關注。本報告旨在介紹對基于弱監督學習的圖像局部特征提取方法的改進研究,以提高其性能和适用性。本報告旨在探索和總結近期對基于弱監督學習的圖像局部特征提取方法的改進研究,重點關注提高提取質量、降低标注成本以及增強模型泛化能力等方面的創新。本報告回顧當前基于弱監督學習的圖像局部特征提取方法,分析其在提取質量、标注需求和泛化能力等方面的局限性,同時探讨改進基于弱監督學習的圖像局部特征提取方法的可能方向,包括但不限于數據增強、自适應學習、多任務學習以及模型蒸餾等。
場次四、
時間:2024年4月2日(星期二)9:00-12:00
地點:澳门太阳集团9728网站601教室
報告題目一:Communication-Efficient Federated Learning with Adaptive Parameter Freezing
報告人:彭涯軍
報告簡介:聯邦學習允許邊緣設備通過同步本地更新來協作訓練全局模型,而無需共享私有數據。然而,由于邊緣網絡帶寬有限,通信往往成為嚴重的瓶頸。在本文中,我們發現在整個訓練過程中沒有必要始終同步整個模型,因為許多參數在最終模型收斂之前逐漸穩定,因此可以在早期階段排除同步。這使我們能夠在不影響模型準确性的情況下減少通信開銷。然而,關鍵的挑戰在于,排除在全局同步之外的本地參數在不同客戶端上可能會有所不同,同時某些參數可能隻是暫時穩定。為了應對這些挑戰,我們提出了一種稱為自适應參數凍結(APF)的新穎方案,該方案凍結間歇期内的非同步穩定參數。具體來說,根據先前凍結的參數在後續疊代中是否保持穩定,以AIMD方式暫時調整凍結周期。我們在 PyTorch 中将APF作為Python模塊實現。實驗結果表明,APF可以減少60%以上的數據傳輸。
報告題目二:ECN Marking With Micro-Burst Traffic: Problem,
Analysis, and Improvement
報告人:餘天添
報告簡介:在數據中心中,終端主機的批處理方案可能會将微突發流量引入網絡。微突發引起的丢包通常會導緻嚴重的性能下降。因此,如何避免微突發流量引起的緩沖區溢出問題受到了人們的重視。特别是,ECN廣泛用于數據中心,以保持持久隊列占用率低,以便有足夠的緩沖空間作為緩沖空間來吸收微突發流量。然而,本文發現當前基于即時隊列長度的ECN标記方案可能會在另一個方向上引起問題-緩沖區下溢。具體而言,目前數據中心的ECN标記方案容易觸發虛假擁塞信号,導緻發送端過度反應和交換機隊列長度振蕩。由于ECN阈值較低,可能導緻緩沖區下溢,鍊路容量未被充分利用。本文通過實驗揭示了這一問題。此外,本文從理論上推導了隊列長度振蕩的幅度。分析結果表明,發送者的過度反應是由ECN錯标引起的。因此,本文提出了一種可以更準确地标記數據包的排隊和脫隊組合标記(CEDM)。通過試驗台實驗和廣泛的ns-2模拟,表明CEDM可以顯著減少吞吐量損失并提高流程完成時間。
報告題目三:Live Gradient Compensation for Evading Stragglers in Distributed Learning
報告人:李溫良
報告簡介:典型的分布式學習體系結構由參數服務器(Parameter Server, PS)和分布式計算節點組成——節點并行計算并發送本地梯度給PS,而PS聚合梯度後更新模型參數,并将最新的參數發往各計算節點。然而,在同步設置中,這種系統體系結構中每次疊代的時間開銷都受制于掉隊者的影響。一種簡單的策略是通過合并最快的K個計算節點并忽略掉隊者來執行分布式深度學習,然而這可能會導緻訓練non-IID數據時産生高偏差。為了解決這個問題,本篇文章開發了一種實時梯度補償(Live Gradient Compensation, LGC)策略,以接收來自掉隊者的延遲梯度,同時加速學習過程。與梯度編碼方法相比,LGC不需要任何額外的計算或數據存儲開銷。
報告題目四:數據流中每項尾分位數估計算法研究
報告人:韋姿蓉
報告簡介:估計數據分布的分位數,尤其是尾部分布,是數據流模型中的一個重要的話題,并且得到了許多研究人員的廣泛關注。論文中提出了一種新穎的sketch,名為SketchPolymer,用于準确估計每個項目的尾部分位數。SketchPolymer使用一種稱為Early Filtration的技術來過濾不頻繁的項目,并使用另一種稱為VSS的技術來減小誤差。理論和實驗結果都表明,與最新的方法相比,SketchPolymer的速度和準确性要高得多。
場次五、
時間:2024年4月2日(星期二)9:00-12:00
地點:澳门太阳集团9728网站601教室
報告題目一:通過線性鄰域傳播探索基因-患者關聯以識别個性化癌症驅動基因
報告人:陳福浩
報告簡介:驅動基因在癌症的發展中起着至關重要的作用。識别驅動基因對于診斷和理解癌症至關重要。然而,由于癌症的腫瘤異質性,在識别個性化驅動基因方面仍然存在挑戰。盡管已經開發了許多計算方法來解決這個問題,但很少有人緻力于探索基因-患者關聯來識别個性化的驅動基因。在此,我們提出了一種稱為LPDriver的方法,通過對個體遺傳數據采用線性鄰域傳播模型來識别個性化的癌症驅動基因。LPDriver基于個體患者的遺傳數據構建個性化基因網絡,從個性化基因網絡的二分圖中提取基因-患者關聯,并利用線性鄰域傳播模型挖掘基因-患者相關性來檢測個性化驅動基因。實驗結果表明,與現有的方法相比,我們的方法具有競争性,可以更準确地預測癌症驅動基因。此外,這些結果還表明,除了揭示已報道與癌症相關的新驅動基因外,即使隐藏了基因的突變數據,LPDriver也能夠通過其網絡特征識别個體患者的個性化癌症驅動基因。
報告題目二:利用稀疏典型相關分析和深度學習基于多組學數據對乳腺癌亞型進行分類
報告人:曾平凡
報告簡介:乳腺癌亞型的分類對于臨床診斷和治療至關重要。然而,乳腺癌的早期症狀可能并不明顯。高通量測序技術的快速發展産生了大量多組學生物數據。利用和整合現有的多組學數據可有效提高識别乳腺癌亞型的準确性。然而,很少有人緻力于确定不同組學數據之間的關聯以預測乳腺癌亞型。本項研究工作基于mRNA組學和DNA甲基化組學數據,提出一種新穎的框架名為DSCCN對乳腺癌亞型進行精準分類。DSCCN對多組學表達數據進行差異分析,識别差異表達基因,并采用稀疏典型相關分析挖掘多組學差異表達基因之間的高度相關特征。同時,DSCCN利用多任務深度學習神經網絡分别訓練相關的DE基因來預測乳腺癌亞型,自發解決了多組學數據整合中的數據異質性問題。結果表明,與現有方法對比,DSCCN取得了更好的效果。
報告題目三:基于标簽傳播的疾病模塊檢測方法研究
報告人:宋俊琳
報告簡介:疾病模塊檢測試圖從分子相互作用網絡中提取構成候選疾病機制的子網絡。疾病模塊檢測的一類重要方法是活躍模塊檢測方法,這類方法通過對節點進行評分或加權邊,在網絡上疊加分子圖譜,使用條件特異性信息檢測與所分析分子圖譜相關的模塊。借助疾病種子子網絡拓撲特征,提出一種基于标簽傳播的疾病模塊識别方法,疊代擴張種子子網絡,進而高度富集候選基因并最終得到疾病模塊。相比傳統活躍模塊識别方法在生物學相關性上有較大提升。
場次六、
時間:2024年4月2日(星期二)15:00-17:00
地點:澳门太阳集团9728网站807b教室
報告題目一:Hairpin:重新思考基于邊緣的交互式視頻流中的丢包恢複
報告人:徐博士
報告簡介: 交互式流媒體需要最大限度地減少卡頓事件(或視頻幀的截止日期錯過),以确保用戶和應用程序之間的無縫交互。然而,現有的丢包恢複機制對初傳和重傳統一優化冗餘,仍然無法滿足交互流的時延要求,而且還引入了相當大的帶寬成本。我們的見解是,在基于邊緣的交互式流媒體中,區分冗餘設置的重傳通常可以同時實現低帶寬成本和低截止期限錯過率。在本文中,我們提出了 Hairpin,一種用于基于邊緣的交互式流媒體的新的丢包恢複機制。 Hairpin在多輪傳輸中找到數據包、重傳和冗餘包的最佳組合,在保證端到端延遲要求的同時,顯着降低帶寬成本。生産部署實驗表明,與最先進的解決方案相比,Hairpin 可以同時将帶寬成本平均降低 40%,并将截止日期錯過率平均降低 32%。
報告題目二:Blockchain-based Federated Learning for Industrial Metaverses: Incentive Scheme with Optimal AoI
報告人:覃少雯
報告簡介:新興工業元環境實現了實體産業向虛拟空間的映射和拓展,實現了智能制造的顯著升級。工業元數據通過工業物聯網(industrial Internet of Things, IIoT)從各個生産運營線上獲取數據,進行有效的數據分析和決策,從而提高物理空間的生産效率,降低運營成本,實現商業價值最大化。然而,将元數據集成到工業物聯網中仍然存在瓶頸,例如敏感數據與商業機密的隐私洩露,工業物聯網感知數據的新鮮度以及共享這些數據的激勵。在本文中,我們為工業元數據設計了一個帶有分散聯邦學習的用戶自定義隐私保護框架。為了進一步改善工業元空間的隐私保護,進一步利用跨鍊授權的聯邦學習框架,通過具有主鍊和多子鍊的分層區塊鍊架構,在物理和虛拟空間上執行分散、安全和隐私保護的數據訓練。此外,我們引入了信息年齡作為數據新鮮度度量,從而設計了一個基于年齡的契約模型來激勵IIoT節點之間的數據感知。數值結果表明了所提出的框架和激勵機制在工業環境中的有效性。
報告題目三:Interactive Visual Cluster Analysis by Contrastive Dimensionality Reduction
報告人:楊治韬
報告簡介:提出了一種交互式視覺聚類分析的對比降維方法(CDR)。雖然高維數據降維與散點圖結合在視覺聚類分析中得到了廣泛的應用,但有效的視覺聚類分析存在一些局限性。首先,在保持鄰域結構的情況下,嵌入呈現清晰的視覺聚類分離是很重要的。其次,由于聚類分析是一項主觀任務,需要用戶指導。然而,在降維中啟用交互也是非常重要的。為了解決這些問題,我們将對比學習引入到高質量嵌入的降維中。然後重新定義損失函數對負對的梯度,增強嵌入結果的視覺聚類分離。基于對比學習方案,我們采用基于鍊接的交互來引導嵌入。之後,我們實現了一個原型可視化界面,該界面集成了所提出的算法和一組可視化。定量實驗表明,CDR在保持正确鄰域結構和改善視覺聚類分離方面優于現有技術。燒蝕實驗驗證了梯度重定義的有效性。通過用戶研究驗證,話單在集群識别任務上優于t-SNE和UMAP。我們還展示了兩個真實數據集上的用例,以展示基于鍊接的交互的有效性。
報告題目四:Optimization on multi-object tracking and segmentation in pigs' weight measurement
報告人:羅森
報告簡介:豬的體重與其健康狀況高度相關。目前,三維攝像機可以獲取空間信息,實現了非接觸式重量測量。将豬從背景中分離出來是第一步,在一個短視頻中跟蹤可以使重量比預測單個圖像上的重量更準确。随着在實例分割網絡中加入關聯嵌入分支,視頻中的多對象跟蹤與分割(MOTS)受到了越來越多的關注。盡管MOTS網絡很成功,但在實際應用中仍存在一個關鍵問題,即預測的掩模不能很好地适應目标。其原因是掩模分支中的特征映射的分辨率較低。因此,我們通過層疊反褶積層和無卷積層來改進掩模生成分支。實驗結果表明,兩個反褶積層與兩個無卷積層配合效果較好。在豬的體重測量中,該方法比原始網絡輸出更精确的掩模。
報告題目五:Federated Learning of Large Language Models with Parameter-Efficient Prompt Tuning and Adaptive Optimization
報告人:胡慧琳
報告簡介:聯邦學習(FL)是一種很有前途的範例,可以使用分散的數據進行協作模型訓練。然而,大型語言模型(LLM)的訓練過程通常會導緻重要參數的更新,這限制了FL技術在實際場景中處理LLM的适用性。及時調優可以顯著減少需要更新的參數數量,但它要麼會導緻性能下降,要麼會降低訓練效率。在FL中直接使用提示調優通常會增加不小的通信成本,并顯著降低性能。此外,分散的數據通常是非獨立和相同分布的(non-IID),這帶來了客戶端漂移問題,從而導緻性能不佳。本文提出了一種參數高效的自适應優化提示調諧方法,即FedPepTAO,以實現LLM的高效FL。首先,提出了一種有效的局部提示調優方法,以同時提高性能和效率。其次,提出了一種新的自适應優化方法來解決設備端和服務器端的客戶端漂移問題,以進一步提高性能。
場次七、
時間:2024年4月2日(星期二)15:00-17:00
地點:澳门太阳集团9728网站601教室
報告題目一:基于随機遊走的個性化癌症驅動編碼基因和非編碼基因識别方法
報告人:陳福浩
報告簡介:揭示癌症驅動基因在癌症研究中很重要,每位患者具有不同的基因組,他們的疾病可能由不同的驅動基因驅動。因此,人們正在開發新的方法來發現個體水平上的癌症驅動因素,但現有的個性化方法隻關注編碼驅動因素,而長非編碼(LncRNA)也被證明可以驅動癌症的進展。因此,需要在個體水平上發現編碼和LncRNA癌症驅動因素的新方法。我們開發了一種基于随機遊走的算法,在LncRNA和編碼基因的多重異質網絡上随機遊走,以預測個性化緻癌的LncRNA和編碼基因。經實驗,該方法識别出的編碼基因準确率較近年來的經典算法有所提高,識别出的LncRNA大部分已被文獻證明與癌症相關。
報告題目二:一種基于多組學數據對乳腺癌亞型進行分類的框架
報告人:曾平凡
報告簡介:乳腺癌亞型的精确分類對臨床診斷和治療至關重要,但早期症狀往往不明顯。利用高通量測序的多組學數據可以提高分類的準确性。然而,大多數研究主要關注單個組學數據與乳腺癌之間的關聯,而忽視了不同組學之間的相互作用。這可能無法全面了解乳腺癌的生物學過程。在此,我們提出了一個名為 DiffRS-net 的新框架在三個組學,即mRNA,miRNA,DNA甲基化組學中通過識别不同全局數據之間的關聯來對乳腺癌亞型進行分類。DiffRS-net 對每數據進行差異分析,以識别差異表達基因,并采用稀疏多視圖典型相關分析來檢測 DE-genes 之間的多向關聯。然後,利用這些具有高度相關性的 DE 基因來訓練注意力學習網絡,從而提高乳腺癌亞型的預測準确性。實驗結果表明,與現有方法相比,通過挖掘多組學數據之間的關聯,DiffRS-net 實現了更準确的乳腺癌亞型分類。
報告題目三:基于随機遊走的疾病模塊識别方法研究
報告人:宋俊琳
報告簡介:疾病模塊檢測試圖從分子相互作用網絡中提取構成候選疾病機制的子網絡。識别疾病模塊的傳統技術涉及高成本的臨床實驗和不可預測的分析時間消耗。基于随機遊走的方法是一種基于網絡的計算方法,它利用生物網絡進行分析,能夠有效捕捉疾病中分子之間的複雜相互作用,幫助識别人類互作用組中的疾病模塊。
場次八、
時間:2024年4月3日(星期三)9:00-12:00
地點:澳门太阳集团9728网站305教室
報告題目一:基于MOEA模型及離散小波軟阈值去噪的長期單變量風速預測研究
報告人:班桂花
報告簡介:準确的風速預測對于有效的風電并網和能源調度至關重要。最近的研究探索了将分解算法與預測模型相結合形成混合模型的方法,旨在提高風速預測的準确性。然而,這些傳統的分解技術在實際應用中往往會導緻較高的時間成本,因為在進入預測模型之前,需要将新的風速序列附加到曆史長序列中進行分解。為了克服這一難題,本研究引入并改進了 Autoformer 模型,首次将其應用于長期單變量風速預報。通過将分解技術作為預報模型的一個子模塊,Autoformer 不僅解決了傳統混合模型中的高時間成本問題,還保留了分解技術在時間序列處理中的優勢。此外,本文還将 Autoformer 的分解模塊替換為混合專家分解模塊(MOEDecomp),以更好地提取風速序列的複雜趨勢要素。結合自相關機制,對風速進行順序關注,以提取長序列中的時間相關性。此外,還利用小波軟阈值去噪算法(WSTD)對風速序列進行降噪處理。
報告題目二:基于整詞遮蔽和雙特征聯合提取的電力營銷領域命名實體識别
報告人:梁增福
報告簡介:随着電力體制的改革,電網企業已經完成了智能電網的初步構建,并且在這些年的智能電網信息化建設中積累了海量的非結構化業務數據,其中包含大量的電力營銷系統數據,面對如此龐大的營銷數據,如何對這些數據進行分類、關鍵詞定位、深層語義關系挖掘成為了自然語言處理和電力營銷領域的熱點研究方向。針對當前中文電力營銷領域命名實體任務中存在的實體特征利用率低、一詞多義和專業術語識别度不高等問題,提出了一種基于整詞遮蔽和雙特征聯合提取的中文電力營銷命名實體識别方法。首先,使用RoBERTa-wwm預訓練模型将電力文本數據進行詞向量化,然後将其輸入到構建的雙特征提取神經網絡(DFENN)中,以并行方式獲取文本局部特征和全局特征,并進行融合。RoBERTa-wwm層輸出用作輔助分類層,DFENN層輸出作為主分類層,通過注意力機制将兩個層的輸出動态加權融合得到新的特征,輸入到條件随機場(CRF)層中,得到最合理的标簽序列。訓練過程中使用焦點損失函數來緩解樣本分布不均勻的問題。實驗結果表明,該方法在構建的電力營銷領域命名實體識别數據集上取得了較好的效果。
報告題目三:基于RoBERTa-Attention-FL模型的電力調度領域命名實體識别
報告人:林德沼
報告簡介:随着智能電網系統的投入,在使用過程中記錄了海量的調度行為信息,這些信息以非結構化形式存儲,其中包含了豐富的調度行為知識。開展對中文電網調度領域非結構化數據的深度挖掘,對電網調度領域經驗知識進行建模,構建領域知識圖譜,已成為該領域亟待解決的問題。其中,命名實體識别(Named Entity Recognition,NER)是自然語言處理中的一項基礎任務,識别文本中具有特定意義或者指代性強的實體,包括人名、地名、專有名詞等,同時也是構建知識圖譜的關鍵技術,應用範圍廣泛。識别非結構化數據中的實體後,再對實體間的關系進行抽取,将實體通過關系進行連接,構建知識圖譜語義網絡。針對中文電力調度領域命名實體識别中實體嵌套的問題,提出一種RoBERTa-Attention-FL模型,該模型基于跨度表示的标注方式,可以對嵌套實體進行有效識别,抽取RoBERTa(A Robustly Optimized BERT Pretraining Approach)中間4-10層的輸出值,經過Transformer Encoder層,借助多頭自注意力機制抽取句法信息,将句法信息與RoBERTa最後一層輸出的深度語義信息做融合。在訓練過程中,采用了 Focal Loss (焦點損失函數)緩解樣本不平衡問題。
場次九、
時間:2024年4月3日(星期三)15:00-18:00
地點:澳门太阳集团9728网站305教室
報告題目一:基于門控融合單元的電力營銷數據實體關系抽取
報告人:梁增福
報告簡介:探索通用領域和電力營銷領域下的中文關系抽取方法。在電力營銷領域,知識圖譜推動着智能電網的發展,而有效的電力營銷關系抽取方法對實現智能電網至關重要。通過整合和利用大量的電力領域知識,可以實現智能化決策、優化運行和精細管理。針對當前電力營銷關系抽取存在的困難和挑戰,提出一種基于門控融合單元的電力營銷數據實體關系抽取方法。首先使用RoBERTa-wwm預訓練模型作為嵌入層,使用整詞遮蔽策略替代wordPeice遮蔽,預訓練模型通過預測被完整遮蔽的實體,學習獲得完整詞語級别的特征信息,使模型獲得更具表征中文的能力,并使用焦點損失函數緩解樣本分布不平衡問題;其次使用PCNN模型提取文本中的實體進行深層次的特征提取以及使用自注意力機制實現長距離特征提取,并使用門控單元實現對兩個特征進行融合;最後将所有的特征進行拼接輸入到Softmax進行關系分類。實驗結果表明,該方法在構建的電力營銷數據集上取得了較好的效果。
報告題目二:一種結合語義依存和詞性嵌入RoBERTa模型的電網調度領域關系抽取
報告人:林德沼
報告簡介:關系抽取任務從非結構化或半結構化數據中提取關系事實,以指示實體之間的交互和屬性。構建知識圖譜,通常需要對非結構化信息進行信息抽取,也就是實體關系抽取。在關系抽取中,對領域知識無法進行有效表征。電力系統中記錄的相關數據,因為其錯綜複雜的專業知識,如何針對專有領域進行關系進行有效識别是現階段需要解決的問題。針對電網調度領域實體關系抽取的問題,基于跨度表示的标注方式,将主體實體和客體實體作為一組訓練實例,加強兩個實體的聯系,RoBERTa預訓練模型的嵌入層本身包含字嵌入、位置嵌入和段落嵌入信息,再引入語義依存,對不同實體進行有效聯結,另加入詞性标注嵌入,使模型學習到更多的深度語義信息。得到嵌入層後,經過RoBERTa模型,對實體和關系進行多任務學習,使用參數硬共享機制融合多任務信息。最後經全連接層,得到預測的實體關系。該方法在自構建的電網調度領域數據集進行驗證,能夠顯著提高模型的表現。
報告題目三:基于明度與圖像分割的風電異常數據識别與清洗算法
報告人:班桂花
報告簡介:當前的研究将WPC數據異常分為三類,第Ⅰ類是負異常數據、第Ⅱ類是稀疏異常數據,第Ⅲ類是堆疊異常數據。針對WPC數據存在的異常情況識别與檢測準确率低,無法有效識别堆疊異常等問題,提出一種基于顔色空間轉換和圖像分割的方法,利用圖像處理的相關技術實現風電異常數據的有效識别和清洗。該方法首先基于常規的方法實現第一類異常數據的識别與清洗。其次,基于顔色透明度,考慮風速、風功率和頻率将去除第一類異常數據的WPC數據對應的二維散點圖表示成三維WPC圖像。随着頻率的提高,散點的透明度也相應加深,與之對應的便是HSV顔色空間的H數值增大。因此,将三維WPC圖像的RGB顔色空間轉換為HSV顔色空間,找到合适的透明度阈值便可識别出第Ⅱ類異常數據。 最後,将去除第Ⅰ、Ⅱ類異常數據的三維WPC圖像轉換成灰度圖,利用Canny邊緣檢測算法和數學形态學方法檢測第三類異常數據。