2023年澳门太阳集团9728网站
信息技術研究生論壇(二十五)
場次一、
時間:2023年12月20日(星期三)9:00-12:00
地點:澳门太阳集团9728网站408教室
報告題目一:An Investigation of Segment Anything Model (SAM) on Uterus Segmentation
報告人:張珊
報告簡介:Highly development of language-image models makes prompt driven accurate segmentation become possible. Segment Anything Model (SAM) has recently made a breakthrough in zero-shot image segmentation, using an unprecedentedly large dataset to train a segmentation model with strong adaptability. In this report, we investigate the capability of SAM for MRI medical images in uterus Segmentation.
報告題目二:超聲波手勢識别和邊緣計算
報告人:李名冉
報告簡介:人與人之間的交流是以多模态系統為基礎的,它不僅包括語言交流,還包括面部和身體的表達,以強化語言内容的意義。 人機交互 (HSI) 趨勢正在發展,導緻對模仿這種自然交流的新興技術的研究,最大限度地減少對觸摸屏、按鈕或滑塊等界面的使用。 衆所周知的虛拟個人助理,如 Alexa 或 Siri,分别由 Amazon 和 Apple 開發,允許僅使用語音命令與系統進行通信。 還有幾個系統将手勢控制引入系統,即 SoundWave 、AudioGest、Dolphin 或 UltraGesture。 它們都使用低頻超聲信号來識别 5 到 12 個手勢,這些手勢大多基于多普勒頻移效應(運動引起的頻率變化),同時在 PC 或智能手機上運行識别算法。這項工作的目的是證明開發一個系統的可能性,該系統能夠僅基于超聲波信号檢測手勢并在邊緣設備中執行信号處理,而無需使用 PC 或雲環境。
報告題目三:深度神經網絡模型壓縮研究
報告人:劉榮啟
報告簡介:深度神經網絡模型通常具有大量的參數,這導緻模型在存儲時需要占用大量的空間,并且在計算過程中需要大量的内存。這種情況使得深度神經網絡模型難以應用于各種嵌入式設備。為了解決這個問題,需要在不影響模型性能的前提下,有效地減小網絡模型的參數量和計算量。我們将分析和探讨這些技術的優缺點,并提出結合使用的策略,以便在實際應用中取得最佳效果。通過這些方法,我們可以使深度神經網絡模型在嵌入式設備上發揮更大的作用,并滿足實際應用的需求。
報告題目四:基于transformer的壯語語音翻譯
報告人:黃敏
報告簡介:廣西地處西部少數民族地區,不少壯族貧困人口分布在偏遠山區地帶,交通交流極不順暢。本系統針對壯族曆來沒有自己的民族文字現狀,研究如何使用現代技術手段将壯語的語音直接轉換成漢語文字形式。由于未有壯語語音數據庫公開發表,故通過處理廣西衛視壯語新聞欄目視頻獲取壯語語音數據。之後在 Conformer 模型的基礎上,向 Encoder 層引入下采樣,借鑒了Temporal U-Net結構,進行結構上的優化。新加入下采樣層的網絡架構在保持高效的訓練和解碼時間的同時,保持相似的識别性能。在 Aishell-1數據集上驗證模型,在犧牲少量計算資源下,模型獲得了較好的精度。
報告題目五:基于Transformer的快速魯棒性點雲配準研究
報告人:申少飛
報告簡介:Transformer是2017年提出的一種深度學習模型架構,于自然語言處理任務,如機器翻譯。它是一種基于注意力機制的模型,與傳統的循環神經網絡(RNN)和長短時記憶網絡(LSTM)等架構有所不同。将Transformer作為基礎模型進行點雲配準,研究了為點雲配準提取準确對應關系的問題。最近的無關鍵點方法繞過了在低重疊場景中很難檢測的可重複關鍵點,在配準方面顯示出巨大的潛力。他們在下采樣的超點上尋找對應關系,然後将其傳播到密集點。超級點根據其相鄰面片是否重疊進行匹配。這種稀疏和松散的匹配需要捕獲點雲幾何結構的上下文特征。使用幾何變換器來學習幾何特征以實現魯棒的超點匹配。它對成對距離和三元組角度進行編碼,使其在低重疊情況下具有魯棒性,并且對剛性變換具有不變性。簡單的設計獲得了令人驚訝的高匹配精度,使得在對齊變換的估計中不需要RANSAC,從而導緻100倍的加速。
報告題目六:解碼器輸入增強的非自回歸神經機器翻譯算法的研究
報告人:李鋒
報告簡介:借鑒疊代提純式非自回歸機器翻譯模型的多解碼器思想,但是不使用多個解碼器,而是采用多編碼器結構,并且不進行多次疊代,而是一次輸出全部結果。采用多編碼器能盡可能地加強模型對于輸入信息的表征,使編碼器的嵌入攜帶更多的語義信息和句法信息。在本文中,将采用雙編碼器,第一個編碼器對源端語言進行嵌入,同時外部句法分析工具對句子的句法結構進行解析,二者輸出的結果将作為第二個編碼器的輸入,在第二個編碼器中進行整合嵌入,第二個編碼器的輸出将作為解碼器的最終輸入。
報告題目七:基于Conformer的高效自動語音識别算法研究
報告人:範澤平
報告簡介:Conformer作為自回歸模型,在推理過程中是按照順序進行推理的,即預測當前字符或字母時,需要預測其之前的标簽,當預測語音過長時,必然會占用更多的計算資源。有關研究人員提出下采樣來減少計算資源的占用,并增加解碼速度,然而采用下采樣和速度的加快會帶來識别精度的損失。針對Conformer在語音識别任務推理階段中的問題,對模型的結構進行研究和改進,在速度和準确率之間進行權衡,使得模型在解碼時速度提升的情況下保證一定的識别準确度。
報告題目八:基于機器學習的矢狀骨面型分類模型研究
報告人:梁柏晖
報告簡介:錯合畸形準确的診斷具有重要的臨床意義。作為診斷過程的基礎部分,矢狀骨面型分類是正畸醫生預估颌骨生長發育方向、考量正畸診斷及制定治療計劃的重要因素。目前基于神經網絡的矢狀骨面型診斷模型還沒有專門應用于兒童錯合畸形患者,然而兒童患者正處在生長發育的快速期,因而骨型變異較快,診斷難度高,且相鄰樣本間存在無法避免的标簽混淆問題。針對上述問題,提出了一種基于标簽分布學習的方法,将混淆樣本的獨熱編碼标簽改為軟标簽,在多個CNN模型上進行了實驗,結果表明所提方法具有較高的準确率和魯棒性。
場次二、
時間:2023年12月20日(星期三)15:00-18:00
地點:澳门太阳集团9728网站408教室
報告題目一:基于多參數MRI放射組學模型的開發和驗證
報告人:張珊
報告簡介:在醫學領域,通過對高風險組織病理特征的分層,醫生可以将患者分為不同的風險層次,例如低風險、中風險和高風險。這種分層有助于确定患者的疾病嚴重程度和預後,并制定相應的治療方案。術前磁共振成像(MRI)具有識别高風險表型的潛力。在MRI上進行腫瘤分割後提取三維放射組學特征。在訓練集中選擇預測特征,對每個端點使用随機森林(RF)模型,并将訓練好的RF模型應用于外部測試集。本報告介紹了此類基于多參數MRI放射組學模型的開發和驗證。
報告題目二:大規模卷積神經網絡的雙層并行訓練體系
報告人:李名冉
報告簡介:卷積神經網絡(Convolutional Neural Networks, CNN)得益于大規模的訓練數據集和複雜的訓練網絡,以其較高的準确率被廣泛應用于各個領域。然而,CNN的訓練過程非常耗時,需要大量的訓練樣本和疊代運算才能獲得高質量的權重參數。針對大規模CNN訓練耗時的問題,介紹一種分布式計算環境下的雙層并行訓練(BPT-CNN)架構。BPT-CNN在外層并行性中解決了分布式和并行計算的關鍵問題,包括數據通信、同步和工作負載平衡。在内層并行化方面,加快了每台計算機上每個CNN子網絡的訓練過程,其中卷積層的計算步驟和局部權值訓練的計算步驟基于任務并行化進行并行化。在保持準确率的前提下,可以有效地提高了CNN的訓練性能。
報告題目三:邊緣設備上的聲學網絡綜合解決方案
報告人:劉榮啟
報告簡介:人們正在投入大量精力,為資源極其有限(内存、速度和缺乏GPU支持)的邊緣設備帶來最先進的分類和識别模型。在這裡,我們展示了第一個用于聲學識别的深度網絡,該網絡體積小、靈活且易于壓縮,達到了原始音頻分類的最先進的性能。我們提出了一個通用的綜合解決方案,可以自動轉換大型深度卷積網絡,通過壓縮和量化得到可以在資源匮乏的邊緣設備上運行的網絡,并且可以将模型實際部署運行。
報告題目四:機器同聲傳譯算法研究
報告人:黃敏
報告簡介:自然語言處理的任務是實現人機通信,其中機器翻譯為自然語言處理的一個重要研究方向。機器翻譯研究在非人工幹預下,将源語言轉換為與之同義的目标語言。神經機器翻譯( neural machine translation,NMT)是機器翻譯中的一種全新模型,利用神經網絡實現源語言到目标語言的轉換,它在近幾年取得了豐富的研究成果,在許多翻譯指标上超過了傳統的機器翻譯模型。機器同聲傳譯是神經機器翻譯的研究方向之一。在機器同聲傳譯中,一般有兩個要求,分别是譯文質量和時延,但譯文質量和延遲一般是互斥的。在翻譯前等待的時間越長,得到的源端信息越完整,翻譯質量通常就越高,但延遲也就越高。因此,模型需要在翻譯質量和時間延遲上進行權衡,找出質量和延遲之間的平衡點。
報告題目五:探索Co-DETR模型在醫學圖像檢測中的應用價值
報告人:段太森
報告簡介:Co-DETR模型作為一種基于Transformer的目标檢測模型,其在處理醫學圖像時表現出了獨特的優勢。該模型通過引入多輔助頭機制,能夠有效提取醫學圖像中的微小病變,比傳統的目标檢測算法更加精确。研究集中于評估Co-DETR模型在不同類型的醫學圖像,例如X光、CT和MRI中的表現,并與現有的模型進行比較。研究顯示,Co-DETR在檢測細小腫瘤、微血管異常等方面具有更高的敏感性和特異性。本研究的目标是将Co-DETR模型的檢測能力推向極緻,并探究其在臨床應用中的潛力。首先,在公開的醫學圖像數據集上訓練Co-DETR模型,以學習不同病變的特征表示。然後,構建了一個包含多種病理情況的驗證集,來評估模型的實際應用效果。通過與醫生的診斷結果相比較,評估模型的準确性和可靠性。同時,還研究了模型對于不同大小病變的敏感性,以及它在高噪音背景下的表現。Co-DETR模型在大多數情況下均優于傳統的目标檢測模型。尤其在小病變的檢測上,Co-DETR模型減少了漏檢的情況,并能夠在複雜的背景中準确區分病變和正常組織。研究還發現,Co-DETR模型對于邊緣不清的病變具有較好的辨識能力,這對于早期診斷某些類型的癌症尤為重要。Co-DETR模型的引入,為醫學圖像的目标檢測領域帶來了新的視角和方法。未來的工作将集中在優化模型結構,提高其在多模态醫學圖像處理中的泛化能力。
報告題目六:基于HyperMorph的圖像配準的平攤超參數學習研究
報告人:申少飛
報告簡介:近年來,圖像配準任務在醫療方面的需求日益增大,VoxelMorph模型漸漸地不能滿足日常需求,故在此基礎上對HyperMorph進行研究,這是一種基于學習的可變形圖像配準策略,它消除了在訓練期間調整重要配準超參數的需要。經典的配準方法解決了一個優化問題,即找到兩幅圖像之間的一組空間對應關系,而基于學習的方法利用訓練數據集來學習生成這些對應關系的函數。這兩種技術的結果質量在很大程度上取決于超參數的選擇。不幸的是,超參數調優非常耗時,并且通常涉及使用各種超參數值訓練許多獨立的模型,這可能導緻次優結果。為了解決這種低效率問題,我們引入了用于圖像配準的平攤超參數學習,這是一種學習超參數對變形場影響的新策略。該框架學習一個超網絡,該超網絡接受一個輸入超參數,并調制一個配準網絡以産生該超參數值的最優變形場。
報告題目七:壯語語音文字化及壯漢翻譯系統的研究
報告人:李鋒
報告簡介:和其它民族一樣,壯族自古有自己的語言,主要流通于廣西的壯族聚居地區。壯語與泰語、貴州的布依語較相似,屬于壯侗語族。國際上将其視為一個獨立語系,但在中國被視為「漢藏語系」的一部分。廣西各地的語言有自己的特點,主要分為南北兩大方言,而南北方言在語音上有較大的不同,較難用壯語 相互 溝通。但是,各地壯語在語法上是一緻的。壯族
本沒有自己通用的民族文字。壯族人曾經依據漢字的結構和語音來創造本民族的文字 但是由于各地語音的不同方塊壯字并沒有普及。新中國成立後,曾創建拉丁拼音壯文。但是,習慣了使用方塊漢字的絕大多數壯族人民不适應這種形式的壯文,因而并沒有得到推廣。目前這種壯字一般用于民族語音語言研究和民族文學記錄,使用中還是以漢字為主。早期的壯語記音漢字是方塊壯字的前身,始于漢代。但方塊壯字以漢字的讀音去記錄壯語詞的讀音,有失準确性因為漢語語音和壯語語音是兩個不同的系統,兩者有很大的差别,所以用前者去記錄後者,必然有誤差,而這種誤 差則使文字失掉科學性。由于方塊壯字上述的缺點,使它隻在民間小範圍地流行,未成為壯族通用的文字。如何使用現代的科學技術手段将壯語的語音轉換成為大家比較熟知的普通話漢字形式顯得尤為重要。
報告題目八:深度學習算法構建在線壯語語音識别翻譯雲平台
報告人:範澤平
報告簡介:由于壯族完全依賴口頭交流,文化交流和傳播遇到了障礙。需要一個在線雲平台來加強語言交流。通過采集标準壯族語音,建立了一個壯族标注語料庫,其次,采用額外的下采樣模塊實現了SAformerNet識别網絡,這是一個更高效的基于transformer的自動語音識别網絡。然後,通過微調BART模型和語料庫過濾策略,構建了神經機器翻譯模型。最後,為了提高網絡對現實需求的響應能力,采用邊緣計算技術緩解網絡帶寬壓力,提出一種基于FPGA加速的邊緣計算私有雲系統。
報告題目九:基于影像組學的口腔颌面部骨組織病變影像學智能診斷模型研究
報告人:梁柏晖
報告簡介:口腔颌面部疾病已經成為繼心血管疾病,糖尿病等全身疾病之後威脅人類健康的重大非傳染性疾病之一,如何解決颌骨組織病變早期診斷是目前臨床待解決的難點。本研究首先根據納入标準,建立口腔颌面部骨組織CBCT圖像數據集,數據集的标注由兩位具有10年臨床工作經驗的口腔科醫師進行。其次,使用預訓練的YOLOV8模型對ROI進行裁剪,然後根據提取得到病竈區域的影像組學特征,然後進行特征選擇,選取有主要代表性的影像組學特征作為圖卷積神經網絡(GCN)的輸入,輸出分類診斷的結果。
報告題目十:基于 Swin-Transformer 的頸動脈超聲圖像斑塊分割
報告人:徐峥嵘
報告簡介:評估頸動脈超聲圖像斑塊需要大量且經驗豐富的臨床醫生,并且超聲圖像具有邊界模糊、噪聲幹擾強等特 性,使得評估斑塊耗時費力。因此,需要一種全自動的頸動脈斑塊分割方法來解決人力稀缺的問題。文中提出了 一種基于 Swin-Transformer(Shifted-Windows Transformer)模塊的深度神經網絡模型用于自動分割頸動脈斑塊。在 U-Net 架構的基礎上,編碼部分使用3個用于圖像下采樣的卷積塊以獲得不同分辨率大小的特征圖像,再添加6對兩兩連續的 Swin-Transformer 模塊用于更細化的特征提取。解碼部分将 Swin-Transformer 模塊輸出的細化特征 逐級上采樣,分别與編碼部分各級分辨率的特征圖進行跳躍連接。文中基于同仁醫院數據集進行對比實驗,結果 顯示文中所提深度神經網絡模型 Dice 指标達到 0.8142,高于其他的對比網絡,證明了文中提出的模型可以有效 地提取頸動脈超聲圖像斑塊的特征,實現自動化、高精度的斑塊分割。