基于Hadoop視頻轉(zhuǎn)碼的任務(wù)調(diào)度算法研究
網(wǎng)絡(luò)視頻的快速發(fā)展,如何為移動(dòng)終端提供可靠的服務(wù)是目前互聯(lián)網(wǎng)視頻轉(zhuǎn)碼面臨的一項(xiàng)嚴(yán)峻挑戰(zhàn)。視頻數(shù)量的不斷增加,讓傳統(tǒng)的視頻轉(zhuǎn)碼技術(shù)的存儲能力以及處理能力都無法滿足人們的需求,因此,研究人員提出了一種Hadoop視頻轉(zhuǎn)碼系統(tǒng)以提高視頻轉(zhuǎn)碼的效率。現(xiàn)有的視頻轉(zhuǎn)碼系統(tǒng)存在的問題是沒有將機(jī)器處理轉(zhuǎn)碼任務(wù)量考慮其中,一種關(guān)于任務(wù)調(diào)度算法被人們提出,將輸入的視頻進(jìn)行分段處理,然后根據(jù)視頻的復(fù)雜程度進(jìn)行映射,減少轉(zhuǎn)碼的時(shí)間,提高轉(zhuǎn)碼的效率。
1 Hadoop
Hadoop是一個(gè)轉(zhuǎn)碼框架,用于處理海量的數(shù)據(jù),具有可用性、健壯性以及可擴(kuò)展性的特點(diǎn)。Hadoop平臺有兩部分組成,HDFS和MapReduce,共同組建成立Hadoop系統(tǒng)。MapReduce計(jì)算框架搭建在HDFS分布式文件系統(tǒng)之上,用戶只需要編寫map()函數(shù)與reduce函數(shù)即可完成分布式程度的設(shè)計(jì)。HDFS最基本的內(nèi)容就是數(shù)據(jù)塊,數(shù)據(jù)塊可以保存比大的文件、簡化存儲系統(tǒng)、便于數(shù)據(jù)復(fù)制等功能。Hadoop集群中的NameNode用來管理整個(gè)系統(tǒng),主要的職責(zé)就是對文件系統(tǒng)進(jìn)行管理。MapReduce采用M/S架構(gòu),當(dāng)工作人員在Hadoop中編寫了一個(gè)MapReduce程度后,通過Client將編號的程度發(fā)給JobTracker,編程人員用“作業(yè)”表示MapReduce,而每一個(gè)編寫好的“作業(yè)”會被分解成若干個(gè)“任務(wù)”,每一個(gè)“任務(wù)”只有獲取資源后才能夠執(zhí)行。
2 云轉(zhuǎn)碼
視頻通過Avidemux視頻編輯器進(jìn)行去雜質(zhì)處理,通過Map函數(shù)對ffmpeg進(jìn)行封裝,ffmpeg是一種不收費(fèi)的軟件,能夠?qū)σ曨l進(jìn)行轉(zhuǎn)碼處理。當(dāng)海量的視頻轉(zhuǎn)碼的任務(wù)都聚集在Hadoop集群中時(shí),系統(tǒng)需要對任務(wù)進(jìn)行分解,將一個(gè)個(gè)小任務(wù)分配到階段中,通過Hadoop的計(jì)算功能實(shí)現(xiàn)多視頻同時(shí)轉(zhuǎn)碼。系統(tǒng)對用戶的視頻要求進(jìn)行處理時(shí),步驟為:用戶先發(fā)出視頻請求,然后服務(wù)器根據(jù)用戶提供的設(shè)備參數(shù)向Streaming Server發(fā)出請求,隨后檢查與用戶請求相符合的數(shù)據(jù),如果符合,將視頻數(shù)據(jù)取出返回給用戶;如果不符合,需要向NameNode發(fā)出轉(zhuǎn)碼命令,隨后進(jìn)行分布式轉(zhuǎn)碼,完成后,將視頻文件返回,然后將視頻返回給用戶。
3 任務(wù)調(diào)度算法
3.1 建立問題模型
建立問題模型需要考慮如何將復(fù)雜的任務(wù)放在多個(gè)不同處理能力的節(jié)點(diǎn)中,在調(diào)度算法中,執(zhí)行效率最高的是,Min-min,與Max-Min相比,具有較好的負(fù)載能力。而Max-Min算法能夠?qū)⑺泄?jié)點(diǎn)的時(shí)間進(jìn)行平均,這樣能夠達(dá)到提高轉(zhuǎn)碼效率的目的。建立數(shù)學(xué)模型的方法為,比如有n段視頻,復(fù)雜程度不同,m個(gè)處理節(jié)點(diǎn),轉(zhuǎn)碼時(shí)間要與視頻復(fù)雜度與機(jī)器處理能力進(jìn)行對比,將視頻塊發(fā)到機(jī)器上的轉(zhuǎn)碼時(shí)間為:
當(dāng)視頻塊完成分配之后,機(jī)器會獲得視頻集合,完成時(shí)間為:
如果設(shè)A={a1,a2,...,an},R(i):J>A,則表示將所有的視頻塊都放在了機(jī)器中進(jìn)行處理,目的就是為了找到最佳的調(diào)度算法以完成處理時(shí)間。先找到能夠完成視頻塊處理最長的機(jī)器,然后將其最小化,這樣能夠提高整個(gè)轉(zhuǎn)碼的效率。如:
3.1.1 參數(shù)評估
3.1.1.1 節(jié)點(diǎn)轉(zhuǎn)碼
影響機(jī)器轉(zhuǎn)碼的原因很多,比如處理器性能不好、內(nèi)存不足或者網(wǎng)絡(luò)信號不好等,根據(jù)PageRank算法評估機(jī)器的轉(zhuǎn)碼,設(shè)定配置方式,不同的網(wǎng)絡(luò)情況需要有不同的配置方案,然后根據(jù)程序測試不同模塊的數(shù)據(jù),再進(jìn)行算法分析??梢詫⑵浞譃樗牟剑海?)運(yùn)行程序,生成數(shù)據(jù)矩陣,測試輸出值;(2)對原始數(shù)據(jù)進(jìn)行分析,將其看成列向量,每一列表示輸出數(shù)據(jù)的序列;(3)計(jì)算矩陣A,A=correlation(d1,d2,),d1=1,2,3,4,d2=1,2,3,...,7;(4)使用PageRank計(jì)算出得分,得分最高的一項(xiàng)表示該項(xiàng)的變化特征最多,得分最低的一項(xiàng)表示具有與其他測試項(xiàng)不同的特征。根據(jù)參考機(jī)器計(jì)算出其他機(jī)器的轉(zhuǎn)碼能力。
3.1.1.1.1 Min-MM算法
Min-MM算法是將背包問題與Max-Min算法進(jìn)行結(jié)合,將平均轉(zhuǎn)碼的時(shí)間作為轉(zhuǎn)碼時(shí)間的節(jié)點(diǎn),然后計(jì)算每一臺機(jī)器接收信息的復(fù)雜程度,根據(jù)復(fù)雜程度將視頻塊分布到各個(gè)機(jī)器中進(jìn)行轉(zhuǎn)碼處理。首先要先設(shè)定轉(zhuǎn)碼的時(shí)間,視頻塊集合為:
機(jī)器的處理能力為:在理想的狀態(tài)下,需要將視頻塊分配到不同的機(jī)器中,得到的平均轉(zhuǎn)碼時(shí)間為:
faveragesum(c)/sum(p)
機(jī)器在faverage時(shí)間內(nèi)要完成視頻復(fù)雜度,公式為:
Vj=pj×faverage
3.1.1.1.2 虛擬背包
將n個(gè)視頻塊根據(jù)不同的復(fù)雜度進(jìn)行排序,按照降序的方式從高到低進(jìn)行排列,在m臺機(jī)器上,根據(jù)機(jī)器的處理能力也進(jìn)行排序,從強(qiáng)到弱進(jìn)行排列。處理能力較強(qiáng)的機(jī)器掌握主動(dòng)權(quán),能夠選擇要處理的視頻塊,如果計(jì)算的值;如果機(jī)器停止選擇;否則繼續(xù)。其中,vj*表示已經(jīng)復(fù)雜程度。當(dāng)機(jī)器選擇完視頻塊之后,會殘留一些剩余的視頻塊,此時(shí)會出現(xiàn)一種情況,有些機(jī)器選擇的視頻復(fù)雜程度沒有達(dá)到要求,所以在視頻塊的分配流程中會出現(xiàn)空白,這種情況需要采用Max-Min算法將殘留的視頻塊進(jìn)行發(fā)送。
4 實(shí)驗(yàn)分析
在Hadoop集群中建立多臺服務(wù)器,服務(wù)器的型號也不同,將其中一臺服務(wù)器作為NameNode,安裝Avidemux,剩余機(jī)器為DateNodes,安裝ffmpeg。使用云轉(zhuǎn)碼系統(tǒng)驗(yàn)證視頻的格式,使用Min-MM算法進(jìn)行對比。視頻格式有mp4、mkv以及ts等,記錄測試的時(shí)間;改變視頻的大小,視頻內(nèi)存有5G、8G、16G。如果Hadoop集群中有多個(gè)節(jié)點(diǎn),需要使用Min-MM算法進(jìn)行轉(zhuǎn)碼時(shí)間前后的對比。
分析實(shí)驗(yàn)環(huán)境,Hadoop轉(zhuǎn)碼系統(tǒng)支持多種格式的互相轉(zhuǎn)換,其中mp4格式轉(zhuǎn)碼時(shí)間較長,ts轉(zhuǎn)碼時(shí)間較短; 當(dāng)使用Min-MM算法之后,轉(zhuǎn)碼的時(shí)間明顯加快,如圖1所示。
圖1:使用Min-MM前后的轉(zhuǎn)碼對比
5 結(jié)語
Hadoop視頻轉(zhuǎn)碼框架用于處理大量的視頻信息效果良好,在此基礎(chǔ)上增加任務(wù)調(diào)度算法Min-MM,使處理的時(shí)間更快,能夠在兼容多種格式的同時(shí)依然能夠達(dá)到較快的轉(zhuǎn)碼速度。通過Hadoop平臺和任務(wù)調(diào)度算法的結(jié)合,大大提高了轉(zhuǎn)碼效率,提升了轉(zhuǎn)碼系統(tǒng)的性能。
本文來源:《企業(yè)科技與發(fā)展》:http://m.00559.cn/w/qk/21223.html
欄目分類
- VR在交互設(shè)計(jì)中的應(yīng)用
- 人工智能技術(shù)在計(jì)算機(jī)網(wǎng)絡(luò)中的應(yīng)用策略研究
- PLC技術(shù)在機(jī)械電氣控制裝置中的應(yīng)用
- 深層復(fù)雜斷塊氣藏精細(xì)挖潛技術(shù)研究
- 大數(shù)據(jù)時(shí)代下的軟件測試技術(shù)研究
- 計(jì)算機(jī)工程的安全隱患與維護(hù)對策探究
- 數(shù)控機(jī)床主傳動(dòng)系統(tǒng)的設(shè)計(jì)與應(yīng)用
- 導(dǎo)軌磨床立磨頭數(shù)控自動(dòng)旋轉(zhuǎn)機(jī)構(gòu)的設(shè)計(jì)與開發(fā)
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級黨報(bào)?是否有什么說據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?