ffmpeg Documentation


Table of Contents


1 概要

一般的な構文は次のとおりです:

ffmpeg [[infile options][‘-iinfile]]... {[outfile options] outfile}...

2 説明

ffmpeg はとても高速なビデオ およびオーディオコンバーターです。 またライブのオーディオ/ビデオのソースを捕捉(grab)することもできます。 また任意のサンプルレートから他の任意のサンプルレートへ変換することができ、 そして高品質のポリフェーズフィルターで動的に映像をリサイズすることができます。

コマンドラインインターフェースは直観的になるよう設計されており、 というのも ffmpeg は自動的に導くことのできるすべてのパラメーターを理解します。 たいていの場合あなたが望む目標ビットレートを指定するだけで済みます。

一般的な規則として、オプションは次に並ぶ指定されたファイルに 適用されます。したがって、順序は重要であり、コマンドラインに 複数回同じオプションを与えることができます。それぞれ出てくる ごとに次にくる入力または出力ファイルに適用されます。

未加工の入力ファイルにはフォーマットオプションが必要になってくるでしょう。

デフォルトとしては、ffmpeg はできる限りロスレスに変換しようと試みます: 入力に指定されたものと同じ音声および映像のパラメーターを出力に使います。

3 オプション

数値のオプションは全て(そうではないと明記していない限り) 1つの数を表す入力文字列を受け取ります。それには国際単位系の接頭辞 (例えば ’K’、’M’、’G’)を1つ含めてもかまいません。 この接頭辞の直後に ’i’ を付け加えると、10の累乗の代わりに2の累乗 が使われます。 ’B’ という接尾辞は値を8倍し、また他の接尾辞に付け加えても単独でも どちらでも使えます。これによって例えば ’KB’、’MiB’、’G’ や ’B’ が接尾辞として許されます。

引数をとらないオプションはブール値のオプションであり、対応する値を true にします。オプション名の前に "no" をつけることで false に できます。例えば、コマンドラインで "-nofoo" とすることで "foo" という 名前のブール値のオプションが false になります。

3.1 ストリーム指定子

オプションには、例えばビットレートやコーデックのように、ストリームごとに適用されるものがあります。 ストリーム指定子は与えられたオプションがどのストリームに属するかを正確に指定するために使われます。

ストリーム指定子は文字列で、コロンによって区切られた省略可能なオプションの名前を追加されます。 例えば -codec:a:1 ac3 というオプションは a:1 というストリーム指定子を含み、 これは2番目の音声ストリームに対応します。したがってこのオプションは2番目の音声ストリームの ac3 コーデックを選択します。

ストリーム指定子はいくつかのストリームにマッチし、その場合それら全てにそのオプションは 適用されます。例えば -b:a 128k でのストリーム指定子は全ての音声ストリームに マッチします。

空のストリーム指定子は全てのストリームにマッチし、例えば -codec copy あるいは -codec: copy は再エンコーディングすることなしに全てのストリームをコピーします。

可能なストリーム指定子の形は以下のとおりです:

stream_index

このインデックスを持つストリームにマッチします。例えば -threads:1 4 は 2番目のストリームのスレッドカウントを4に設定します。

stream_type[:stream_index]

stream_type は次のいずれかです: 映像のための ’v’、音声のための ’a’、 字幕のための ’s’、データのための ’d’、アタッチメントのための’t’。 stream_index が与えられていれば、その種類のストリーム番号 stream_index のものにマッチします。 さもなくばその種類の全てのストリームにマッチします。

p:program_id[:stream_index]

stream_index が与えられていれば、id program_id を持つプログラムの ストリーム番号 stream_index のものにマッチします。さもなくば そのプログラムの全てのストリームにマッチします。

3.2 一般的なオプション

これらのオプションは av* ツールの間で共有されます。

-L

ライセンスを表示します。

-h, -?, -help, --help [arg]

ヘルプを表示します。省略可能なパラメーターで特定の項目についての ヘルプを表示するように指定できます。

arg に可能な値は:

decoder=decoder_name

decoder_name という名前のデコーダーについての詳細な情報を表示します。 全てのデコーダーの一覧を取得するには ‘-decoders’ オプションを使ってください。

encoder=encoder_name

encoder_name という名前のエンコーダーについての詳細な情報を表示します。 全てのエンコーダーの一覧を取得するには ‘-encoders’ オプションを使ってください。

demuxer=demuxer_name

demuxer_name という名前のデミュクサーについての詳細な情報を表示します。 全てのミュクサーおよびデミュクサーの一覧を取得するには ‘-formats’ オプションを使ってください。

muxer=muxer_name

muxer_name という名前のミュクサーについての詳細な情報を表示します。 全てのミュクサーおよびデミュクサーの一覧を取得するには ‘-formats’ オプションを使ってください。

-version

バージョンを表示します。

-formats

利用可能なフォーマットを表示します。

フォーマット名の前にあるフィールドは次のような意味があります:

D

デコーディングが利用できる

E

エンコーディングが利用できる

-codecs

libavcodec に認識される全てのコーデックを表示します。

この文書では’コーデック’という用語はより正確にはメディアビットストリーム形式 とよぶべきものの短縮名であることに注意してください。

-decoders

利用可能なデコーダーを表示します。

-encoders

利用可能なエンコーダーを表示します。

-bsfs

利用可能な bitstream フィルターを表示します。

-protocols

利用可能なプロトコルを表示します。

-filters

利用可能な libavfilter フィルターを表示します。

-pix_fmts

利用可能な pixel フォーマットを表示します。

-sample_fmts

利用可能なサンプルフォーマットを表示します。

-loglevel loglevel | -v loglevel

そのライブラリで使用されるログの冗長さを設定します。 loglevel は以下の値の1つを含んだ数値または文字列:

quiet
panic
fatal
error
warning
info
verbose
debug

既定ではプログラムは標準エラー出力にログを出力し、端末が色付けに 対応していれば、エラーと警告に印をつけるように色が使われます。 ログの色付けは環境変数 AV_LOG_FORCE_NOCOLOR または NO_COLOR をセットすることで無効にでき、 また環境変数 AV_LOG_FORCE_COLOR をセットすることで強制できます。 環境変数 NO_COLOR の利用は非推奨で、今後の Libav のバージョンでは なくなる予定です。

3.3 AVOptions

これらのオプションは libavformat、libavdevice および libavcodec によって 直接提供されています。利用できる AVOptions の一覧を見るには、‘-help’ オプションを使ってください。これらは2つのカテゴリーに分けられます:

generic

これらのオプションはどのコンテナ、コーデック、またはデバイスでも設定できます。 Generic オプションはコンテナ/デバイスについては AVFormatContext オプションの 下に、コーデックについては AVCodecContext オプションの下にあります。

private

これらのオプションは特定のコンテナ、デバイス、またはコーデック専用のものです。 Private オプションは対応するコンテナ/デバイス/コーデックの下にあります。

例えば既定の ID3v2.4 の代わりに ID3v2.3 ヘッダを MP3 ファイルに書き込むには、 MP3 ミュクサーの ‘id3v2_version’ という private オプションを使って ください:

avconv -i input.flac -id3v2_version 3 out.mp3

全てのコーデックの AVOptions は明らかにストリームごとなので、ここには ストリーム指定子のチャプターの説明が適用されます。

注意として、‘-nooption’ 構文はブール値の AVOptions では使えないので、 ‘-option 0’/‘-option 1’ を使ってください。

注意2として、v/a/s をオプション名の前に付けてストリームごとの AVOption を 指定するという、従来の文書化されていない方法は、現在非推奨で近いうちに削除されます。

3.4 主なオプション

-f fmt

フォーマットを強制します。

-i filename

入力のファイル名

-y

出力ファイルを上書きします。

-t duration

コード変換/キャプチャーされるビデオシーケンスを 秒単位で指定された持続時間に制限します。 hh:mm:ss[.xxx] という構文もサポートされています。

-fs limit_size

ファイルサイズの上限を設定します。

-ss position

秒単位で与えられた時刻の位置を探します。 hh:mm:ss[.xxx] という構文もサポートされています。

-itsoffset offset

秒単位で入力時間のオフセットを設定します。 [-]hh:mm:ss[.xxx] という構文もサポートされています。 このオプションはそれに続く全ての入力ファイルに影響します。 オフセットは入力ファイルのタイムスタンプに加えられます。 正のオフセットを指定するということは ’offset’ 秒だけ 対応するストリームが遅延させられることを意味します。

-timestamp time

コンテナに記録するタイムスタンプを設定します。 time の構文は:

now|([(YYYY-MM-DD|YYYYMMDD)[T|t| ]]((HH[:MM[:SS[.m...]]])|(HH[MM[SS[.m...]]]))[Z|z])

その値が "now" なら、現在の時刻をとります。 ’Z’ または ’z’ がついていなければ時刻はローカルタイムで、ついていれば UTC と解釈されます。 year-month-day 部分が指定されていなければ、現在の year-month-day をとります。

-metadata key=value

メタデータ key/value の組を設定します。

例えば、出力ファイルにタイトルを設定するには:

ffmpeg -i in.avi -metadata title="my title" out.flv
-v number

ログの冗長さの水準を設定します。

-target type

目標のファイルの型("vcd"、"svcd"、"dvd"、"dv"、"dv50"、"pal-vcd"、 "ntsc-svcd"、等)を指定します。そのとき全てのフォーマットのオプション (ビットレート、コーデック、バッファサイズ)は自動的に設定されます。 単に次のようにタイプできます:

ffmpeg -i myfile.avi -target vcd /tmp/vcd.mpg

ですが、標準のものと衝突しない限り追加のオプションを指定すること ができ、次のようになります:

ffmpeg -i myfile.avi -target vcd -bf 2 /tmp/vcd.mpg
-dframes number

録画録音されるデータフレームの数を設定します。

-scodec codec

サブタイトルのコーデックを強制します(’copy’ ならストリームをコピーします)。

-newsubtitle

現在の出力ストリームに新しいサブタイトルストリームを追加します。

-slang code

現在のサブタイトルストリームに(3文字の)ISO 639 言語コードを設定します。

3.5 ビデオのオプション

-vframes number

録画するビデオフレームの数を設定します。

-r fps

フレームレート(Hz での値、分数または省略形)を設定します(既定値は25)。

-s size

フレームサイズを設定します。 書式は‘wxh’(avserver の既定値は160x128、ffmpeg の既定値は元と同じ)です。 次の省略形も認識できます:

sqcif

128x96

qcif

176x144

cif

352x288

4cif

704x576

16cif

1408x1152

qqvga

160x120

qvga

320x240

vga

640x480

svga

800x600

xga

1024x768

uxga

1600x1200

qxga

2048x1536

sxga

1280x1024

qsxga

2560x2048

hsxga

5120x4096

wvga

852x480

wxga

1366x768

wsxga

1600x1024

wuxga

1920x1200

woxga

2560x1600

wqsxga

3200x2048

wquxga

3840x2400

whsxga

6400x4096

whuxga

7680x4800

cga

320x200

ega

640x350

hd480

852x480

hd720

1280x720

hd1080

1920x1080

-aspect aspect

aspect によって映像画面アスペクト比を設定します。

aspect は浮動小数点数の文字列、または num:den の形の 文字列、ただし num および den はアスペクト比の分子および 分母です。例えば、"4:3"、"16:9"、"1.3333"、および "1.7777" は適正な引数の 値です。

-croptop size
-cropbottom size
-cropleft size
-cropright size

これらの切り取りオプションは全て削除されました。代わりに -vf crop=width:height:x:y を使ってください。

-padtop size
-padbottom size
-padleft size
-padright size
-padcolor hex color

pad オプションは全て削除されました。代わりに -vf pad=width:height:x:y:color を使ってください。

-vn

映像の録画を無効にします。

-bt tolerance

ビデオのビットレート誤差許容量(bit/sで、既定値は4000k)を設定します。 最小値として (target_bitrate/target_framerate) を持ちます。 1-パスモードでは、ビットレート誤差許容量はどのくらい目標平均ビットレート値から 外れることを許すかということを指定します。 これは最小/最大ビットレートには関係しません。 過度に許容量を下げることは品質の点で不利な影響を及ぼします。

-maxrate bitrate

ビデオの最大ビットレートを(bit/sで)設定します。 -bufxize が設定されいてる必要があります。

-minrate bitrate

ビデオの最小ビットレートを(bit/sで)設定します。 CBR エンコードを設定する場合に最も有用です:

ffmpeg -i myfile.avi -b 4000k -minrate 4000k -maxrate 4000k -bufsize 1835k out.m2v

それ以外ではあまり使途がありません。

-bufsize size

video buffer verifier バッファサイズを(bitsで)設定します。

-vcodec codec

ビデオのコーデックを codec に強制します。未加工のコーデックデータ をありのままコピーするには copy という特別な値を使ってください。 値を使ってください。

-sameq

ソースと同じ量子化器を使います(暗に VBR になります)。

-pass n

パス数(1または2)を選択します。2パスビデオエンコーディングをするのに 使われます。映像の統計情報が最初のパスでログファイル(オプション -passlogfile も参照してください)に記録されます。そして2番目のパスでこのログファイルを使って 正確に要求されたビットレートに映像が生成されます。 パス1では、ちょうど音声を無効にし出力を null にすることもできます。 Windows や Unix での例:

ffmpeg -i foo.mov -vcodec libxvid -pass 1 -an -f rawvideo -y NUL
ffmpeg -i foo.mov -vcodec libxvid -pass 1 -an -f rawvideo -y /dev/null
-passlogfile prefix

2パスのログファイル名の接頭辞を prefix に設定します。既定の名前の 接頭辞は “ffmpeg2pass” です。完全なファイル名は ‘PREFIX-N.log’ で、 ただし N は出力ストリーム別の番号です。

-newvideo

現在の出力ストリームに新しいビデオストリームを追加します。

-vlang code

現在の映像ストリームの ISO 639 言語コード(3文字)を設定します。

-vf filter_graph

filter_graph は入力映像に適用されるフィルターグラフの 説明です。 (ソースとシンクを含んだ)利用可能な全てのフィルターを表示するには "-filters" オプションを使ってください。

3.6 高度なビデオのオプション

-pix_fmt format

ピクセルフォーマットを設定します。全てのサポートされているピクセルフォーマットを表示する ためには、パラメーターとして ’list’ を使ってください。

-sws_flags flags

SwScaler フラグを設定します。

-g gop_size

gop(the group of pictures) の大きさを設定します。

-intra

イントラフレームのみを用います。

-vdt n

出発点を破棄します。

-qscale q

固定されたビデオ量子化スケールを使います(VBR)。

-qmin q

最小のビデオ量子化スケール(VBR)

-qmax q

最大のビデオ量子化スケール(VBR)

-qdiff q

ビデオ量子化スケール間の最大の差分(VBR)

-qblur blur

ビデオ量子化スケールブラー(VBR) (範囲 0.0 - 1.0)

-qcomp compression

ビデオ量子化スケール圧縮(VBR) (既定値 0.5)。 レートコントロール方程式の定数。既定の rc_eq について推奨される範囲: 0.0-1.0

-lmin lambda

最小のビデオラグランジュ因子(VBR)

-lmax lambda

最大のビデオラグランジュ因子(VBR)

-mblmin lambda

最小のマクロブロック量子化スケール(VBR)

-mblmax lambda

最大ののマクロブロック量子化スケール(VBR)

これらの4つのオプション(lmin、lmax、mblmin、mblmax)は ’lambda’ 単位を使いますが、 ’q’ 単位から簡単に変換するには QP2LAMBDA 定数を使えます:

ffmpeg -i src.ext -lmax 21*QP2LAMBDA dst.ext
-rc_init_cplx complexity

単一パスエンコーディングのための初期複雑度

-b_qfactor factor

P- および B-フレーム間の qp 因子

-i_qfactor factor

P- および I-フレーム間の qp 因子

-b_qoffset offset

P- および B-フレーム間の qp オフセット

-i_qoffset offset

P- および I-フレーム間の qp オフセット

-rc_eq equation

レート制御方程式を設定する(セクション "式の評価" を見てください) (既定値は tex^qComp)。

レート制御方程式の式を計算する際、セクション "式の評価" で定義 されている標準的な関数とともに、以下の関数が利用できます:

bits2qp(bits)
qp2bits(qp)

かつ以下の定数が利用できます:

iTex
pTex
tex
mv
fCode
iCount
mcVar
var
isI
isP
isB
avgQP
qComp
avgIITex
avgPITex
avgPPTex
avgBPTex
avgTex
-rc_override override

特定のインターバルに対するレート制御の変更

-me_method method

モーション推定手法を method に設定する。 利用できる手法は次のとおり(順に最低から最高品質へ):

zero

単に(0, 0)ベクトルを試す。

phods
log
x1
hex
umh
epzs

(既定の手法)

full

網羅的な探索(遅く、わずかに epzs より良い)

-dct_algo algo

DCT アルゴリズムを algo に設定する。利用可能な値は次のとおり:

0

FF_DCT_AUTO (既定値)

1

FF_DCT_FASTINT

2

FF_DCT_INT

3

FF_DCT_MMX

4

FF_DCT_MLIB

5

FF_DCT_ALTIVEC

-idct_algo algo

IDCT アルゴリズムを algo に設定する。利用可能な値は次のとおり:

0

FF_IDCT_AUTO (既定値)

1

FF_IDCT_INT

2

FF_IDCT_SIMPLE

3

FF_IDCT_SIMPLEMMX

4

FF_IDCT_LIBMPEG2MMX

5

FF_IDCT_PS2

6

FF_IDCT_MLIB

7

FF_IDCT_ARM

8

FF_IDCT_ALTIVEC

9

FF_IDCT_SH4

10

FF_IDCT_SIMPLEARM

-er n

エラー回復を n に設定する。

1

FF_ER_CAREFUL (既定値)

2

FF_ER_COMPLIANT

3

FF_ER_AGGRESSIVE

4

FF_ER_EXPLODE

-ec bit_mask

エラー補正を bit_mask に設定する。 bit_mask は次の値のビットマスクです:

1

FF_EC_GUESS_MVS (既定値では有効)

2

FF_EC_DEBLOCK (既定値では有効)

-bf frames

’frames’ の B-フレームを使います(MPEG-1、MPEG-2、および MPEG-4 でサポート)。

-mbd mode

マクロブロック判定

0

FF_MB_DECISION_SIMPLE: mb_cmp を使います(ffmpeg ではまだ変更できません)。

1

FF_MB_DECISION_BITS: 最小のビットが必要になるものを選びます。

2

FF_MB_DECISION_RD: レート歪曲。

-4mv

マクロブロックによって4つのモーションベクトルを使います(MPEG-4 のみ)。

-part

データパーティションを使います(MPEG-4 only)。

-bug param

自動検出されないエンコーダーのバグへの対処。

-strict strictness

どのくらい厳密に標準に従っているか。

-aic

高度なイントラコーディングを有効にします(h263+)。

-umv

非限定モーションベクトルを有効にします(h263+)。

-deinterlace

画像のインターレースを外します。

-ilme

エンコーダーのインターレースサポートを強制します(MPEG-2 と MPEG-4 のみ)。 入力ファイルがインターレースされており、かつ最小のロスでインターレース されたフォーマットを維持したい時に、このオプションを使ってください。 代替案として入力ストリームのインターレースを ‘-deinterlace’ で外す ことがありますが、インターレースを外すとロスが生まれます。

-psnr

圧縮されたフレームの PSNR を計算します。

-vstats

映像のコーディング統計情報を ‘vstats_HHMMSS.log’ にダンプします。

-vstats_file file

映像のコーディング統計情報を file にダンプします。

-top n

top=1/bottom=0/auto=-1 領域を最初に

-dc precision

イントラ DC 精度。 pp

-vtag fourcc/tag

ビデオタグ/fourcc を強制します。

-qphist

QP 棒グラフを見せます。

-vbsf bitstream filter

ビットストリームフィルター。"dump_extra"、"remove_extra"、"noise"、"h264_mp4toannexb"、"imxdump"、"mjpegadump"、"mjpeg2jpeg" が利用できます。

ffmpeg -i h264.mp4 -vcodec copy -vbsf h264_mp4toannexb -an out.h264
-force_key_frames time[,time...]

キーフレームを指定されたタイムスタンプに強制します、より正確には その最初のフレームを指定された各タイムスタンプの後に強制します。 このオプションはチャプターマークやその他の出力ファイルの中で 指示された場所にシークポイントが示されることを保証するために便利 となります。このタイムスタンプは昇順に指定される必要があります。

3.7 オーディオのオプション

-aframes number

録音するオーディオフレームの数を設定します。

-ar freq

オーディオサンプリング頻度を設定します。出力ストリームに対しては 既定では入力ストリームの頻度が設定されます。入力ストリームに対しては このオプションは音声グラブデバイスおよび生のデミュクサーに対してのみ 意味があり、対応するデミュクサーオプションにマップされます。

-aq q

オーディオ品質を設定します(コーデック別、VBR)。

-ac channels

オーディオチャンネルの数を設定します。出力ストリームについては、 既定では入力にあるオーディオチャンネルと同じ数に設定されます。 入力ストリームについては、このオプションは音声グラブデバイスおよび 生のデミュクサーに対してのみ意味があり、対応するデミュクサーに マップされます。

-an

音声の録音を無効にします。

-acodec codec

オーディオのコーデックを codec に強制します。未加工のコーデックデータ をありのままコピーするには copy という特別な値を使ってください。 値を使ってください。

-newaudio

出力ファイルに新しいオーディオトラックを追加氏増す。パラメーターを指定したい場合には、 -newaudio の前にそうしてください(-acodec-ab、など)。

出力ストリームの数が入力ストリームの数と等しい場合には、対応づけは自動的にされます。 そうでない場合には、マッチする最初のものが選ばれます。 いつものように対応づけは -map を使って変更できます。

例:

ffmpeg -i file.mpg -vcodec copy -acodec ac3 -ab 384k test.mpg -acodec mp2 -ab 192k -newaudio
-alang code

現在の音声ストリームの ISO 639 言語コード(3文字)を設定します。

-sn

サブタイトルの記録を無効にします。

-sbsf bitstream_filter

ビットストリームフィルター。"mov2textsub"、"text2movsub" が利用できます。

ffmpeg -i file.mov -an -vn -sbsf mov2textsub -scodec copy -f rawvideo sub.txt

3.8 高度なオーディオのオプション:

-atag fourcc/tag

オーディオのタグ/fourcc を強制します。

-audio_service_type type

音声ストリームが含むサービスのタイプを設定します。

ma

メインの音声サービス(既定値)

ef

エフェクト

vi

視覚障害者向け

hi

聴覚障害者向け

di

ダイアログ

co

コメンタリー

em

緊急放送

vo

ボイスオーバー

ka

カラオケ

-absf bitstream_filter

ビットストリームフィルター。"dump_extra"、"remove_extra"、"noise"、"mp3comp"、"mp3decomp" が利用できます。

3.9 サブタイトルのオプション:

-scodec codec

サブタイトルのコーデックを強制します(’copy’ ならストリームをコピーします)。

-newsubtitle

現在の出力ストリームに新しいサブタイトルストリームを追加します。

-slang code

現在のサブタイトルストリームの ISO 639 言語コード(3文字)を設定します。

3.10 オーディオ/ビデオのグラブのオプション

-vc channel

ビデオのグラブチャンネルを設定します(DV1394 のみ)。

-tvstd standard

テレビ放送方式を設定します(NTSC、PAL (SECAM))。

-isync

入力を同期読み込みします。

3.11 高度なオプション

-map input_file_id.input_stream_id[:sync_file_id.sync_stream_id]

出力ファイルのソースとして1つの入力ストリームを指定します。各入力ストリームは 入力ファイルインデックス input_file_id と、その入力ファイル内の入力 ストリームインデックス input_stream_id によって識別されます。 それぞれのインデックスは0から始まります。指定されていれば、 sync_file_id.sync_stream_id はプレゼンテーションシンク参照として どの入力ストリームが使われるかを設定します。

-map オプションは出力ファイルの直後に指定されなければなりません。 どの -map オプションが使われる場合でも、コマンドライン上の -map オプションの個数は出力ファイルのストリームの個数と一致していなければなりません。 コマンドライン上の最初の -map オプションは出力ストリーム0のソースを 指定し、その次の -map オプションは出力ストリーム1のソースを指定する、 というようになります。

例えば、最初の出力ファイル内に2つの音声ストリームがある場合、これらの ストリームは "0.0" および "0.1" として識別されます。-map を使って どのストリームが出力ファイルに配置されるか選びます。 例えば:

ffmpeg -i INPUT out.wav -map 0.1

は ‘INPUT’ 内の "0.1" で識別される入力ストリームを ‘out.wav’ 内の(単一の)出力ストリームにマップします。

例えば、入力ファイル ‘a.mov’ から(識別子 "0.2" を指定することによって) インデックス2のストリームを選択し、かつ(識別子 "1.6" を指定することによって) 入力 ‘b.mov’ のインデックス6のストリームを選択して、それらを 出力ファイル ‘out.mov’ にコピーするには:

ffmpeg -i a.mov -i b.mov -vcodec copy -acodec copy out.mov -map 0.2 -map 1.6

出力ファイルにさらにストリームを追加するには、-newaudio-newvideo-newsubtitle オプションが使えます。

-map_meta_data outfile[,metadata]:infile[,metadata]

非推奨です。代わりに -map_metadata を使ってください。

-map_metadata outfile[,metadata]:infile[,metadata]

infile から outfile のメタデータ情報を設定します。これらは (0から始まる)ファイルのインデックスであり、ファイル名ではないことに注意してください。 省略可能な metadata パラメータはどのメタデータをコピーするか - (g)lobal (つまり、ファイル全体に適用されるメタデータ)、per-(s)tream、per-(c)hapter または per-(p)rogram です。global 以外の全てのメタデータ指定子では stream/chapter/program 番号が続かなければなりません。メタデータ指定子が省略された場合、既定の global に なります。

既定では、global メタデータは最初の入力ファイルから全ての出力ファイルにコピーされ、 per-stream および per-chapter メタデータは stream/chapter に合わせてコピーされます。 これらの既定のマッピングは関連する種類のマッピングを作成することで無効になります。 自動的なコピーを無効にするだけのダミーのマッピングを作成するために、負のファイルインデックスが利用できます。

例えばメタデータを入力ファイルの最初のストリームから出力ファイルの global メタデータ にコピーするには:

ffmpeg -i in.ogg -map_metadata 0:0,s0 out.mp3
-map_chapters outfile:infile

infile から outfile へチャプターをコピーします。チャプターマッピングが指定されていなければ、 少なくとも1つチャプターがある最初の入力ファイルから全ての出力ファイルへコピーされます。チャプターのコピーを 一切無効にするには負のファイルインデックスを使ってください。

-debug

特定のデバグ情報を印字します。

-benchmark

エンコードの終了時にベンチマーク情報を表示します。 CPU 時間と最大メモリ消費を表示します。 最大メモリ消費は全てのシステムでサポートされているわけではなく、 サポートされていない場合にはたいてい 0 として表示します。

-dump

各入力パケットをダンプします。

-hex

パケットをダンプする際に、ペイロードもダンプします。

-bitexact

(コーデックのテストのために)bit exact アルゴリズムのみを使います。

-ps size

バイト単位で RTP ペイロードサイズを設定します。

-re

ネイティブのフレームレートで入力を読み込みます。主にグラブデバイスをシミュレートするために使います。

-loop_input

入力ストリームをループします。現時点では画像ストリームに対してのみ 動作します。このオプションは自動的な AVserver テストに使われます。 このオプションは非推奨です、代わりに -loop を使ってください。

-loop_output number_of_times

アニメーション GIF のようなループをサポートしているフォーマット向けに 繰り返しループして出力します(0 で無限にループ出力します)。 このオプションは非推奨です、代わりに -loop を使ってください。

-threads count

スレッド数。

-vsync parameter

ビデオ同期方式。

0

demuxer から muxer へタイムスタンプとともに各フレームを渡します。

1

要求された定数フレームレートを実現するためにフレームを重複させたり 抜かしたりします。

2

フレームはタイムスタンプとともに渡されますが、同じタイムスタンプの2つの フレームがあれば抜かします。

-1

muxer の能力に応じて 1 か 2 を選択する。 これが既定の方法です。

-map を併用することでどのストリームからタイムスタンプを取得するべきか選択できます。 ビデオまたはオーディオを変更せずにおいておくことができ、その変更しないものに対し 残りのストリームを同期することができます。

-async samples_per_second

オーディオ同期方式。タイムスタンプに合わせて音声ストリームを“伸長/圧縮”し、 パラメーターは音声を変更するときに用いられる秒間最大サンプル数です。 -async 1 は音声ストリームの開始のみを補正し以後補正しないという特殊な場合です。

-copyts

入力から出力へタイムスタンプをコピーします。

-copytb

ストリームをコピーする際入力ストリームのタイムベースを入力から出力へコピーします。

-shortest

最も短い入力ストリームが終わり次第エンコーディングを終えます。

-dts_delta_threshold

タイムスタンプを不連続差分閾値にする。

-muxdelay seconds

demux-デコード遅延の最大値を設定する。

-muxpreload seconds

初期 demux-デコード遅延を設定する。

-streamid output-stream-index:new-value

出力ストリームに新しい stream-id の値を割り当てます。このオプションは これが適用される出力ファイル名より先に指定されるべきです。 複数の出力ファイルがある場合、stream-id は異なる値に再割り当てされる ことがあります。

例えば、ある出力 mpegts ファイルに対して stream 0 PID に33を、そして stream 1 PID に36を設定するためには:

ffmpeg -i infile -streamid 0:33 -streamid 1:36 out.ts

3.12 プリセットファイル

プリセットファイルには option=value の組の列が含まれています。 それぞれの組は行ごとになっており、コマンドラインで指定するには扱いにくい オプションの列を指定します。ハッシュ(’#’)で始まる行は無視され、コメントを 与えるために使われます。例としては Libav のソースツリーにある ‘presets’ ディレクトリを確認してください。

プリセットファイルは vpreaprespre、および fpre オプションとともに指定されます。 fpre オプションは入力として プリセット名の代わりにプリセットのファイル名をとり、どんな種類のコーデックでも 利用できます。vpreapre、および spre オプションでは、 プリセットファイルの中で指定されるこれらのオプションはプリセットオプションと 同じ種類の現時点で選択しているコーデックに対して適用されます。

vpreapre、および spre プリセットオプションに渡される 引数は、次の規則に従って利用するプリセットファイルを定めます:

まず ffmpeg は arg.ffpreset という名前のファイルをディレクトリ ‘$AVCONV_DATADIR’ (設定されていれば)、‘$HOME/.avconv’、 および configuration 時に定義された datadir(大抵の場合 ‘PREFIX/share/avconv’)の中からこの順序で探します。 例えば、引数が libx264-max なら、‘libx264-max.ffpreset’ というファイルを探します。

そういったファイルが見つからなければ、ffmpeg は codec_name-arg.ffpreset という名前のファイルを先ほど述べたディレクトリの中から探します。 ここで codec_name はプリセットファイルオプションが適用されるであろう コーデックの名前です。たとえば、ビデオコーデックを -vcodec libx264 で 選択し、-vpre max を使っていた場合、‘libx264-max.ffpreset’ というファイルを探します。

4 ヒント

5 例

5.1 ビデオおよびオーディオを捕捉する

入力フォーマットおよびデバイスを指定すると ffmpeg は ビデオおよびオーディオを直接捕捉することができます。

ffmpeg -f oss -i /dev/dsp -f video4linux2 -i /dev/video0 /tmp/out.mpg

Gerd Knorr による xawtv のようなテレビビューアと ともに ffmpeg を動作させる前に、正しい映像のソースとチャンネルを有効にしなければ ならないことに注意してください。 また標準的なミキサーを用いて正確に音声録音水準を設定しなければなりません。

5.2 X11 を捕捉する

ffmpeg は X11 ディスプレイを捕捉することができます。

ffmpeg -f x11grab -s cif -r 25 -i :0.0 /tmp/out.mpg

0.0はあなたの X11 サーバのディスプレイ.スクリーン番号であり、DISPLAY 環境変数と 同じものです。

ffmpeg -f x11grab -s cif -r 25 -i :0.0+10,20 /tmp/out.mpg

10は捕捉のための x-オフセット、20は y-オフセットです。

ffmpeg -f x11grab -follow_mouse centered -s cif -r 25 -i :0.0 /tmp/out.mpg

捕捉領域はマウスポインターに追随し、ポインターがその領域の中央になるように します。

ffmpeg -f x11grab -follow_mouse 100 -s cif -r 25 -i :0.0 /tmp/out.mpg

領域の端に対して100ピクセル以内に近付いたときだけマウスポインターに追随 します。

ffmpeg -f x11grab -show_region 1 -s cif -r 25 -i :0.0+10,20 /tmp/out.mpg

捕捉領域はスクリーンで指示されます。

ffmpeg -f x11grab -follow_mouse centered -show_region 1 -s cif -r 25 -i :0.0 /tmp/out.mpg

捕捉領域の指示はマウスポインターに従います。

5.3 ビデオおよびオーディオのファイルフォーマット変換

任意のサポートしているファイルフォーマットおよびプロトコルを ffmpeg への入力に使うことができます:

例:

6 式の評価

算術的な式を評価する際に、Libav は内部の数式評価器を使います。 これは ‘libavutil/eval.h’ インターフェイスを通じて実装されて います。

式は1引数および2引数演算子、定数および関数を含みます。

2つの式 expr1expr2 を結合して別の式 "expr1;expr2" を構成することができます。 expr1expr2 が順に評価され、この新しい式は expr2 の値を自身の値とします。

次の2引数演算子が利用できます: +-*/^

次の1引数演算子が利用できます: +-

次の関数が利用できます:

sinh(x)
cosh(x)
tanh(x)
sin(x)
cos(x)
tan(x)
atan(x)
asin(x)
acos(x)
exp(x)
log(x)
abs(x)
squish(x)
gauss(x)
isinf(x)

x が +/-INFINITY なら1.0、さもなくば0.0。

isnan(x)

x が NAN なら1.0、さもなくば0.0。

mod(x, y)
max(x, y)
min(x, y)
eq(x, y)
gte(x, y)
gt(x, y)
lte(x, y)
lt(x, y)
st(var, expr)

expr の値を内部の変数に格納できます。 var は値を格納する変数を示す番号で、 0から9までの範囲の値です。 この関数は内部の変数に格納される値を返します。

ld(var)

番号 var を持つ内部の変数の値をロードできます。 これは以前に st(var, expr) で格納されたものです。 この関数はロードされた値を返します。

while(cond, expr)

cond が0でない間、式 expr を評価します。 そして最後の expr の評価の値を返します。 cond がいつも false なら NAN を返します。

ceil(expr)

expr の値を大きくなる方向に最も近い整数に丸めます。 例えば、"ceil(1.5)" は "2.0" です。

floor(expr)

expr の値を小さくなる方向に最も近い整数に丸めます。 例えば、"floor(-1.5)"はs "-2.0 です。

trunc(expr)

expr の値を0の方向に最も近い整数に丸めます。 例えば、"trunc(-1.5)" は "-1.0" です。

sqrt(expr)

expr の平方根を計算します。これは "(expr)^.5" と 同じです。

not(expr)

expr が0なら1.0、さもなくば0.0を返します。

以下の点に注意してください:

* は AND のように動作します

+ は OR のように動作します

したがって

A ならば B、さもなくば C

は次と同値です:

A*B + not(A)*C

C のコードでは、1引数および2引数関数の一覧を広げることができ、 解読される定数を定義することができるので、それらを式で利用することが できます。

評価器はまた International System number postfix を解読します。 ’i’ が postfix の直後に追加されると、10の累乗の代わりに2の累乗が 用いられます。’B’ postfix によって8倍になり、他の postfix の直後 または単独で利用できます。これによって例えば ’KB’、’MiB’、’G’ および ’B’ が postfix として許されます。

以下は利用できる International System postfix の一覧で、 10の累乗および2の累乗に対応する表示をともないます。

y

-24 / -80

z

-21 / -70

a

-18 / -60

f

-15 / -50

p

-12 / -40

n

-9 / -30

u

-6 / -20

m

-3 / -10

c

-2

d

-1

h

2

k

3 / 10

K

3 / 10

M

6 / 20

G

9 / 30

T

12 / 40

P

15 / 40

E

18 / 50

Z

21 / 60

Y

24 / 70

7 エンコーダー

エンコーダーは、 Libav 上でマルチメディアストリームをエンコードするための 構成された要素です。

Libav のビルドを構成(configure)する際は、既定ではサポートされている全ての ネイティブのエンコーダーが有効になっています。外部のライブラリを要するエンコーダー は対応する --enable-lib オプションによって手動で有効にしなければなりません。 configure オプション --list-encoders を使うと、全ての利用可能なエンコーダーが リストアップされます。

configure オプション --disable-encoders を使えば全てのエンコーダーを 無効にすることができ、--enable-encoder=ENCODER / --disable-encoder=ENCODER で特定のエンコーダーを選択して有効/ 無効にできます。

ff* ツールのオプション -codecs は有効になっているエンコーダー のリストを表示します。

8 音声エンコーダー

以下は現在利用可能なエンコーダーのうちのいくつかの説明です。

8.1 ac3 および ac3_fixed

AC-3 音声エンコーダー。

これらエンコーダーは ATSC A/52:2010 および ETSI TS 102 366 の一部と、 (dnet として知られている)文書化されていない RealAudio 3 を実装しています。

ac3 エンコーダーは浮動小数点数の演算を用いており、ac3_fixed エンコーダーは固定長整数演算のみを用いています。これはどちらかがいつも 速いという意味ではなく、単に特定のシステムにはどちらかがより適しているかも しれないという意味があります。浮動小数点数エンコーダーは一般には、 与えられたビットレートに対してより品質の良い音声を生成します。ac3_fixed エンコーダーはどの出力フォーマットについても既定のコーデックではなく、 そのため使うにはオプション -acodec ac3_fixed を明示的に使って 指定されなければなりません。

8.1.1 AC-3 メタデータ

AC-3 メタデータオプションは音声を表現するパラメータを設定するために 用いられ、ほとんどの場合音声エンコーディングそのものには影響を与えません。 いくつかのオプションが結果として出てくるビットストリームのデコーディング および再生に影響を与える一方、その他は単に通知目的のものです。少数の オプションは出力ストリームにビットを加え、それらは場合によっては 音声データとして用いられます。このため出力の品質に影響します。これらは 以下のオプションリストで注記によって示されています。

これらのパラメータはいろいろな公開されて利用可能な文書で詳細に記述されて います。

8.1.1.1 メタデータ制御オプション

-per_frame_metadata boolean

フレームごとのメタデータを許可します。各フレームについてメタデータが 変わったかどうか確認するべきかどうかを指定します。

0

初期化時に設定されたメタデータの値がストリーム内の全てのフレームに対して 用いられます(既定値)

1

各フレームをエンコーディングする前にメタデータの値が変わります。

8.1.1.2 Downmix Level

-center_mixlev level

Center Mix Level. The amount of gain the decoder should apply to the center channel when downmixing to stereo. This field will only be written to the bitstream if a center channel is present. The value is specified as a scale factor. There are 3 valid values:

0.707

Apply -3dB gain

0.595

Apply -4.5dB gain (default)

0.500

Apply -6dB gain

-surround_mixlev level

Surround Mix Level. The amount of gain the decoder should apply to the surround channel(s) when downmixing to stereo. This field will only be written to the bitstream if one or more surround channels are present. The value is specified as a scale factor. There are 3 valid values:

0.707

Apply -3dB gain

0.500

Apply -6dB gain (default)

0.000

Silence Surround Channel(s)

8.1.1.3 Audio Production Information

Audio Production Information is optional information describing the mixing environment. Either none or both of the fields are written to the bitstream.

-mixing_level number

Mixing Level. Specifies peak sound pressure level (SPL) in the production environment when the mix was mastered. Valid values are 80 to 111, or -1 for unknown or not indicated. The default value is -1, but that value cannot be used if the Audio Production Information is written to the bitstream. Therefore, if the room_type option is not the default value, the mixing_level option must not be -1.

-room_type type

Room Type. Describes the equalization used during the final mixing session at the studio or on the dubbing stage. A large room is a dubbing stage with the industry standard X-curve equalization; a small room has flat equalization. This field will not be written to the bitstream if both the mixing_level option and the room_type option have the default values.

0
notindicated

Not Indicated (default)

1
large

Large Room

2
small

Small Room

8.1.1.4 Other Metadata Options

-copyright boolean

Copyright Indicator. Specifies whether a copyright exists for this audio.

0
off

No Copyright Exists (default)

1
on

Copyright Exists

-dialnorm value

Dialogue Normalization. Indicates how far the average dialogue level of the program is below digital 100% full scale (0 dBFS). This parameter determines a level shift during audio reproduction that sets the average volume of the dialogue to a preset level. The goal is to match volume level between program sources. A value of -31dB will result in no volume level change, relative to the source volume, during audio reproduction. Valid values are whole numbers in the range -31 to -1, with -31 being the default.

-dsur_mode mode

Dolby Surround Mode. Specifies whether the stereo signal uses Dolby Surround (Pro Logic). This field will only be written to the bitstream if the audio stream is stereo. Using this option does NOT mean the encoder will actually apply Dolby Surround processing.

0
notindicated

Not Indicated (default)

1
off

Not Dolby Surround Encoded

2
on

Dolby Surround Encoded

-original boolean

Original Bit Stream Indicator. Specifies whether this audio is from the original source and not a copy.

0
off

Not Original Source

1
on

Original Source (default)

8.1.1.5 Extended Bitstream Information

The extended bitstream options are part of the Alternate Bit Stream Syntax as specified in Annex D of the A/52:2010 standard. It is grouped into 2 parts. If any one parameter in a group is specified, all values in that group will be written to the bitstream. Default values are used for those that are written but have not been specified. If the mixing levels are written, the decoder will use these values instead of the ones specified in the center_mixlev and surround_mixlev options if it supports the Alternate Bit Stream Syntax.

8.1.1.6 Extended Bitstream Information - Part 1

-dmix_mode mode

Preferred Stereo Downmix Mode. Allows the user to select either Lt/Rt (Dolby Surround) or Lo/Ro (normal stereo) as the preferred stereo downmix mode.

0
notindicated

Not Indicated (default)

1
ltrt

Lt/Rt Downmix Preferred

2
loro

Lo/Ro Downmix Preferred

-ltrt_cmixlev level

Lt/Rt Center Mix Level. The amount of gain the decoder should apply to the center channel when downmixing to stereo in Lt/Rt mode.

1.414

Apply +3dB gain

1.189

Apply +1.5dB gain

1.000

Apply 0dB gain

0.841

Apply -1.5dB gain

0.707

Apply -3.0dB gain

0.595

Apply -4.5dB gain (default)

0.500

Apply -6.0dB gain

0.000

Silence Center Channel

-ltrt_surmixlev level

Lt/Rt Surround Mix Level. The amount of gain the decoder should apply to the surround channel(s) when downmixing to stereo in Lt/Rt mode.

0.841

Apply -1.5dB gain

0.707

Apply -3.0dB gain

0.595

Apply -4.5dB gain

0.500

Apply -6.0dB gain (default)

0.000

Silence Surround Channel(s)

-loro_cmixlev level

Lo/Ro Center Mix Level. The amount of gain the decoder should apply to the center channel when downmixing to stereo in Lo/Ro mode.

1.414

Apply +3dB gain

1.189

Apply +1.5dB gain

1.000

Apply 0dB gain

0.841

Apply -1.5dB gain

0.707

Apply -3.0dB gain

0.595

Apply -4.5dB gain (default)

0.500

Apply -6.0dB gain

0.000

Silence Center Channel

-loro_surmixlev level

Lo/Ro Surround Mix Level. The amount of gain the decoder should apply to the surround channel(s) when downmixing to stereo in Lo/Ro mode.

0.841

Apply -1.5dB gain

0.707

Apply -3.0dB gain

0.595

Apply -4.5dB gain

0.500

Apply -6.0dB gain (default)

0.000

Silence Surround Channel(s)

8.1.1.7 Extended Bitstream Information - Part 2

-dsurex_mode mode

Dolby Surround EX Mode. Indicates whether the stream uses Dolby Surround EX (7.1 matrixed to 5.1). Using this option does NOT mean the encoder will actually apply Dolby Surround EX processing.

0
notindicated

Not Indicated (default)

1
on

Dolby Surround EX Off

2
off

Dolby Surround EX On

-dheadphone_mode mode

Dolby Headphone Mode. Indicates whether the stream uses Dolby Headphone encoding (multi-channel matrixed to 2.0 for use with headphones). Using this option does NOT mean the encoder will actually apply Dolby Headphone processing.

0
notindicated

Not Indicated (default)

1
on

Dolby Headphone Off

2
off

Dolby Headphone On

-ad_conv_type type

A/D Converter Type. Indicates whether the audio has passed through HDCD A/D conversion.

0
standard

Standard A/D Converter (default)

1
hdcd

HDCD A/D Converter

8.1.2 Other AC-3 Encoding Options

-stereo_rematrixing boolean

ステレオ再行列化。ステレオ入力のための再行列化を有効/無効にします。 これは、mid/side として左/右チャンネルを選択的にエンコードする ことによって品質を高めるという省略可能な AC-3 の機能です。 既定ではこのオプションは有効になっており、テスト目的のためを除いて 有効のままにしておくことを強く奨めます。

8.1.3 浮動小数点限定 AC-3 エンコーディングオプション

These options are only valid for the floating-point encoder and do not exist for the fixed-point encoder due to the corresponding features not being implemented in fixed-point.

-channel_coupling boolean

Enables/Disables use of channel coupling, which is an optional AC-3 feature that increases quality by combining high frequency information from multiple channels into a single channel. The per-channel high frequency information is sent with less accuracy in both the frequency and time domains. This allows more bits to be used for lower frequencies while preserving enough information to reconstruct the high frequencies. This option is enabled by default for the floating-point encoder and should generally be left as enabled except for testing purposes or to increase encoding speed.

-1
auto

Selected by Encoder (default)

0
off

Disable Channel Coupling

1
on

Enable Channel Coupling

-cpl_start_band number

Coupling Start Band. Sets the channel coupling start band, from 1 to 15. If a value higher than the bandwidth is used, it will be reduced to 1 less than the coupling end band. If auto is used, the start band will be determined by the encoder based on the bit rate, sample rate, and channel layout. This option has no effect if channel coupling is disabled.

-1
auto

Selected by Encoder (default)

9 デミュクサー

デミュクサーは特定の種類のファイルからマルチメディアストリームを 読むことを可能にする Libav での構成される要素です。

Libav のビルドを構成する際、既定では全ての対応されるデミュクサーが 有効になります。全ての利用可能なデミュクサーを configure オプション "–list-demuxers" を使って一覧できます。

configure オプション "–disable-demuxers" を使って全てのデミュクサーを 無効にできます。そしてオプション "–enable-demuxer=DEMUXER" で 1つのデミュクサーを選択的に有効にでき、オプション "–disable-demuxer=DEMUXER" で1つのデミュクサーを選択的に無効にできます。

ff* ツールの "-formats" オプションは有効になっているデミュクサーの 一覧を表示します。

現在利用可能なデミュクサーのいくつかの説明は以下の通りです。

9.1 image2

画像ファイルデミュクサー。

このデミュクサーはパターンで指定された画像ファイルのリストを読みます。

パターンは文字列 "%d" または "%0Nd" を含めることができ、 これがこのパターンにマッチする各ファイル名の連番を表す文字の位置を 指定します。"%d0Nd" という形が使われた場合、各ファイル名の 番号を表す文字列は0で埋められており、N は番号を表す0で埋められた 桁の総数です。リテラル文字 ’%’ は文字列 "%%" を含むパターンで指定 されます。

このパターンが "%d" または "%0Nd" を含む場合、このパターンによって 指定されたファイル列の最初のファイル名は0から4までの間の番号を含まなければ ならず、後に続く全ての番号は連番でなければなりません。 この制限は取り払われる見込みです。

このパターンにはファイルに含まれる画像の形式によって自動的に決まる 接尾辞を含んでもよいです。

例えばパターン "img-%03d.bmp" は ‘img-001.bmp’, ‘img-002.bmp’, ..., ‘img-010.bmp’, などの形をしたファイル名の列にマッチします; パターン "i%%m%%g-%d.jpg" は ‘i%m%g-1.jpg’, ‘i%m%g-2.jpg’, ..., ‘i%m%g-10.jpg’, などの形をしたファイル名の列にマッチします。

各画像のサイズ、ピクセル形式、および形式は列にある全てのファイルで 同じでなければなりません。

次の例は、秒間10フレームの入力フレームレートとして、ファイル列 ‘img-001.jpeg’, ‘img-002.jpeg’, ..., の画像から映像を作るための ‘avconv’ の使い方です:

avconv -i 'img-%03d.jpeg' -r 10 out.mkv

このパターンは "%d" または "%0Nd" を含む必要はないことに 注意してください。例えば単一の画像ファイル ‘img.jpeg’ を 変換するために次のコマンドが使えます:

avconv -i img.jpeg img.png

9.2 applehttp

Apple HTTP Live Streaming デミュクサー。

このデミュクサーは全ての種類のストリームから全ての AVStreams を取り出します。 id フィールドはそのビットレートに応じたインデックス番号に設定されます。 AVStreams の discard フラグを設定する(avplay では ’a’ または ’v’ を押す) ことによって、呼び出し側が実際に受け取るストリームの種類を決定できます。 ストリームが属する種類の全体のビットレートは "variant_bitrate" と名付け られているメタデータキーで取れます。

10 ミュクサー

ミュクサーはマルチメディアストリームを特定の種類のファイルに 書き出すことを可能にする Libav での構成される要素です。

Libav のビルドを構成する際、既定ではサポートしているミュクサーが全て 有効になります。全ての利用可能なミュクサーを configure オプション --list-muxers を使って一覧できます。

configure オプション --disable-muxers を使って全てのミュクサーを 無効にできます。そしてオプション --enable-muxer=MUXER / --disable-muxer=MUXER で1つのミュクサーを選択的に有効 / 無効にできます。

ff* ツールの -formats オプションは有効になっているミュクサーの 一覧を表示します。

現在利用可能なミュクサーのいくつかの説明は以下の通りです。

10.1 crc

CRC (Cyclic Redundancy Check) 検査形式。

このミュクサーは全ての入力音声および映像フレームの Adler-32 CRC を計算し表示します。既定では、CRC を計算する前に音声フレームは 符号付き16ビット raw audio に変換され、映像フレームは raw video に変換されます。

ミュクサーの出力は次の形をした単一の行からなります: CRC=0xCRC、ただし CRC は全てのデコードされた入力フレーム についての CRC を含む8桁になるように0埋めされた16進数です。

入力の CRC を計算し、それをファイル ‘out.crc’ に保存する 例として:

avconv -i INPUT -f crc out.crc

次のコマンドで CRC を標準出力に書き出すことができます:

avconv -i INPUT -f crc -

avconv では、音声および映像コーデックおよび形式を指定することで 各フレームに対する出力形式を選択できます。PCM unsigned 8-bit に変換された 入力音声および MPEG-2 video に変換された入力映像の CRC を計算する 例として、 次のコマンドを使ってください:

avconv -i INPUT -c:a pcm_u8 -c:v mpeg2video -f crc -

framecrc ミュクサーも参照してください。

10.2 framecrc

フレームごとの CRC (Cyclic Redundancy Check) 検査形式。

このミュクサーは各デコードされた音声および映像フレームに対する Adler-32 CRC を計算し表示します。既定では、CRC を計算する前に 音声フレームは符号付き16ビット raw audio に変換され、映像フレームは raw video に変換されます。

ミュクサーの出力は各音声および映像フレームにつき1行からなります: stream_index, frame_dts, frame_size, 0xCRC、 ただし CRC はデコードされたフレームの CRC を含む0埋めされた 8桁の16進数です。

入力のデコードされた各フレームの CRC を計算し、それをファイル ‘out.crc’ に保存する例として:

avconv -i INPUT -f framecrc out.crc

次のコマンドで各デコードされたフレームの CRC を標準出力に書き出せます:

avconv -i INPUT -f framecrc -

avconv では、音声および映像コーデックおよび形式を指定することで 各フレームに対する出力形式を選択できます。PCM unsigned 8-bit に変換された デコードされた入力音声フレームおよび MPEG-2 video に変換されたデコードされた 入力映像フレームの CRC を計算するためには、次のコマンドを使ってください:

avconv -i INPUT -c:a pcm_u8 -c:v mpeg2video -f framecrc -

crc ミュクサーも参照してください。

10.3 image2

画像ファイルのミュクサー。

このミュクサーは映像フレームを画像ファイルに書き出します。

出力ファイル名はパターンによって指定されます。このパターンは 順番に番号が振られているファイルの並びを生成するために使えます。 パターンは文字列 "%d" または "%0Nd" を含めることができ、 これがこのパターンにマッチする各ファイル名の連番を表す文字の位置を 指定します。"%0Nd" という形が使われた場合、各ファイル名の 番号を表す文字列は0で埋められており、N は番号を表す0で埋められた 桁の総数です。リテラル文字 ’%’ は文字列 "%%" を含むパターンで指定 されます。

このパターンが "%d" または "%0Nd" を含む場合、このパターンによって 指定されたファイル列の最初のファイル名は1を含み、あとに続く全ての番号は 連続していることになります。

このパターンにはファイルに含まれる画像の形式によって自動的に決まる 接尾辞を含んでもよいです。

例えばパターン "img-%03d.bmp" は ‘img-001.bmp’, ‘img-002.bmp’, ..., ‘img-010.bmp’, などの形をしたファイル名の列にマッチします。 パターン "img%%-%d.jpg" は ‘img%-1.jpg’, ‘img%-2.jpg’, ..., ‘img%-10.jpg’, などの形をしたファイル名の列にマッチします。

次の例は入力映像から各秒につき1つの画像を取得し ファイルの列 ‘img-001.jpeg’, ‘img-002.jpeg’, ...を を作るための avconv の使い方を示します;

avconv -i in.avi -vsync 1 -r 1 -f image2 'img-%03d.jpeg'

avconv では、-f オプションで形式が指定されておらず、 かわりに出力ファイル名が画像ファイル形式を指定している場合は、 image2 ミュクサーが自動的に選択されることにに注意してください。 ですので上のコマンドは次のように書けます:

avconv -i in.avi -vsync 1 -r 1 'img-%03d.jpeg'

また、パターンは "%d" または "%0Nd" を含んでいなくてもよく、 例えば入力映像から単一の画像ファイル ‘img.jpeg’ を作成するには 次のコマンドが使えます:

avconv -i in.avi -f image2 -frames:v 1 img.jpeg

10.4 MOV/MP4/ISMV

mov/mp4/ismv ミュクサーはフラグメンテーションをサポートします。通常、 MOV/MP4 ファイルは1つのロケーションに保存されている全てのパケットに ついてのあらゆるメタデータを持っています(ファイルの末尾に書かれており、 より良い再生のために qt-faststart ツールを使って先頭に動か せます)。フラグメント化したファイルは多くのフラグメントからなり、 パケットとこれらのパケットについてのメタデータは一緒に保存されます。 フラグメント化されたファイルを書き出すと、書き出しが割り込まれたとして もデコードできる(通常の MOV/MP4 ファイルでは適切に終了しないとデコード できません)上、とても長いファイルを書き出すときにより少ないメモリしか 要さない(なぜなら通常の MOV/MP4 ファイルでは、ファイルを閉じるまでに メモリ上で1つ1つのパケットについての情報を保存するからです)という 利点があります。欠点は他のアプリケーションとの互換性がより低い点です。

フラグメンテーションは、どのようにファイルをフラグメントに分けるかを 定義した AVOptions の1つを設定することで有効になります。

-movflags frag_keyframe

各映像キーフレームで新しいフラグメントを開始する

-frag_duration duration

durationマイクロ秒の長さのフラグメントを作成する

-frag_size size

sizeバイトまでのペイロードデータを含むフラグメントを作成する

-movflags frag_custom

いつフラグメントに分けるかをマニュアルで選択する caller を許可する、 av_write_frame(ctx, NULL) を呼ぶことでそれまでに書き出された パケットとともにフラグメントを出力する。(これは avconv からではなく、libavformat と統合された他のアプリケーションでのみ 有用)

-min_frag_duration duration

durationマイクロ秒より短い時間のフラグメントを作成しない。

複数の条件を指定した場合、指定された条件のうちの1つが満たされたときに フラグメントが切り出されます。これについての例外は -min_frag_duration で、その他の適用条件が満たされていなければ なりません。

加えて、出力ファイルを書き出すやり方はその他の少数のオプションを 通じて調節できます:

-movflags empty_moov

サンプルの記述することなしに、先頭の moov アトムを直接ファイルの 最初に書き出す。一般に、通常の MOV/MP4 ファイルとして、mdat/moov ペアはファイルの最初に書き出され、ファイルのごく一部のみを占める。 このオプションを設定した場合、先頭の mdat アトムはなくなり、moov アトムはトラックだけを記述しその持続時間は0となる。

このオプションを設定して書き出したファイルは QuickTime では動作しない。 ismv (Smooth Streaming) ファイルを書き出す際、このオプションが暗黙に設定される。

-movflags separate_moof

各トラックごとに別々の moof (movie fragment)アトムを書き出す。通常、 全てのトラックについてのパケットが1つの moof アトムに書き出される(これは若干 効率的になる)が、このオプションが設定されると、ミュクサーは各トラックについて 1つの moof/mdat ペアを書き出し、トラックを分離しやすくする。

ismv (Smooth Streaming)ファイルを書き出す際、このオプションが暗黙に設定される。

このミュクサーで、IIS 上のパブリッシングポイントに Smooth Streaming コンテントを 実時間でプッシュすることができます。例:

avconv -re <normal input/transcoding options> -movflags isml+frag_keyframe -f ismv http://server/publishingpoint.isml/Streams(Encoder1)

10.5 mpegts

MPEG トランスポートストリームミュクサー。

このミュクサーは ISO 13818-1 と ETSI EN 300 468 の一部を実装しています。

このミュクサーのオプションは以下のとおりです:

-mpegts_original_network_id number

original_network_id を設定します(既定では 0x0001)。 これは DVB でのネットワークの一意な識別子です。主な利用法は パス Original_Network_ID, Transport_Stream_ID を通じたサービスの 一意な識別にあります。

-mpegts_transport_stream_id number

transport_stream_id を設定します(既定では 0x0001)。これは DVB での transponder を識別します。

-mpegts_service_id number

DVB での program として知られている service_id を設定します(既定では 0x0001)。

-mpegts_pmt_start_pid number

PMT のための最初の PID を設定します(既定では 0x1000, 最大で 0x1f00)。

-mpegts_start_pid number

データパケットのための最初の PID を設定します(既定では 0x0100, 最大で 0x0f00)。

mpegts ミュクサーで認識できるメタデータの設定は service_providerservice_name です。これらが設定されていなければ、 service_provider の既定値は "Libav" であり、 service_name の既定値は "Service01" です。

avconv -i file.mpg -c copy \
     -mpegts_original_network_id 0x1122 \
     -mpegts_transport_stream_id 0x3344 \
     -mpegts_service_id 0x5566 \
     -mpegts_pmt_start_pid 0x1500 \
     -mpegts_start_pid 0x150 \
     -metadata service_provider="Some provider" \
     -metadata service_name="Some Channel" \
     -y out.ts

10.6 null

Null ミュクサー。

このミュクサーは出力ファイルを全く生成しません。主にテストや ベンチマークの目的で有用です。

例えば、avconv でのデコーディングのベンチマークを取るには、 次のコマンドが使えます:

avconv -benchmark -i INPUT -f null out.null

上のコマンドは ‘out.null’ ファイルを読み書きしませんが、 しかし avconv の構文で必要とされている出力ファイルを指定している ことに注意してください。

あるいはこのコマンドを次のようなに書くこともできます:

avconv -benchmark -i INPUT -f null -

10.7 matroska

Matroska コンテナーミュクサー。

このミュクサーは matroska および webm コンテナー仕様を実装しています。

このミュクサーが理解できるメタデータ設定は以下のものです:

title=title name

シングルトラックに与える名前

language=language name

Matroska 言語フォームでトラックの言語を指定します

STEREO_MODE=mode

シングル映像トラックでの2つのビューのステレオ 3D レイアウト

mono

映像はステレオでない

left_right

Both views are arranged side by side, Left-eye view is on the left

bottom_top

Both views are arranged in top-bottom orientation, Left-eye view is at bottom

top_bottom

Both views are arranged in top-bottom orientation, Left-eye view is on top

checkerboard_rl

Each view is arranged in a checkerboard interleaved pattern, Left-eye view being first

checkerboard_lr

Each view is arranged in a checkerboard interleaved pattern, Right-eye view being first

row_interleaved_rl

Each view is constituted by a row based interleaving, Right-eye view is first row

row_interleaved_lr

Each view is constituted by a row based interleaving, Left-eye view is first row

col_interleaved_rl

Both views are arranged in a column based interleaving manner, Right-eye view is first column

col_interleaved_lr

Both views are arranged in a column based interleaving manner, Left-eye view is first column

anaglyph_cyan_red

All frames are in anaglyph format viewable through red-cyan filters

right_left

Both views are arranged side by side, Right-eye view is on the left

anaglyph_green_magenta

All frames are in anaglyph format viewable through green-magenta filters

block_lr

Both eyes laced in one Block, Left-eye view is first

block_rl

Both eyes laced in one Block, Right-eye view is first

例えば、以下のコマンドラインを使って 3D WebM クリップを作成できます:

avconv -i sample_left_right_clip.mpg -an -c:v libvpx -metadata STEREO_MODE=left_right -y stereo_clip.webm

10.8 segment

基本的なストリームセグメンター。

セグメンターミュクサーはほぼ固定の期間にいくつかの分かれたファイルにストリームを 出力します。出力ファイルのパターンは image2 と同様のやり方で設定すること ができます。

各セグメントは、映像ストリームがあれば、映像のキーフレームから始まります。 このセグメントミュクサーは単一の定数フレームレートの映像で一番うまく働きます。

オプションで、作成されたセグメントの箇条書きリスト(セグメントごとに1行)を 生成することができます。

segment_format format

内部のコンテナフォーマットを上書きします、既定ではファイル名の拡張子から 推測されます。

segment_time t

セグメントの期間を t 秒間と設定します。

segment_list name

name という名前でリストファイルを生成します。

segment_list_size size

size 個のエントリーに逹したらリストファイルを上書きします。

segment_wrap limit

limit に達したらセグメントインデックスを折り返します。

avconv -i in.mkv -c copy -map 0 -f segment -list out.list out%03d.nut

10.9 mp3

MP3 ミュクサーは先頭に ID3v2 ヘッダーをつけて(そしてオプションで ID3v1 タグを末尾 につけて)生の MP3 ストリームを書き出します。IDv2.3 と ID3v2.4 に対応しており、 id3v2_version オプションでどちらを使うのか制御します。レガシーの ID3v1 タグは既定では書き出されませんが、write_id3v1 オプションで有効にできます。

シーク可能な出力のために、このミュクサーは Xing フレームも先頭に書き出します。 これはファイル内のフレームの数を含みます。これは VBR ファイルの時間幅を計算する ために便利です。

このミュクサーは画像(APIC フレーム)を添付した ID3v2 を書き出すことに対応しています。 この画像は単一のパケットをもつ映像ストリームの形でミュクサーに渡されます。そういった ストリームはいくらあってもよく、それぞれ単一の APIC フレームに対応します。 ストリームメタデータタグである titlecomment は APIC での descriptionpicture type にそれぞれ対応づけられます。許されている 画像の種類については http://id3.org/id3v2.4.0-frames を見てください。

これらの APIC フレームは先頭に書き出されなくてはならず、ミュクサーがこれらの画像 全てを取得するまで音声フレームをバッファすることに注意してください。したがって、 過度のバッファリングを避けるために可能な限り早めに画像を提供するようにしてください。

例:

ID3v2.3 ヘッダーと ID3v1 フッターをつけて mp3 を書き出す:

avconv -i INPUT -id3v2_version 3 -write_id3v1 1 out.mp3

mp3 に画像を添付する:

avconv -i input.mp3 -i cover.png -c copy -metadata:s:v title="Album cover"
-metadata:s:v comment="Cover (Front)" out.mp3

11 Input Devices

入力デバイスは、Libav 上でシステムに取り付けられたマルチメディアデバイスから やって来るデータにアクセスすることを許す構成された要素です。

Libav のビルドを構成(configure)する際は、既定ではサポートされている全ての 入力デバイスが有効になっています。configure オプション "–list-indevs" を使うと 全ての利用可能な入力デバイスがリストアップされます。

configure オプション "–disable-indevs" を使えば全ての入力デバイスを無効にする ことができ、 "–enable-indev=INDEV" で特定の入力デバイスを選択して有効にでき、 または "–disable-indev=INDEV" で特定の入力デバイスを無効にできます。

ff* ツールのオプション "-formats" は(demuxer と一緒に)サポートされている入力デバイス のリストを表示します。

現在利用可能な入力デバイスの説明は以下の通りです。

11.1 alsa

ALSA (Advanced Linux Sound Architecture) 入力デバイス。

configure でこの入力デバイスを有効にするには、システムに libasound がインストールされて いる必要があります。

このデバイスによって ALSA デバイスからキャプチャすることができます。キャプチャする デバイスの名前は ALSA カード識別子でなくてはなりません。

ALSA 識別は次の構文をもちます:

hw:CARD[,DEV[,SUBDEV]]

ただし DEVSUBDEV という成分は省略できます。

この3つの引数(順に: CARD,DEV,SUBDEV)は カード番号もしくは識別子、デバイス番号、そしてサブデバイス番号を 特定します。(-1 はいずれかを意味します)。

現時点でシステムによって認識されるカードのリストを見るには、ファイル ‘/proc/asound/cards’ および ‘/proc/asound/devices’ を確認してください。

例えば avconv によってある card id 0 の ALSA デバイスから キャプチャするためには、次のコマンドを実行します:

avconv -f alsa -i hw:0 alsaout.wav

さらなる情報については、次を見てください: http://www.alsa-project.org/alsa-doc/alsa-lib/pcm.html

11.2 bktr

BSD 映像入力デバイス。

11.3 dv1394

Linux DV 1394 入力デバイス。

11.4 fbdev

Linux フレームバッファ入力デバイス。

Linux フレームバッファはコンピュータモニター上に、典型的にはコンソール上に グラフィックスを表示するためのハードウェアに依存しないグラフィック抽象 レイヤーです。フレームバッファはファイルデバイスノードを通じてアクセス され、たいていの場合は ‘/dev/fb0’ です。

より詳細な情報については、Linux ソースツリー内に含まれるファイル Documentation/fb/framebuffer.txt を読んでください。

avconv でフレームバッファデバイス ‘/dev/fb0’ から記録する には:

avconv -f fbdev -r 10 -i /dev/fb0 out.avi

以下のコマンドで単一のスクリーンショットイメージを撮ることができます:

avconv -f fbdev -frames:v 1 -r 1 -i /dev/fb0 screenshot.jpeg

http://linux-fbdev.sourceforge.net/ および fbset(1) も参照してください。

11.5 jack

JACK 入力デバイス。

configure でこの入力デバイスを有効にするには、システムに libjack がインストールされて いる必要があります。

JACK 入力デバイスは1つまたはそれ以上の JACK 書き込み可能クライアントを 各音声チャンネルごとに1つ、client_name:input_N という名前で 作成します。ただし client_name はアプリケーションによって提供される 名前で、N はそのチャンネルを識別する番号です。 各書き込み可能なクライアントは Libav 入力デバイスに対して取得したデータ を送信します。

一旦1つまたはそれ以上の JACK 読み取り可能クライアントを作成すると、 1つまたはそれ以上の JACK 書き込み可能クライアントにそれらを接続する必要 があります。

JACK クライアントに接続をつないだり切ったりするためには、 ‘jack_connect’ や ‘jack_disconnect’ プログラムが使えます。 または、例えば ‘qjackctl’ のようなグラフィカルインターフェイスを 通じて行えます。

JACK クライアントやそのプロパティをリストアップするには、コマンド ‘jack_lsp’ を実行します。

以下は avconv で JACK 読み取り可能クライアントをキャプチャする やり方を示す例です。

# "libav" という名前のついた JACK 書き込み可能クライアントを作成します。
$ avconv -f jack -i libav -y out.wav

# サンプルの jack_metro 読み取りクライアントを開始します。
$ jack_metro -b 120 -d 0.2 -f 4000

# 現在の JACK クライアントをリストアップします。
$ jack_lsp -c
system:capture_1
system:capture_2
system:playback_1
system:playback_2
libav:input_1
metro:120_bpm

# avconv 書き込み可能クライアントに metro を接続します。
$ jack_connect metro:120_bpm libav:input_1

さらなる情報については、次を読んでください: http://jackaudio.org/

11.6 libdc1394

IIDC1394 入力デバイス、libdc1394 および libraw1394 に基づいています。

11.7 oss

Open Sound System 入力デバイス。

入力デバイスに充てられるファイル名はその OSS 入力 を表すデバイスノードで、 それはたいていの場合 ‘/dev/dsp’ になります。

例えば avconv から ‘/dev/dsp’ をグラブするためには、 次のコマンドを使います。

avconv -f oss -i /dev/dsp /tmp/oss.wav

OSS についてのさらなる情報には、次を見てください: http://manuals.opensound.com/usersguide/dsp.html

11.8 pulse

pulseaudio 入力デバイス。

configure 時にこの入力デバイスを有効にするには、libpulse-simple が システムにインストールされている必要があります。

入力デバイスに与えられるファイル名はソースのデバイス、もしくは文字列 "default" です。

pulse ソースデバイスとそのプロパティを一覧するには、コマンド ‘pactl list sources’ を呼び出すことで可能です。

avconv -f pulse -i default /tmp/pulse.wav

11.8.1 server AVOption

構文は以下のとおりです:

-server server name

特定のサーバーに接続します。

11.8.2 name AVOption

構文は以下のとおりです:

-name application name

アクティブなクライアントを表示するのに pulse が利用するアプリケーションの名前を 指定します、既定では "libav" です

11.8.3 stream_name AVOption

構文は以下のとおりです:

-stream_name stream name

アクティブなストリームを表示するときに pulse が利用するストリームの名前を 指定します、既定では "record" です

11.8.4 sample_rate AVOption

構文は以下のとおりです:

-sample_rate samplerate

サンプルレートを Hz で指定します、既定では 48kHz が用いられます

11.8.5 channels AVOption

構文は以下のとおりです:

-channels N

利用するチャンネルを指定します、既定では 2 (ステレオ)が設定されます

11.8.6 frame_size AVOption

構文は以下のとおりです:

-frame_size bytes

フレームごとのバイト数を指定します、既定では1024です。

11.8.7 fragment_size AVOption

構文は以下のとおりです:

-fragment_size bytes

pulseaudio で最小のバッファリングフラグメントを指定します、音声のレイテンシに 影響します。既定では設定されません。

11.9 sndio

sndio 入力デバイス。

この入力デバイスを configure を通じて有効にするには、システムに libsndio がインストールされていなければなりません。

入力デバイスに与えるファイル名は sndio 入力デバイスを表すデバイス ノードであり、たいていの場合 ‘/dev/audio0’ に設定されます。

例えば、avconv を使って ‘/dev/audio0’ からグラブするには 次のコマンドを使ってください:

avconv -f sndio -i /dev/audio0 /tmp/oss.wav

11.10 video4linux2

Video4Linux2 入力映像デバイス。

グラブするデバイスの名前はファイルデバイスノードです。たいていの Linux システムは、デバイス(例えば USB ウェブカム)をシステムに差し込んだ際、 そういったノードを自動的に作成するようになっています。そして ‘/dev/videoN’ のような名前を持ちます。ただし N は そのデバイスに結びつけられた番号です。

Video4Linux2 デバイスは限られた種類の widthxheight サイズと フレームレートのみに対応しています。いずれに対応しているかを確認するために、 Video4Linux2 デバイスならコマンド -list_formats all が使えます。

avconv および avplay で video4linux2 デバイスを使う例をいくつか:

# video4linux2 デバイスの入力をグラブし表示します。
avplay -f video4linux2 -framerate 30 -video_size hd720 /dev/video0

# Video4linux2 デバイスの入力をグラブし録画します。
# フレームレートとサイズは以前設定されているままにします。
avconv -f video4linux2 -input_format mjpeg -i /dev/video0 out.mpeg

11.11 vfwcap

VfW (Video For Windows) キャプチャ入力デバイス。

入力として渡すファイル名はキャプチャドライバー番号で、0から9の範囲です。 ドライバーの一覧を表示するために "list" をファイル名に使えます。 それ以外のファイル名はデバイス番号0として解釈されます。

11.12 x11grab

X11 映像入力デバイス。

このデバイスで X11 ディスプレイの領域をキャプチャすることができます。

入力として渡すファイル名は次の構文を持ちます:

[hostname]:display_number.screen_number[+x_offset,y_offset]

hostname:display_number.screen_number でグラブする スクリーンlの X11 ディスプレイ名を指定します。hostname は省略 されてもよく、既定では "localhost" です。環境変数 DISPLAY が既定のディスプレイ名を含みます。

x_offset および y_offset でグラブされる領域の X11 スクリーン イメージの左上端からオフセットを指定します。これらは既定では0です。

さらなる細かい情報については X11 ドキュメンテーション(例えば man X)を 参照してください。

X11 ディスプレイのプロパティについての基本情報(例えば "name" または "dimensions" を grep する)を得るためには、‘dpyinfo’ プログラムを使ってください。

例えば avconv を使って ‘:0.0’ からグラブするには

avconv -f x11grab -r 25 -s cif -i :0.0 out.mpg

# 位置 10,20 でグラブします。
avconv -f x11grab -r 25 -s cif -i :0.0+10,20 out.mpg

11.12.1 follow_mouse AVOption

構文は以下のとおり:

-follow_mouse centered|PIXELS

"centered" とともに指定された場合には、捕捉領域はマウスポインターに追随し、 ポインターが領域の中央になるよう維持されます。さもなくば、領域の端に対して PIXELS (0より大きい)以内にマウスポインターが近付いたときだけこの領域は 追随します。

例えば:

avconv -f x11grab -follow_mouse centered -r 25 -s cif -i :0.0 out.mpg

# 端に対して100ピクセル以内にマウスポインター近付いたときだけ追随します
avconv -f x11grab -follow_mouse 100 -r 25 -s cif -i :0.0 out.mpg

11.12.2 show_region AVOption

構文は以下のとおり:

-show_region 1

show_region AVOption が 1 と指定された場合、捕捉領域は スクリーンで指示される。このオプションによって、スクリーンの一部だけを 捕捉するときに捕捉するべきものを知るのが簡単になります。

例えば:

avconv -f x11grab -show_region 1 -r 25 -s cif -i :0.0+10,20 out.mpg

# follow_mouse とともに
avconv -f x11grab -follow_mouse centered -show_region 1  -r 25 -s cif -i :0.0 out.mpg

12 Output Devices

出力デバイスは、Libav 上でシステムに取り付けられた出力デバイスへ マルチメディアデータを書き出すことを許す構成された要素です。

Libav のビルドを構成(configure)する際は、既定ではサポートされている全ての 出力デバイスが有効になっています。configure オプション "–list-outdevs" を使うと 全ての利用可能な出力デバイスがリストアップされます。

configure オプション "–disable-outdevs" を使えば全ての出力デバイスを無効にする ことができ、 "–enable-outdev=OUTDEV" で特定の出力デバイスを選択して有効にでき、 または "–disable-outdev=OUTDEV" で特定の出力デバイスを無効にできます。

ff* ツールのオプション "-formats" は(muxer と一緒に)サポートされている出力デバイス のリストを表示します。

現在利用可能な出力デバイスの説明は以下の通りです。

12.1 alsa

ALSA (Advanced Linux Sound Architecture) 出力デバイス。

12.2 oss

OSS (Open Sound System) 出力デバイス。

12.3 sndio

sndio 音声出力デバイス。

13 プロトコル

プロトコルは、特定のプロトコルを使用するために必要になるリソースへの アクセスを可能にする Libav 上の構成される要素です。

Libav のビルドを構成(configure)する際は、既定ではサポートされている全ての プロトコルが有効になっています。configure オプション "–list-protocols" を使うと 全ての利用可能なプロトコルがリストアップされます。

configure オプション "–disable-protocols" を使えば全てのプロトコルを無効にする ことができ、 "–enable-protocol=PROTOCOL" で特定のプロトコルを選択して有効にでき、 または "–disable-protocol=PROTOCOL" で特定のプロトコルを無効にできます。

ff* ツールのオプション "-protocols" はサポートされているプロトコル のリストを表示します。

現在利用可能なプロトコルの説明は以下の通りです。

13.1 concat

物理的な連結プロトコル。

多くのリソースから順に、1つの独自のリソースであるかのように 読んだりシークしたりできます。

このプロトコルが受け取る URL は次の構文を持ちます:

concat:URL1|URL2|...|URLN

ただし URL1URL2、...、URLN は連結されるリソースの URL で、それぞれは異なるプロトコルを指定していてもかまいません。

例えばファイル列 ‘split1.mpeg’、‘split2.mpeg’、‘split3.mpeg’ を avplay で読むには、次のコマンドを使ってください:

avplay concat:split1.mpeg\|split2.mpeg\|split3.mpeg

多くのシェルで特別扱いされる文字 "|" をエスケープしなけばならないかもしれない ことに注意してください。

13.2 file

ファイルアクセスプロトコル。

1つのファイルから、または1つのファイルに向けて読むことができます。

例えば avconv でファイル ‘input.mpeg’ から読むには、次のコマンドを 使ってください:

avconv -i file:input.mpeg output.mpeg

ff* ツールは既定ではこのファイルプロトコルを使います。 すなわち "FILE.mpeg" という名前で指定されたリソースは URL "file:FILE.mpeg" であるかのように解釈されます。

13.3 gopher

Gopher プロトコル。

13.4 hls

Apple HTTP Live Streaming 準拠のセグメント化ストリームを一体として 読み込みます。セグメントを表す M3U8 プレイリストとしては、標準ファイル プロトコルによってアクセスされるリモートの HTTP リソースや ローカルファイルになります。 hls URI スキーム名の後に "+proto" のように指定することで、 入れ子のプロトコルを宣言します。ただし proto は "file" もしくは "http" です。

hls+http://host/path/to/remote/resource.m3u8
hls+file://path/to/local/resource.m3u8

このプロトコルの使用は控えてください - hls デミュクサーがきちんと 動作するはずで(そうでなければ、不具合報告してください)、より完全です。 代わりに hls デミュクサーを使うには、単に m3u8 ファイルへの URL を 直接使ってください。

13.5 http

HTTP (ハイパーテキストトランスファープロトコル)。

13.6 mmst

TCP 越しの MMS (マイクロソフトメディアサーバー)プロトコル。

13.7 mmsh

HTTP 越しの MMS (マイクロソフトメディアサーバー)プロトコル。

要求される構文は:

mmsh://server[:port][/app][/playpath]

13.8 md5

MD5 出力プロトコル。

書き出されるデータの MD5 ハッシュを計算し、クローズ時にそれを指示された 出力もしくは(指定されていなければ)標準出力に書き出します。実際のファイルに 書き出すことなく muxer をテストするために使えます。

いくつかの例を以下に挙げます。

# エンコードされる AVI ファイルの MD5 ハッシュをファイル output.avi.md5 に書き出します。
avconv -i input.flv -f avi -y md5:output.avi.md5

# エンコードされる AVI ファイルの MD5 ハッシュを標準出力に書き出します。
avconv -i input.flv -f avi -y md5:

フォーマットによっては(典型的には MOV)出力プロトコルがシーク可能である必要が あり、したがって MD5 出力プロトコルが一緒だと失敗することに注意してください。

13.9 pipe

UNIX パイプアクセスプロトコル。

UNIX パイプに書き出したり読み込んだりすることができます。

受け取る構文は:

pipe:[number]

number はパイプのファイル記述子に対応する番号 (例えば標準入力なら0、標準出力なら1、標準エラー出力なら2)です。 number が指定されていなければ、既定ではこのプロトコルが 書き出しに用いられるときには標準出力が利用され、このプロトコルが 読み込みに用いられるときには標準入力が利用されます。

例えば avconv で標準入力から読むには:

cat test.wav | avconv -i pipe:0
# ...これは次と同じです...
cat test.wav | avconv -i pipe:

avconv で標準出力に書くには:

avconv -i test.wav -f avi pipe:1 | cat > test.avi
# ...これは次と同じです...
avconv -i test.wav -f avi pipe: | cat > test.avi

フォーマットによっては(典型的には MOV)出力プロトコルがシーク可能である必要が あり、したがってパイプ出力プロトコルが一緒だと失敗することに注意してください。

13.10 rtmp

リアルタイムメッセージングプロトコル。

リアルタイムメッセージングプロトコル(RTMP)は TCP/IP ネットワーク越しの マルチメディアコンテントのストリーミングに用いられます。

必要となる構文は:

rtmp://server[:port][/app][/instance][/playpath]

受け取るパラメータは以下の通りです:

server

RTMP サーバーのアドレスです。

port

利用される TCP ポートの番号です(既定では1935です)。

app

アクセスするアプリケーションの名前です。たいていの場合 RTMP サーバー にそのアプリケーションがインストールされているパスになります。 (例えば ‘/ondemand/’、‘/flash/live/’、など)。URI からパース されたこの値を rtmp_app オプションを通じて上書きすることも できます。

playpath

app で指定されうアプリケーションから参照され再生される リソースのパスまたは名前です。"mp4:"が先頭につくかもしれません。 URI からパースされたこの値を rtmp_playpath オプションで 上書きすることもできます。

listen

サーバーとして振舞い、やってくる接続を待ち受けます。

timeout

やってくる接続を待ち続ける時間の最大値です。listen となります。

加えて、以下のパラメーターがコマンドラインオプション(または AVOption のコード)を通じて設定できます:

rtmp_app

RTMP サーバーに接続するアプリケーションの名前。このオプションは URI で 指定されたパラメーターを上書きします。

rtmp_buffer

クライアントのバッファ時間をミリ秒単位で設定します。既定値は3000です。

rtmp_conn

任意に追加する AMF 接続パラメーター。例えば B:1 S:authMe O:1 NN:code:1.23 NS:flag:ok O:0 のような文字列からパースされます。各値にはタイプを示す1文字が先頭につき、 ブール値は B、数値は N、文字列は S、オブジェクトは O、null は Z であり、 コロンがその後につきます。ブール値としてはデータは FALSE または TRUE を 表す0か1でなければなりません。同様にオブジェクトについてはその終了または 開始を表す0または1でなければなりません。サブオブジェクト内のデータ項目は 名前がついている場合があり、タイプ N が先頭につけてその値の前に名前を 指定します(つまり、NB:myFlag:1のように)。このオプションは任意の AMF シーケンスを構築するために複数回使えます。

rtmp_flashver

SWF プレーヤーを実行するのに使われる Flash プラグインのバージョン。 既定では LNX 9,0,124,2 です。

rtmp_flush_interval

同じリクエストに書き出されるパケットの数(RTMPT のみ)。既定値は 10です。

rtmp_live

メディアがライブストリームであると指定します。ライブストリームではレジュームも シークもできません。既定値は any で、これはサブスクライバーはまず プレイパスで指定されたライブストリームを再生しようとします。この名前のライブ ストリームが見つからなければ、録画されたストリームを再生します。その他に 可能な値は live または recorded です。

rtmp_pageurl

メディアが埋め込まれているウェブページの URL です。既定ではいかなる値も送信 されません。

rtmp_playpath

再生もしくは公開するためのストリーム識別子です。このオプションは URI で 指定されたパラメーターを上書きします。

rtmp_subscribe

サブスクライブするライブストリームの名前です。既定では何の値も送信されません。 このオプションが指定されたとき、もしくは rtmp_live が live に設定されたとき のみ送信されます。

rtmp_swfhash

圧縮の展開された SWF ファイルの SHA256(32バイト)。

rtmp_swfsize

圧縮の展開された SWF ファイルのサイズ、SWFVerification のために必要です。

rtmp_swfurl

メディアのための SWF プレーヤーの URL です。既定では何の値も送信されません。

rtmp_swfverify

プレーヤーの swf ファイルへの URL、ハッシュおよびサイズは自動的に計算します。

rtmp_tcurl

ターゲットのストリームの URL です。既定値は proto://host[:port]/app です。

例えば avplay で RTMP サーバー "myserver" からアプリケーション "vod" で "sample" という名前のマルチメディアリソースを読むには:

avplay rtmp://myserver/vod/sample

13.11 rtmpe

暗号化された Real-Time Messaging Protocol です。

暗号化された Real-Time Messaging Protocol (RTMPE)は、Diffie-Hellman 鍵交換 および HMACSHA256 からなる、RC4 鍵のペアを生成する標準の暗号基盤の範囲内で マルチメディアコンテントをストリーミングするために用いられます。

13.12 rtmps

安全な SSL 接続経由の Real-Time Messaging Protocol です。

Real-Time Messaging Protocol (RTMPS) は暗号化された接続を通してマルチメディア コンテントをストリーミングするために用いられます。

13.13 rtmpt

HTTP 経由のトンネル Real-Time Messaging Protocol です。

HTTP 経由のトンネル Real-Time Messaging Protocol (RTMPT)は、ファイアウォールを 迂回するように HTTP リクエストの範囲でマルチメディアコンテントをストリーミング するためのものです。

13.14 rtmpte

HTTP 経由でトンネリングされた暗号化 Real-Time Messaging Protocol です。

HTTP 経由でトンネリングされた暗号化 Real-Time Messaging Protocol (RTMPTE) はファイアウォールを迂回するよう HTTP リクエストの範囲内でマルチメディアコンテント をストリーミングするために用いられます。

13.15 rtmpts

HTTPS 経由でトンネリングされた Real-Time Messaging Protocol です。

HTTPS 経由でトンネリングされた Real-Time Messaging Protocol (RTMPTS) はファイア ウォールを迂回するように HTTPS の範囲でマルチメディアコンテントをストリーミング するためのものです。

13.16 rtmp、rtmpe、rtmps、rtmpt、rtmpte

librtmp を通じてサポートされるリアルタイムメッセージングプロトコルとその バリエーションです。

構成(configure)の際に librtmp のヘッダとライブラリが存在しなければなりません。 "–enable-librtmp" で明示的にビルドを configure する必要があります。 有効にされるとネイティブの RTMP プロトコルは置き替えられます。

このプロトコルは、RTMP、HTTP トンネルによる RTMP (RTMPT)、暗号化 RTMP (RTMPE)、SSL/TLS オーバー RTMP (RTMPS)、そしてこれら暗号化タイプの トンネル版(RTMPTE、RTMPTS)をサポートするために必要ななるほとんどの クライアント機能と少数のサーバー機能を提供します。

必要となる構文は:

rtmp_proto://server[:port][/app][/playpath] options

ただし rtmp_proto は各 RTMP バリエーションに対応する文字列 "rtmp"、"rtmpt"、"rtmpe"、"rtmps"、"rtmpte"、"rtmpts" の1つで、 serverportapp および playpath は RTMP ネイティブプロトコルで指定されるものと同じ意味を持ちます。 options は空白で区切られた key=val の形のオプション のリストを含みます。

さらなる情報については librtmp のマニュアルページ(man 3 librtmp)を見てください。

例えば、avconv を使ってリアルタイムに RTMP サーバーに向けてファイルをストリームするには:

avconv -re -i myfile -f flv rtmp://myserver/live/mystream

avplay を使って同じストリーミングを行なうには:

avplay "rtmp://myserver/live/mystream live=1"

13.17 rtp

リアルタイムプロトコル。

13.18 rtsp

RTSP は技術的には libavformat でのプロトコルハンドラではなく、demuxer であり かつ muxer です。この demuxer は通常の RTSP (RTP 越しにデータが転送される; これは例えば Apple や Microsoft で用いられています)も Real-RTSP (RDT 越しに データが転送される)もどちらにも対応しています。

muxer はストリームを RTSP ANNOUNCE を用いて、それに対応しているサーバー (現時点では Darwin Streaming Server と Mischa Spiegelmock の RTSP server) に向けて送信するために利用できます。

RTSP のために必要となる構文は:

rtsp://hostname[:port]/path

以下のオプションが(avconv/avplay のコマンドライン上で、あるいは AVOption または avformat_open_input のコード内で設定するのに) サポートされています:

rtsp_transport のためのフラグ:

udp

下位トランスポートプロトコルに UDP を使います。

tcp

下位トランスポートプロトコルに(RTSP コントロールチャンネル内で交互にした) TCP を使います。

udp_multicast

下位トランスポートプロトコルに UDP マルチキャストを使います。

http

下位トランスポートプロトコルに http トンネリングを使います。これは 受動的なプロキシに対して便利です。

複数の下位トランスポートプロトコルを指定することが許されており、その場合 一度に1つだけ試されます(1つの設定に失敗したら、次のものが試されます)。 muxer については、tcpudp のみがサポートされています。

rtsp_flags のフラグ:

filter_src

ネゴシエーションしたピアのアドレスとポートのみからパケットを受け取ります。

listen

サーバーとして動作し、やってくる接続を待ち受けます。

UDP 越しにデータを受け取る際に、demuxer は受け取ったパケットを並べ直そうと します(これらが順番になっていない、もしくは全体的にパケットが失われている かもしれないからです)。AVFormatContext の max_delay フィールドで 最大の遅延を0に設定することで、これを無効にできます。

avplay でマルチビットレート Real-RTSP ストリームを観る際、 表示するストリームとして -vst n および -ast n で 映像と音声それぞれを選択できます。そして作動中に va を押すことで切り替えることが可能です。

コマンドラインの例:

UDP 越しのストリームを観る、並べ直しの最大遅延は0.5秒:

avplay -max_delay 500000 -rtsp_transport udp rtsp://server/video.mp4

HTTP トンネル経由のストリームを観る:

avplay -rtsp_transport http rtsp://server/video.mp4

他人に観せるために、RTSP サーバーにストリームをリアルタイムで送信する:

avconv -re -i input -f rtsp -muxdelay 0.1 rtsp://server/live.sdp

リアルタイムでストリームを受け取るには:

avconv -rtsp_flags listen -i rtsp://ownaddress/live.sdp output

13.19 sap

セッションアナウンスメントプロトコル(RFC 2974)。これは技術的には libavformat のプロトコルハンドラではなく、muxer および demuxer です。 分離されたポート上で定期的にストリームに対して SDP を通知することによって、 RTP ストリームのシグナリングのために使用されます。

13.19.1 Muxer

muxer に渡される SAP url のための構文は次の通りです:

sap://destination[:port][?options]

RTP パケットはポート portdestination に対して送信され、 ポートが指定されていない場合にはポート 5004 に対して送信されます。 options& で区切られたリストです。以下のオプションを サポートしています:

announce_addr=address

通知を送りつける送信先の IP アドレスを指定する。 省略されていれば、通知は共通して利用されている SAP アナウンスメント マルチキャストアドレス 224.2.127.254 (sap.mcast.net)に、もしくは destination が IPv6 アドレスならば ff0e::2:7ffe に送信される。

announce_port=port

通知を送りつけるポートを指定する、指定されなければ 既定で 9875。

ttl=ttl

通知と RTP パケットのための time to live 値を指定する、 既定では 255。

same_port=0|1

1が設定されれば、全ての RTP ストリームを同じポート対で送る。0(既定) ならば、全てのストリームは独自のポートに送られ、各ストリームは先のものより 2つ数字の大きいポート番号になる。 VLC/Live555 では、ストリームを受け取れるように、これを1に設定することが求められる。 libavformat で受信するための RTP スタックは各ストリームが一意なポートで送られる 必要がある。

コマンドラインの例は以下の通り。

VLC で観るために、ローカルサブネットにストリームをブロードキャストするためには:

avconv -re -i input -f sap sap://224.0.0.255?same_port=1

同様に、avplay で観るには:

avconv -re -i input -f sap sap://224.0.0.255

そして IPv6 越しに avplay で観るには:

avconv -re -i input -f sap sap://[ff0e::1:2:3:4]

13.19.2 Demuxer

demuxer に与える SAP url のための構文は:

sap://[address][:port]

address は通知のために待ち受けるマルチキャストアドレスであり、 省略されれば、既定の 224.2.127.254 (sap.mcast.net)が用いられる。 port は待ち受けるポートであり、省略された場合9875である。

demuxer は与えられたアドレスとポートで通知を待ち受ける。 いったん通知を受け取るとすぐに、特定のストリームを受信しようとする。

コマンドラインの例は以下の通り。

通常の SAP マルチキャストアドレスで通知される最初のストリームを再生するには:

avplay sap://

既定の IPv6 SAP マルチキャストアドレスで通知される最初のストリームを再生するには:

avplay sap://[ff0e::2:7ffe]

13.20 tcp

トランスミッションコントロールプロトコル。

TCP url のために要求される構文は以下のとおり:

tcp://hostname:port[?options]
listen

外から入ってくる接続を待ち受ける

avconv -i input -f format tcp://hostname:port?listen
avplay tcp://hostname:port

13.21 udp

ユーザーデータグラムプロトコル。

UDP url に要する構文は:

udp://hostname:port[?options]

options は & で区切られた key=val の形のオプションのリストを含む。 サポートされているオプションのリストは以下の通り:

buffer_size=size

UDP バッファサイズをバイト数で設定する

localport=port

バインドするローカル UDP ポートを上書きする

localaddr=addr

ローカル IP アドレスを選択する。これは例えばマルチキャストを送信し ホストが複数のインターフェイスを持つときに、どの IP アドレスの インターフェイスに送るか選択する際に便利です。

pkt_size=size

UDP パケットのバイトサイズを設定する

reuse=1|0

UDP ソケットの再利用を明示的に有効または無効にする

ttl=ttl

time to live 値を設定する(マルチキャストについてのみ)

connect=1|0

UDP ソケットを connect() で初期化する。 この場合、送り先アドレスは後から ff_udp_set_remote_url で変えることができない。 送り先のアドレスが開始時に分からない場合、このオプションを ff_udp_set_remote_url で指定することもできる。 これによって getsockname でパケットの送り元アドレスを見つけることができ、 書き出しの際 "destination unreachable" を受け取った場合には AVERROR(ECONNREFUSED) を返す。 受信にlについては、これによって指定されているピアのアドレス/ポートからのパケット のみを受け取るという効用がある。

sources=address[,address]

指定された送信者 IP アドレスの1つからマルチキャストグループへ送られたパケットのみ 受信する。

block=address[,address]

指定された送信者 IP アドレスの1つからマルチキャストグループへ送られたパケットを 無視する。

udp プロトコルの avconv での利用例は以下の通り。

UDP 越しにリモートエンドポイントへストリームするには:

avconv -i input -f format udp://hostname:port

188 サイズの UDP パケットを使い、大きい入力バッファで UDP 越しに mpegts 形式でストリームするには:

avconv -i input -f mpegts udp://hostname:port?pkt_size=188&buffer_size=65535

UDP 越しにリモートエンドポイントから受け取るには:

avconv -i udp://[multicast-address]:port

14 Bitstream フィルター

Libav のビルドを構成する際、既定では全てのサポートされている bitstream フィルターが有効になります。configure オプション --list-bsfs を 使うと全ての利用可能な bitstream フィルターを一覧できます。

configure オプション --disable-bsfs を使うと全ての bitstream フィルターを無効にでき、オプション --enable-bsf=BSF を使うと 任意の bitstream フィルターを選択的に有効にできます。またオプション --disable-bsf=BSF を使うと特定の bitstream フィルターを無効に できます。

ff* ツールのオプション -bsfs で、ビルドに含まれる全てのサポート される bitstream フィルターが表示されます。

以下は現在利用できる bitstream フィルターの説明です。

14.1 aac_adtstoasc

14.2 chomp

14.3 dump_extradata

14.4 h264_mp4toannexb

14.5 imx_dump_header

14.6 mjpeg2jpeg

MJPEG/AVI1 パケットを完全な JPEG/JFIF パケットに変換します。

MJPEG はその中で各映像フレームが本質的には JPEG 画像であるような 映像コーデックです。その個別のフレームをロスなしに抽出できます、 例えば

avconv -i ../some_mjpeg.avi -c:v copy frames_%d.jpg

あいにく、デコーディングのために必要となる DHT セグメントがないため、 これらのチャンクは不完全な JPEG 画像です。 http://www.digitalpreservation.gov/formats/fdd/fdd000063.shtml からの引用です:

Avery Lee が2001年に rec.video.desktop ニュースグループで以下のように コメントしています。"MJPEG、あるいは少なくとも MJPG fourcc を持つ AVI での MJPEG は、固定の – かつ*省略された* – ハフマンテーブルを持つ 制限つきの JPEG です。この JPEG では YCbCr 色空間でなくてはならず、 4:2:2 である必要があり、算術的でもプログレッシブでもない基本ハフマン エンコーディングを使わなくてはいけません. . . . 実際は MJPEG フレームを 抽出して通常の JPEG デコーダでデコードすることができますが、それらに DHT セグメントを前置しなくてはならず、さもないとそのデコーダがデータを どのように展開すればよいか分かりません。必要とされる正確なテーブルは OpenDML 仕様で与えられています。"

この bitstream フィルターは、完全に適切になった JPEG 画像を作るために、 (AVI1 ヘッダ ID を伝え、かつ DHT セグメントを欠いている)MJPEG ストリームから 抽出されたフレームのヘッダを手当てします。

avconv -i mjpeg-movie.avi -c:v copy -bsf:v mjpeg2jpeg frame_%d.jpg
exiftran -i -9 frame*.jpg
avconv -i frame_%d.jpg -c:v copy rotated.avi

14.7 mjpega_dump_header

14.8 movsub

14.9 mp3_header_compress

14.10 mp3_header_decompress

14.11 noise

14.12 remove_extradata

15 フィルターグラフの説明

フィルターグラフは結びつけられたフィルターの有向グラフです。サイクルを含んで いてもよく、フィルターの対の間で複数のリンクがあってもかまいません。 それぞれのリンクは、入力を受け取るフィルター側に結びつけられた1つの 入力パッドと、出力を受け取るフィルターに関係付けられた1つの出力パッドを 持ちます。

フィルターグラフの各フィルターはアプリケーションに登録されたフィルタークラスの インスタンスであり、このクラスはその機能とそのフィルターの入力および出力の パッドの数を定義します。

入力パッドを持たないフィルターは"ソース"と呼ばれ、出力パッドを持たないフィルターは "シンク"と呼ばれます。

15.1 フィルターグラフの構文

フィルターグラフはテキストでの表記を使って表現することができます。 この表記は avconv の ‘-filter’/‘-vf’ および ‘-filter_complex’ オプションや、avplay-vf オプションで認識され、 ‘libavfilter/avfiltergraph’ 内の avfilter_graph_parse()/avfilter_graph_parse2() 関数で定義されています。

フィルターチェーンは関係するフィルターの列からなり、それぞれ その列での直前のものに関係しています。フィルターチェーンは","で区切られた フィルター記述のリストで表現されます。

フィルターグラフはフィルターチェーンの列からなります。 フィルターチェーンの列は";"で区切られたフィルターチェーン記述のリストで 表現されます。

フィルターは次の形の文字列で表現されます: [in_link_1]...[in_link_N]filter_name=arguments[out_link_1]...[out_link_M]

filter_name は記述されるフィルターがインスタンスとなるフィルター クラスの名前で、プログラムに登録されているフィルタークラスの名前でなければ なりません。 フィルタークラスの名前には省略可能な文字列"=arguments"が 続きます。

arguments はフィルターのインスタンスを初期化するために 用いられるパラメータを含む文字列で、以下のフィルターの説明の中で 説明されています。

引数のリストは最初と最後を示す文字"’"を使ってクォートすることができ、 文字’\’でクォートされたテキスト内でこの文字をエスケープするために 使えます; さもなくば、引数の文字列は次の(集合"[]=;,"に属する)特殊文字 が出てくるところで終了するものと見なされます。

フィルターの名前と引数には省略可能なリンクラベルのリストが前や後ろに つきます。 リンクラベルによってフィルターの出力および入力パッドに関連付けられたリンクに 名前をつけることができます。前につくラベルが in_link_1 ... in_link_N ならフィルターの入力パッドに関連付けられ、後ろにつくラベル out_link_1 ... out_link_M は出力パッドに関連付けられます。

フィルターグラフに同じ名前の2つのリンクラベルが見つかる場合、 対応する入力および出力パッドの間のリンクが作成されます。

出力パッドにラベルがない場合、それは既定ではそのフィルターチェーンの 次のフィルターのラベルがない入力パッドにリンクされます。 例えばフィルターチェーンで:

nullsrc, split[L1], [L2]overlay, nullsink

となっていたら、split フィルターのインスタンスは2つの出力パッドを 持たなければならず、overlay フィルターのインスタンスは2つの入力パッドを 持ちます。split の最初の出力パッドは"L1"とラベルがついています。 2つ目の出力パッドは overlay の2つ目の入力パッドにリンクされます。 これらはどちらもラベルがついていません。

完全なフィルターチェーンでは全てのラベルのないフィルター入力および出力 パッドは結びついていなければなりません。フィルターグラフは、その全ての フィルターチェーンで全ての入力および出力パッドが結びついているときに 妥当と見なされます。

Libavfilter はフォーマット変換が必要な場合にスケールフィルターを自動的に 入れます。filtergraph の説明に sws_flags=flags; を先頭につけることで、これらの自動で挿入されるスケーラーに対する swscale フラグを指定できます。

以下はフィルターグラフの構文の BNF 記述です:

NAME             ::= 英数文字および '_' の列。
LINKLABEL        ::= "[" NAME "]"
NAME             ::= 英数文字および '_' の列
LINKLABEL        ::= "[" NAME "]"
LINKLABELS       ::= LINKLABEL [LINKLABELS]
FILTER_ARGUMENTS ::= 文字の列(最終的にクォートされる)
FILTER           ::= [LINKNAMES] NAME ["=" ARGUMENTS] [LINKNAMES]
FILTERCHAIN      ::= FILTER [,FILTERCHAIN]
FILTERGRAPH      ::= [sws_flags=flags;] FILTERCHAIN [;FILTERGRAPH]

16 音声フィルター

Libav ビルドを構成(configure)する際に、–disable-filters を使って 既存のフィルターをいずれも無効にすることができる。 構成の出力(configure output)にはそのビルドに含まれる音声フィルターが 表示されている。

以下は現時点で利用できる音声フィルターの説明である。

16.1 aformat

入力音声を指定されたフォーマットの1つに変換する。このフレームワークは 変換を最小限にするような最適な形式を折衝します。

このフィルターは次の名前のついたパラメーターを受け取ります:

sample_fmts

要求するサンプルフォーマットのカンマで区切られたリスト

sample_rates

要求するサンプルレートのカンマで区切られたリスト

channel_layouts

要求するチャンネルレイアウトのカンマで区切られたリスト

パラメーターが省略された場合、全ての値が許されます。

出力に符号無し8ビットあるいは符号付き16ビットステレオを強制する例:

aformat=sample_fmts\=u8\,s16:channel_layouts\=stereo

16.2 amix

複数の音声入力を単一の出力にまとめる。

例えば

avconv -i INPUT1 -i INPUT2 -i INPUT3 -filter_complex amix=inputs=3:duration=first:dropout_transition=3 OUTPUT

は3つの入力音声ストリームを、最初の入力と同じ時間長になるように1つの出力にまとめ、 3秒間のドロップアウト遷移時間を加える。

このフィルターは以下の名前のついたパラメーターを受け取る:

inputs

入力の数。指定されていなければ、既定では2。

duration

ストリームの末尾を決めるやり方。

longest

最長の入力の長さに揃える。(既定値)

shortest

最短の入力の長さに揃える。

first

最初の入力の長さに揃える。

dropout_transition

遷移時間、秒単位。入力ストリームが終わった際に音量を再正規化する。 既定値は2秒。

16.3 anull

音声ソースを変更せずに出力に渡す。

16.4 asplit

入力音声をいくつかの同一の出力に分割する。

このフィルターは出力の数を指定する1つのパラメーターを受け取る。 指定されていなければ、既定では2になる。

例えば

avconv -i INPUT -filter_complex asplit=5 OUTPUT

は入力音声の5つのコピーを作成する。

16.5 asyncts

必要なら、縮める/伸ばす/サンプルを落とす/無音サンプルを追加することによって、 音声データをタイムスタンプと同期する。

このフィルターは次の名前のついたパラメーターを受け取る:

compensate

タイムスタンプに合わせるようにデータの伸縮を有効にする。 既定では無効。無効の場合、時間ギャップは無音で埋められる。

min_delta

サンプルの追加/削除をうながすタイムスタンプと音声データの(秒単位の)最小差。 既定値は0.1。このフィルターによって完全でない同期になっていたら、このパラメーターを 0に設定して試すとよい。

max_comp

秒間のサンプルの伸縮の最大値。compensate=1のときのみ関係する。 既定値は500。

first_pts

最初の pts がこの値になるべきということを仮定する。 これによってストリームの開始時点でパディング/トリミングができる。既定では、 最初のフレームで pts がどのくらいかについてどのような仮定もなされないので、 パディングもトリミングもなされない。例えば、もし音声ストリームが映像ストリームの 後に開始するなら、これを0に設定することで無音状態で開始するようパッドできる。

16.6 channelsplit

入力音声ストリームの各チャンネルをを別々の出力ストリームに分割する。

このフィルターは以下の名前のついたパラメーターを受け取る:

channel_layout

入力ストリームのチャンネルレイアウト。既定では"stereo"。

例えば、ステレオの入力 MP3 ファイルを仮定すると

avconv -i in.mp3 -filter_complex channelsplit out.mkv

によって2つの音声ストリームを含む出力 Matroska ファイルを作成し、 1つは左チャンネルだけ含み、もう1つは右チャンネルだけ含む。

5.1 WAV ファイルをチャンネルごとのファイルに分割するには

avconv -i in.wav -filter_complex
'channelsplit=channel_layout=5.1[FL][FR][FC][LFE][SL][SR]'
-map '[FL]' front_left.wav -map '[FR]' front_right.wav -map '[FC]'
front_center.wav -map '[LFE]' lfe.wav -map '[SL]' side_left.wav -map '[SR]'
side_right.wav

16.7 channelmap

入力チャンネルを新しい場所にマップし直す。

このフィルターは以下の名前のついたパラメーターを受け取る:

channel_layout

出力ストリームのチャンネルレイアウト

map

入力から出力へのチャンネルをマップする。引数はカンマで区切られたマッピングのリストで、 それぞれが in_channel-out_channel または in_channel の 形をしている。in_channel は入力チャンネルの名前(例えば前方左なら FL)か、 入力チャンネルレイアウトでのインデックス。out_channel は出力チャンネルの 名前、または出力チャンネルレイアウトでのインデックス。out_channel が与え られていなければ、暗黙にゼロから始まりマッピングごとに1つずつ増えていくインデックス になる。

マッピングがあれば、このフィルターは入力チャンネルから出力チャンネルへ インデックスを保存するように暗黙にマッピングする。

例えば、5.1+downmix 入力 MOV ファイルを仮定すると

avconv -i in.mov -filter 'channelmap=map=DL-FL\,DR-FR' out.wav

で入力の downmix チャンネルからステレオとしてタグづけされた出力 WAV ファイルを 作成する。

AAC のネイティブチャンネルオーダーで誤ってエンコードされた 5.1 WAV を修正するには

avconv -i in.wav -filter 'channelmap=1\,2\,0\,5\,3\,4:channel_layout=5.1' out.wav

16.8 join

複数の入力ストリームを1つのマルチチャンネルストリームにまとめる

このフィルターは以下の名前のついたパラメーターを受け取る:

inputs

入力ストリームの数。既定では2。

channel_layout

希望する出力チャンネルレイアウト。既定ではステレオ。

map

入力から出力へのチャンネルをマップする。引数はカンマで区切られたマッピングのリストで、 それぞれが input_idx.in_channel-out_channel の形をしている。 input_idx は0から始まる入力ストリームのインデックス。in_channel は 入力チャンネルの名前(例えば前方左なら FL)、または指定された入力ストリームでのインデックス。 out_channel は出力チャンネルの名前。

このフィルターはマッピングが明示的に指定されていなければ推定しようとする。 まず利用されていない対応する入力チャンネルを探そうとし、それに失敗したら最初の 利用されていない入力チャンネルを選ぶ。

例えば、(適切にチャンネルレイアウトを設定して)3つの入力をまとめるには

avconv -i INPUT1 -i INPUT2 -i INPUT3 -filter_complex join=inputs=3 OUTPUT

6つの単一チャンネルのストリームから 5.1 出力を作るには:

avconv -i fl -i fr -i fc -i sl -i sr -i lfe -filter_complex
'join=inputs=6:channel_layout=5.1:map=0.0-FL\,1.0-FR\,2.0-FC\,3.0-SL\,4.0-SR\,5.0-LFE'
out

16.9 resample

音声サンプルフォーマット、サンプルレート、およびチャンネルレイアウトをを変換する。 このフィルターは直接利用することを意図したものではなく、libavfilter によって 変換が必要になったときに常に自動的に挿入される。特定の変換を強制するには aformat フィルターを使うこと。

17 音声ソース

以下は現在利用可能な音声ソースの説明である。

17.1 anullsrc

Null 音声ソース、音声フレームを一切返さない。これは主にテンプレートとして 有用であり、分析/デバッギングツールの中で用いるためのものである。

これは次の形をした文字列を省略可能なパラメータとして受け取る: sample_rate:channel_layout

sample_rate はサンプルレートを指定し、既定では 44100 とされる。

channel_layout チャンネルレイアウトを指定し、整数値または チャンネルレイアウトを表す文字列をとれる。channel_layout の既定の 値は3であり、CH_LAYOUT_STEREO に対応する。

文字列とチャンネルレイアウトの値との間のマッピングについては ‘libavcodec/audioconvert.c’ にある channel_layout_map の定義を 確認すること。

いくつかの例は以下の通り:

# サンプルレートを48000 Hz に、チャンネルレイアウトを CH_LAYOUT_MONO に設定する。
anullsrc=48000:4

# 同じく
anullsrc=48000:mono

17.2 abuffer

音声フレームをバッファし、フィルターチェーンで利用できるようにする。

このソースはユーザーが提供するグラフの表現の一部にすることを意図したものではなく、 ‘libavfilter/buffersrc.h’ で定義されたインターフェイスを通じてプログラムを 呼ぶことによって挿入される。

これは次の名前のついたパラメーターを受け取る:

time_base

提出されたフレームのタイムスタンプのために使われる時刻ベース。これは浮動小数点数か numerator/denominator の形でなければならない。

sample_rate

音声サンプルレート。

sample_fmt

サンプルフォーマットの名前、av_get_sample_fmt_name() で返されるもの。

channel_layout

音声データのチャンネルレイアウト、av_get_channel_layout() で受け取ることの できる形。

全てのパラメーターは明示的に定義されている必要がある。

18 音声シンク

以下は現在利用可能な音声シンクの説明である。

18.1 anullsink

Null 音声シンク、入力音声に対し全く何もしない。これは主にテンプレートとして 有用であり、分析/デバッギングツールで用いるためのものである。

18.2 abuffersink

このシンクはプログラムでの使用のためのものである。このシンクに逹っしたフレーム は ‘libavfilter/buffersink.h’ で定義されているインターフェイスを使った プログラムを呼び出すことによって取得できる。

このフィルターはパラメーターを受け取らない。

19 映像フィルター

Libav ビルドを構成(configure)する際に、–disable-filters を使って 既存の映像フィルターをいずれも無効にすることができる。 構成の出力(configure output)にはそのビルドに含まれる映像フィルターが 表示されている。

以下は現時点で利用できる映像フィルターの説明である。

19.1 blackframe

(ほぼ)真っ黒なフレームを検出する。章の変わり目やコマーシャルを検出 するのに有用となりうる。出力される行は検出されたフレームのフレーム数、 黒のパーセンテージ、(分かるなら)ファイルでの位置もしくは-1、および 秒単位でのタイムスタンプからなる。

出力される行を表示するには、ログレベルを少なくとも AV_LOG_INFO に 設定する必要がある。

このフィルターは次の構文を受け取る:

blackframe[=amount:[threshold]]

amount は閾値以下にならなくてはならないピクセルのパーセンテージであり、 既定では98になる。

threshold はピクセルの値がこれを下回ると黒と見なされる閾値であり、 既定では32になる。

19.2 boxblur

入力映像に boxblur アルゴリズムを適用する。

このフィルターは次のパラメーターを受け取る: luma_power:luma_radius:chroma_radius:chroma_power:alpha_radius:alpha_power

Chroma および alpha パラメーターは省略可能であり、指定されていない場合 luma_radius および luma_power で設定されている既定値になる。

luma_radiuschroma_radius、および alpha_radius は 対応する入力平面にブラーをかけるために使うボックスのピクセルでの半径を 表す。これらは式であり、以下の定数を含むことができる:

w, h

ピクセルでの入力幅と高さ

cw, ch

ピクセルでの chroma 入力幅と高さ

hsub, vsub

水平および垂直 chroma サブサンプル値。例えばピクセルフォーマット "yuv422p" なら hsub は2、vsub は1である。

半径は非負の数でなくてはならず、luma および alpha については 式 min(w,h)/2 を越えてはならず、chroma 平面の場合は min(cw,ch)/2 を越えてはならない。

luma_powerchroma_power、および alpha_power は 対応する平面に適用される boxblur フィルターを何回適用するかを 表す。

以下はいくつかの例:

19.3 copy

入力ソースを変更せずに出力にコピーする。 主にテストの目的のために有用である。

19.4 crop

入力映像を out_w:out_h:x:y に切り取る。

このパラメータは以下の定数を含む表現である:

E, PI, PHI

e(オイラー数)、pi(ギリシャ文字のパイ)、PHI(黄金比)それぞれ対応する数学的近似値

x, y

x および y についての計算された値。これらは各新しいフレームで 評価される。

in_w, in_h

入力の幅および高さ

iw, ih

in_w および in_h と同じ

out_w, out_h

出力の(切り取られた)幅および高さ

ow, oh

out_w および out_h と同じ

n

0から始まる入力フレームの数

pos

入力フレームのファイルの中での位置、不明なら NAN

t

秒で表されたタイムスタンプ、入力タイムスタンプが不明なら NAN

パラメータ out_w および out_h は出力の(切り取られた)映像の 幅および高さのための表現を指定する。これらはフィルターのコンフィグレーション の時点で評価される。

out_w の既定値は "in_w" であり、out_h の既定値は "in_h" である。

out_w のための表現は out_h の値に依存することがあり、 out_h のための表現は out_w に依存することがあるが、 x および y の値には依存しないはずである。なぜなら x および yout_w および out_h の後で 評価からである。

パラメータ x および y は出力の(切り取られていない)領域 の左上隅の位置のための表現を指定する。これらは各フレームについて 評価される。評価された値が妥当でなければ、最も近い妥当な値に近似 される。

x の既定の値は "(in_w-out_w)/2" であり、y の既定の値は "(in_h-out_h)/2" である。これは入力画像の中央に切り取られた領域を 設定することになる。

x のための表現は y に依存することがあり、y の ための表現は x に依存することがある。

いくつかの例は以下の通り:

# サイズ 100x100 で入力領域の中央を切り取る
crop=100:100

# 入力映像の 2/3 のサイズで入力領域の中央を切り取る
"crop=2/3*in_w:2/3*in_h"

# 入力映像の中央を正方形に切り取る
crop=in_h

# 左上隅の位置を 100:100、右下隅を入力映像の右下隅に合わせて
# 矩形の範囲を定める
crop=in_w-100:in_h-100:100:100

# 左右のボーダーから10ピクセルを切り取り、上下のボーダーから20ピクセルを
# 切り取る
"crop=in_w-2*10:in_h-2*20"

# 入力画像の右下4分の1のみを残す
"crop=in_w/2:in_h/2:in_w/2:in_h/2"

# 黄金分割になるように縦を切り取る
"crop=in_w:1/PHI*in_w"

# 震動効果
"crop=in_w/2:in_h/2:(in_w-out_w)/2+((in_w-out_w)/2)*sin(n/10):(in_h-out_h)/2 +((in_h-out_h)/2)*sin(n/7)"

# タイムスタンプに依存した不規則なカメラ効果
"crop=in_w/2:in_h/2:(in_w-out_w)/2+((in_w-out_w)/2)*sin(t*10):(in_h-out_h)/2 +((in_h-out_h)/2)*sin(t*13)"

# y の値に依存した x を設定する
"crop=in_w/2:in_h/2:y:10+10*sin(n/10)"

19.5 cropdetect

切り取るサイズを自動検出する。

切り取りに必要となるパラメータを計算し、ロギングのシステムを通じて推奨される パラメータを表示する。検出された寸法は入力映像の黒でない領域に対応する。

これは次の構文を受け取る:

cropdetect[=limit[:round[:reset]]]
limit

閾値、何もない(0)から全て(255)までを自由に選択することができる。 既定では24。

round

幅/高さが分割されるべき値、既定では16。 オフセットは自動的に映像の中心に調節される。 偶数の寸法のみ(4:2:2 の映像で必要となる)を得るには2を用いること。 たいていの映像コーデックでエンコーディングする際には16が最良。

reset

以前に検出された最大の映像領域をリセットし、現在の最適な 切り取り領域を検出し始めるのにどれだけのフレームを 過ぎてからにするかを決めるカウンター。 既定では0。

これはチャンネルのロゴが映像領域を歪ませる際に有用である。 0はリセットせず再生中に出てきた最大の領域を返すように 指示する。

19.6 drawbox

入力イメージに色付けされた箱を描く。

これは次の構文を受け取る:

drawbox=x:y:width:height:color
x, y

箱の左上隅を指定する。既定では0。

width, height

箱の幅および高さを指定する。0なら入力の幅および高さとして解釈される。 既定では0。

color

描く箱の色を指定する。(大文字小文字を区別しない)色の名前もしくは 列 0xRRGGBB[AA] をとりうる。

いくつかの例は以下の通り:

# 入力画像の縁に沿って黒い箱を描く
drawbox

# 50%の透明度の赤で箱を描く
drawbox=10:20:200:60:red@0.5"

19.7 drawtext

文字列のテキストまたは指定のファイルのテキストを libfreetype ライブラリ を使って映像の上に描画します。

このフィルターのコンパイルを有効にするには Libav を configure するときに --enable-libfreetype をつける必要があります。

またこのフィルターは strftime() 文字列を理解し、それに従って展開します。 strftime() のドキュメンテーションを確認してください。

このフィルターはf":" で区切られた key=value のペアのリストを パラメーターとして受け取ります。

受け取るパラメーターの説明は以下の通りです。

fontfile

テキストを描画するのに使うフォントファイルです。パスを含めなければ なりません。このパラメーターは必須です。

text

描画されるテキストの文字列です。テキストは UTF-8 でエンコードされた 文字の列でなければなりません。 パラメーター textfile でファイルが指定されていない場合、 このパラメーターは必須です。

textfile

描画されるテキストを含むテキストファイルです。テキストは UTF-8 で エンコードされた文字の列でなければなりません。

パラメーター text でテキストの文字列が指定されていない場合、 このパラメーターは必須です。

text と textfile が両方指定されている場合はエラーになります。

x, y

映像フレーム内でテキストが描画される場所の位置です。 出力画像の左上隅からの相対位置です。 これらは overlay フィルターに似た式を受け取ります:

x, y

x および y の計算された値です。これらは新しい各フレームで 評価されます。

main_w, main_h

主要な入力幅および高さ

W, H

main_w および main_h と同じ

text_w, text_h

レンダリングされる幅および高さ

w, h

text_w および text_h と同じ

n

処理されるフレームの番号、0から始まる

t

秒単位でのタイムスタンプ、入力タイムスタンプが分からなければ NAN

x および y の既定値は0です。

fontsize

テキストを描画するためのフォントサイズです。 fontsize の既定値は16です。

fontcolor

フォントを描画するための色です。 文字列(例えば "red")か 0xRRGGBB[AA] の形式(例えば"0xff000033") で省略可能なアルファ値つきの形です。 fontcolor の既定値は "black" です。

boxcolor

テキストの周囲にボックスを描画するための色です。 文字列(例えば "red")か 0xRRGGBB[AA] の形式(例えば"0xff000033") で省略可能なアルファ値つきの形です。 fontcolor の既定値は "white" です。

box

背景色を使ってテキストの周囲を描画するために用いられます。 値は 1 (有効) または 0 (無効)です。 box の既定値は 0 です。

shadowx, shadowy

テキストの影のためのテキストの位置からの x および y の相対位置です。 これらは正または負の値をとれます。 既定値はどちらも "0" です。

shadowcolor

描画されるテキストの後ろの影を描画するために用いられる色です。 文字列(例えば "red")か 0xRRGGBB[AA] の形式(例えば"0xff000033") で省略可能なアルファ値つきの形です。 shadowcolor の既定値は "black" です。

ft_load_flags

フォントを読み込むために用いられるフラグです。

これらのフラグは libfreetype でサポートされているフラグに対応し、 以下の値の組み合わせです:

default
no_scale
no_hinting
render
no_bitmap
vertical_layout
force_autohint
crop_bitmap
pedantic
ignore_global_advance_width
no_recurse
ignore_transform
monochrome
linear_design
no_autohint
end table

既定値は "render" です。

詳しくは libfreetype の FT_LOAD_* フラグについてのドキュメンテーションに あたってください。

tabsize

タブを描画するためのスペースの数の大きさです。 既定値は 4 です。

fix_bounds

true なら、クリッピングを避けるようテキストの座標を確認し固定します。

例えば、コマンド:

drawtext="fontfile=/usr/share/fonts/truetype/freefont/FreeSerif.ttf: text='Test Text'"

は "Test Text" を FreeSerif フォントで、省略可能なパラメーターは既定値を 使って描画します。

コマンド:

drawtext="fontfile=/usr/share/fonts/truetype/freefont/FreeSerif.ttf: text='Test Text':\
          x=100: y=50: fontsize=24: fontcolor=yellow@0.2: box=1: boxcolor=red@0.2"

は ’Test Text’ をサイズ 24 の FreeSerif フォントで(スクリーンの左上隅から) x=100 および y=50 の位置に、テキストを黄色、周囲のボックスを赤にして 描画します。テキストもボックスもどちらも 20% の透明度を持ちます。

パラメーターリストの中でスペースを使っていなければ、二重引用符はいらないという ことに注意してください。

libfreetype についてより詳しくは、以下を確認してください: http://www.freetype.org/.

19.8 fade

入力映像にフェードイン/フェードアウト効果を適用します。

これは次のパラメータを受け取ります: type:start_frame:nb_frames

type は効果の種類がフェードインなら "in"、フェードアウトなら "out" を指定します。

start_frame はフェード効果が適用される開始フレームの番号を指定 します。

nb_frames はフェード効果が持続しなくてはならないフレームの個数 を指定します。フェードイン効果の最後には出力映像は入力映像と同じ 度合いになり、フェードアウト遷移の最後には出力映像は完全に黒く なります。

以下はいくつかの使用例で、テストシナリオとしても有用です。

# 映像の最初の30フレームをフェードインします
fade=in:0:30

# 200フレームの映像で最後の45フレームをフェードアウトします
fade=out:155:45

# 1000フレームの映像で最初の25フレームをフェードインし、最後の25フレームをフェードアウトします
fade=in:0:25, fade=out:975:25

# 最初の5フレームを黒くし、5から24番フレームでフェードインします
fade=in:5:20

19.9 fieldorder

入力映像のフィールドオーダーを変換します。

このフィルターは、入力のインターレースされた映像を変換するために要求される フィールドオーダーを指定する単一のパラメーターを受け取ります。このパラメーターは 次の値のいずれかを取れます:

0 または bff

出力下部フィールドが先頭

1 または tff

出力上部フィールドが先頭

既定の値は "tff" です。

変換は1ラインずつ上もしくは下に画像内容をシフトし、かつ残りのラインに 適切な画像内容を充てることによって実現されます。 この手法は大抵のブロードキャストフィールドオーダー変換器と合っています。

入力映像にインターレースであるというフラグがない場合、または要求される 出力フィールドオーダーが与えられていれば、このフィルターはやってくる映像を 変更しません。

このフィルターは、下部フィールド先頭の PAL DV マテリアルを/へ変換する際に とても便利です。

例えば:

./avconv -i in.vob -vf "fieldorder=bff" out.dv

19.10 fifo

入力イメージをバッファし、かつ要求された時にそれらを送る。

このフィルターは主に libavfilter フレームワークによって自動的に 挿入される際に有用である。

このフィルターはパラメータを受け取らない。

19.11 format

入力映像を指定されたピクセル形式の1つに変換する。 Libavfilter は次のフィルターの入力にサポートされているうちの1つを 選択しようと試みる。

このフィルターは、例えば "yuv420p:monow:rgb24" のように、":" によって 区切られたピクセル形式名のリストを引数として受け取る。

以下にいくつかの例:

# 入力映像を形式 "yuv420p" に変換する
format=yuv420p

# 入力映像をリストにあるいずれかの形式に変換する
format=yuv420p:yuv444p:yuv410p

19.12 fps

フレームを必要に応じて重複させたり削除したりすることにより、映像を特定の コンスタントフレームレートに変換する。

このフィルターは以下の名前のついたパラメーターを受け取る:

fps

希望する出力フレームレート

19.13 frei0r

入力映像に frei0r 効果を適用する。

このフィルターのコンパイルを有効にするには、frei0r ヘッダをインストール し、–enable-frei0r とともに Libav を configure すること。

このフィルターは次の構文をサポートする:

filter_name[{:|=}param1:param2:...:paramN]

filter_name はロードする frei0r 効果の名前である。環境変数 FREI0R_PATH が定義されていれば、FREIOR_PATH の中のコロンで 区切られたリストで指定されたディレクトリのいずれかから frei0r 効果が 探索され、さもなくば次の順番で標準的な frei0r のパスから探索される: ‘HOME/.frei0r-1/lib/’、‘/usr/local/lib/frei0r-1/’、 ‘/usr/lib/frei0r-1/’。

param1param2、...、paramN はその frei0r 効果に対する パラメータを指定する。

frei0r 効果のパラメータはブール値(その値は "y" および "n" で指定される)、 倍精度浮動小数点数、色(R/G/B という構文で指定される、ただし RG、および B は 0.0 から 1.0 までの浮動小数点数、または av_parse_color() の色の記述によって指定される)、位置(X/Y という構文で指定される、ただし XY は浮動小数点数)、および 文字列を取ることができる。

パラメータの数と種類はロードされる効果に依存する。効果のパラメータが 指定されていなければ、既定値が設定される。

以下はいくつかの例:

# distort0r 効果を適用、最初の2つの倍精度浮動小数点数パラメータを設定
frei0r=distort0r:0.5:0.01

# colordistance 効果を適用、最初のパラメータとして色をとる
frei0r=colordistance:0.2/0.3/0.4
frei0r=colordistance:violet
frei0r=colordistance:0x112233

# perspective 効果を適用、画像位置の左上と右上を指定
frei0r=perspective:0.2/0.2:0.8/0.2

さらなる情報については以下を見ること: http://piksel.org/frei0r

19.14 gradfun

フラットに近い領域を8ビット色深度に切り捨てたときにときどき生じる帯状の アーティファクトを修正します。 帯があるところにあるべき変化を補間し、それらをぼやかします。

このフィルターは再生のためのみに設計されています。ロスのある圧縮より前に これを使わないでください。圧縮はぼやかしを失くし帯を取り戻していまいがち だからです。

このフィルターは’:’で区切られた2つの省略可能なパラメータを受け取ります: strength:radius

strength はこのフィルターが1つのピクセルで変更できる最大の量です。 またフラットに近い領域を検出する閾値でもあります。 .51から255までの値をとることができ、既定では1.2で、範囲外の値は妥当な値に 切り詰められます。

radius は変化が適用される近傍です。より大きな半径にするとより スムーズな変化になりますが、同時にこのフィルターがより詳細な領域の近くにある ピクセルを変更するのを妨げます。取れる値は8-32で、既定では16です。 範囲外の値は妥当な値に切り詰められます。

# 既定のパラメータ
gradfun=1.2:16

# 半径を省略
gradfun=1.2

19.15 hflip

入力映像を水平方向に反転させる。

例えば avconv で入力の映像を水平方向に反転させるには:

avconv -i in.avi -vf "hflip" out.avi

19.16 hqdn3d

高精度/品質 3d ノイズ除去フィルター。このフィルターは画像ノイズを減らすことで 滑らかな画像を生成し静止画像を本当に静止させることを目指している。 それによって圧縮可能性が高まるはずである。

以下の省略可能なパラメータを受け取る: luma_spatial:chroma_spatial:luma_tmp:chroma_tmp

luma_spatial

空間 luma 強度を指定する非負の浮動小数点数、 既定では4.0

chroma_spatial

空間 chroma 強度を指定する非負の浮動小数点数、 既定では3.0*luma_spatial/4.0

luma_tmp

luma 時間強度を指定する浮動小数点数、既定では 6.0*luma_spatial/4.0

chroma_tmp

chroma 時間強度を指定する浮動小数点数、既定では luma_tmp*chroma_spatial/luma_spatial

19.17 noformat

次のフィルターの入力に指定されたピクセル形式のいずれも使わないように libavfilter に強制する。

このフィルターは、例えば "yuv420p:monow:rgb24" のように、":" で区切られた ピクセル形式名のリストを引数として受け取る。

以下はいくつかの例:

# "yuv420p" と異なる形式のどれかを使って vflip フィルターに
# 入力するように libavfilter に強制する
noformat=yuv420p,vflip

# 入力映像をリストにある形式以外の形式に変換する
noformat=yuv420p:yuv444p:yuv410p

19.18 null

映像ソースを変更せずに出力に渡す。

19.19 ocv

libopencv を使って映像変換をほどこす。

このフィルターを有効にするには libopencv ライブラリとヘッダをインストールし Libav を –enable-libopencv で configure すること。

このフィルターは次のパラメータを受け取る: filter_name{:=}filter_params.

filter_name は適用する libopencv フィルターの名前である。

filter_params は libopencv フィルターに渡すパラメータを指定する。 指定されていなければ既定の値が仮定される。

より正確な情報については公式の libopencv の文書を参照すること: http://opencv.willowgarage.com/documentation/c/image_filtering.html

以下に対応している libopencv フィルターのリストが続く。

19.19.1 dilate

特定の構成要素を使ってイメージを膨らませる。 このフィルターは libopencv 関数 cvDilate に対応する。

これはパラメータを受け取る: struct_el:nb_iterations

struct_el は構成要素を表し、次の構文をとる: colsxrows+anchor_xxanchor_y/shape

cols および rows は構成要素の列と行の数を表し、 anchor_x および anchor_y はアンカーポイント、そして shape は構成要素の形状を表し、値として "rect"、"cross"、"ellipse"、"custom" のうちの1つをとる。

shape の値が "custom" なら、"=filename"の形の文字列が 続かなくてはならない。名前 filename を持つファイルはバイナリイメージを 表すと仮定され、各印字可能な文字は明るいピクセルに対応する。custom shape が使われる際、colsrows は無視され、代わりに 列と行の数は読み込まれるファイルにあるものと仮定される。

struct_el の既定値は"3x3+0x0/rect"である。

nb_iterations はイメージに適用される変換の回数を指定し、 既定では1である。

以下にいくつかの例:

# 既定値を使う
ocv=dilate

# 構成要素を使って 5x5 クロスに膨らませ、2回繰り返す
ocv=dilate=5x5+2x2/cross:2

# 形状をファイル diamond.shape から読み、2回繰り返す
# このファイル diamond.shapeには次のような文字のパターンが含まれている:
#   *
#  ***
# *****
#  ***
#   *
# 指定されている cols と rows は無視される(しかしアンカーポイント座標は無視されない)
ocv=0x0+2x2/custom=diamond.shape:2

19.19.2 erode

特定の構成要素を使ってイメージを侵食する。 このフィルターは libopencv 関数 cvErode に対応する。

このフィルターはパラメータを受け取る: struct_el:nb_iterations、 これは dilate フィルターと同じ意味を持ち同じように使われる。

19.19.3 smooth

入力映像をスムーズにする。

このフィルターは次のパラメータをとる: type:param1:param2:param3:param4.

type はほどこすスムーズフィルターの種類で、次の値のいずれかをとる: "blur"、"blur_no_scale"、"median"、"gaussian"、"bilateral"。 既定値は "gaussian"。

param1param2param3、および param4 は スムーズの種類に応じてその意味が変わるパラメータである。 param1param2 は正の整数値または0を受け取り、param3param4 は浮動小数点数値を受け取る。

param1 に対する既定値は3で、その他のパラメータについての既定値は 0である。

これらのパラメータは libopencv 関数 cvSmooth に割り当てられている パラメータに対応する。

19.20 overlay

映像を別の映像の上に重ねる。

これは2つの入力と1つの出力をとる。最初の入力は"主な"映像で、その上に 2番目の入力が重ねられる。

受け取るパラメータは: x:y

x は主な映像の上に重ねられる映像の x 座標。 y は y 座標。これらのパラメータは下記のパラメータを含むような 式である:

main_w, main_h

主な入力の幅と高さ

W, H

main_w および main_h と同じ

overlay_w, overlay_h

重ねる入力の幅と高さ

w, h

overlay_w および overlay_h と同じ

各入力映像から取られるフレームはタイムスタンプの順であることを意識すること。 したがって、それらの初期タイムスタンプが異なるなら、setpts=PTS-STARTPTS フィルターに通し、それらが同じゼロタイムスタンプから始まるようにして (movie フィルターの例で行っているように )2つの入力を渡すことは 良い考えである。

いくつかの例:

# 主な映像の右下隅から10ピクセルのところに
# 重ねて描画する
overlay=main_w-overlay_w-10:main_h-overlay_h-10

# 入力の左下隅に透過 PNG ロゴを挿入する
avconv -i input -i logo -filter_complex 'overlay=10:main_h-overlay_h-10' output

# 2つの異なる透過 PNG ロゴを挿入する(2番目のロゴは
# 右下隅):
avconv -i input -i logo1 -i logo2 -filter_complex
'overlay=10:H-h-10,overlay=W-w-10:H-h-10' output

# 主な映像の上部に透過色レイヤーを加える、
# WxH は overlay フィルターに主な入力のサイズを指定する
color=red.3:WxH [over]; [in][over] overlay [out]

さらに多くの重ねを繋げることは可能だが、そういったアプローチの 効率は試験中である。

19.21 pad

入力画像に対してパディングを加え、元の入力を与えられた座標 x, y に配置する。

次のようなパラメータを受け取る: width:height:x:y:color

パラメータ widthheightx、および y は以下の 定数を含んだ式です:

E, PI, PHI

e (自然対数の底)、pi (円周率)、phi (黄金比)に対応する数学的近似値

in_w, in_h

入力映像の幅および高さ

iw, ih

in_w および in_h と同じ

out_w, out_h

出力の幅および高さ、width および height 式によって指定されたパディングされた 領域の大きさ

ow, oh

out_w および out_h と同じ

x, y

x および y 式によって指定された x および y オフセット、 指定されていなければ NAN

a

入力画像アスペクト比、iw / ih と同じ

hsub, vsub

水平および垂直クローマサブサンプル値。例えばピクセル形式 "yuv422p" なら hsub は2で vsub は1。

受け取るパラメータの説明は以下の通り。

width, height

パディングを加えた出力画像のサイズを指定する。width または height としての値が0の場合、対応する入力サイズが出力として 用いられる。

width 式は height 式によって設定された値を参照すること ができ、逆も可能です。

width および height の既定値は0。

x, y

出力画像の左上隅を基準にして、パディング領域における入力画像を 配置するのオフセットを指定する。

x 式は y 式によって設定された値を参照すること ができ、逆も可能です。

x および y の既定値は0。

color

パディング領域の色を指定する。色の名前もしくは 0xRRGGBB[AA] 数列を とりうる。

color の既定値は "black"。

いくつかの例:

# パディングを色 "violet" にして入力映像に追加する。
# 出力映像のサイズは640x480で、
# 列0、行40に入力映像の左上隅が配置される。
pad=640:480:0:40:violet

# 入力を出力の大きさが 3/2 に増えるようにパディングし
# パディング領域の中央に入力映像を配置する
pad="3/2*iw:3/2*ih:(ow-iw)/2:(oh-ih)/2"

# 入力をその幅と高さのうち大きい方のサイズの正方形になるよう
# 出力し、# パディング領域の中央に入力映像を配置する
pad="max(iw\,ih):ow:(ow-iw)/2:(oh-ih)/2"

# 最終的な w/h 比が16:9になるように入力をパディングする
pad="ih*16/9:ih:(ow-iw)/2:(oh-ih)/2"

# 出力サイズを2倍にし、入力映像を出力パディング領域の右下隅に
# 配置する
pad="2*iw:2*ih:ow-iw:oh-ih"

19.22 pixdesctest

ピクセル形式記述子テストフィルター、主に内部的なテストに有用。 出力映像は入力映像に等しくなるはずである。

例えば:

format=monow, pixdesctest

として monowhite ピクセル形式記述子定義をテストするために用いることができる。

19.23 scale

入力映像を width:height に拡縮し、かつ/または画像形式を変換する。

パラメータ width および height は以下の定数を含む式:

E, PI, PHI

e (自然対数の底)、pi (円周率)、phi (黄金比)に対応する数学的 近似値

in_w, in_h

入力の幅および高さ

iw, ih

in_w および in_h と同じ

out_w, out_h

(切り取られた)出力の幅および高さ

ow, oh

out_w および out_h と同じ

dar, a

入力画面アスペクト比、iw / ih と同じ

sar

入力のサンプルアスペクト比

hsub, vsub

水平および垂直クローマサブサンプル値。例えばピクセル形式 "yuv422p" なら hsub は2で vsub は1。

は入力映像を200x100のサイズに拡縮する。

入力画像形式が次のフィルターが要求しているものと異なるなら、 この scale フィルターは入力を要求されている形式に変換する。

width または height の値が0なら、出力には対応する 入力サイズが用いられる。

width または height の値が-1なら、それぞれの出力サイズについて、 この scale フィルターは入力画像の縦横比を維持する値を用いる。

widthheight の既定の値は0。

いくつかの例:

# 入力映像をサイズ 200x100 に拡大縮小します
scale=200:100

# 入力を2倍に拡大します
scale=2*iw:2*ih
# 上は以下と同じです
scale=2*in_w:2*in_h

# 入力を半分のサイズに縮小します
scale=iw/2:ih/2

# 幅を増やし、高さを同じサイズに設定します
scale=3/2*iw:ow

# 黄金比で調和させます
scale=iw:1/PHI*iw
scale=ih*PHI:ih

# 高さを増やし、幅を高さの3/2に設定します
scale=3/2*oh:3/5*ih

# 大きさを増やしますが、クローマの倍数の大きさにします
scale="trunc(3/2*iw/hsub)*hsub:trunc(3/2*ih/vsub)*vsub"

# 500ピクセルを上限に幅を増やし、入力アスペクト比は保ちます
scale='min(500\, iw*3/2):-1'

19.24 select

出力で渡すフレームを選択します

入力として1つの式を受け取り、この式は各入力フレームで評価されます。 もし式が評価された結果0以外の値になると、そのフレームは選択され 出力に渡ります。そうでなければそのフレームは捨てられます。

式には以下の定数を含めることができます:

PI

円周率

PHI

黄金律

E

自然対数の底

n

フィルターされるフレームの番号、0から始まる

selected_n

選択されたフレームの番号、0から始まる

prev_selected_n

最後に選択されたフレームの番号、未定義なら NAN

TB

入力タイムスタンプの時間単位

pts

フィルターされる映像フレームの PTS (プレゼンテーションタイムスタンプ)、 TB の単位で表現される。未定義なら NAN

t

フィルターされる映像フレームの PTS (プレゼンテーションタイムスタンプ)、 秒単位で表現される。未定義なら NAN

prev_pts

1つ前のフィルターされた映像フレームの PTS、未定義なら NAN

prev_selected_pts

1つ前に選択された映像フレームの PTS、未定義なら NAN

prev_selected_t

1つ前に選択された映像フレームの PTS、未定義なら NAN

start_pts

その映像のうち最初の映像フレームの PTS、未定義なら NAN

start_t

その映像のうち最初の映像フレームの時刻、未定義なら NAN

pict_type

フィルターされるフレームの種類、以下の値のうちの1つであると 考えてよい:

I
P
B
S
SI
SP
BI
interlace_type

フレームのインターフェイスの種類、以下の値のうちの1つであると 考えてよい:

PROGRESSIVE

フレームが(インターレースでなく)プログレッシブ

TOPFIRST

フレームがトップフィールド先頭

BOTTOMFIRST

フレームがボトムフィールド先頭

key

フィルターされるフレームがキーフレームなら1、さもなくば0

pos

フィルターされるフレームのファイルでの位置、その情報が利用できなければ (例えば、統合されている映像)-1

select 式の既定値は"1"です。

以下はいくつかの例です:

# 入力された全てのフレームを選択する
select

# 同上:
select=1

# 全てのフレームをスキップする:
select=0

# I-フレームだけを選択する
select='eq(pict_type\,I)'

# 100ごとに1つフレームを選択する
select='not(mod(n\,100))'

# 10から20までの時間内に含まれるフレームだけを選択する
select='gte(t\,10)*lte(t\,20)'

# 10から20までの時間内に含まれるIフレームだけを選択する
select='gte(t\,10)*lte(t\,20)*eq(pict_type\,I)'

# 10秒以上間隔を空けてフレームを選択する
select='isnan(prev_selected_t)+gte(t-prev_selected_t\,10)'

19.25 setdar

フィルター出力映像に画面アスペクト比を設定する。

これは指定されたサンプル(ピクセル)アスペクト比を変更することによって実現され、 以下の等式による: DAR = HORIZONTAL_RESOLUTION / VERTICAL_RESOLUTION * SAR

このフィルターがビデオフレームのピクセルのディメンションを変更しないこと に注意すること。またこのフィルターによって設定された画面アスペクト比は フィルターチェーンのより後の方にあるフィルターによって変更されるかもしれない、 例えば、スケーリングされたり、他の "setdar" や "setsar" フィルターが適用 されている場合など。

このフィルターは望みの画面アスペクト比を表すパラメータの文字列を 受け取る。 このパラメータは浮動小数点数の文字列か、num:den の形をした式を 取り得る。ただし numden はアスペクト比の分子と分母 である。 パラメータが指定されていなければ、値 "0:1" が仮定される。

例えば、画面アスペクト比を 16:9 に変えるには、以下を指定する:

setdar=16:9
# 上は以下と同等:
setdar=1.77777

setsar フィルターのドキュメンテーションも参照すること。

19.26 setpts

入力映像フレームの PTS (プレゼンテーションタイムスタンプ)を変更する。

eval API を通じて評価される式を入力として受け取ります。以下の定数を 含めることができる。

PTS

入力のプレゼンテーションタイムスタンプ

PI

ギリシャ文字のパイ

PHI

黄金比

E

自然対数の底

N

0から始まる入力フレームのカウント

STARTPTS

最初の映像フレームの PTS

INTERLACED

現在のフレームがインターレースされているかどうか

POS

フレームのファイルでの本来の位置、現在のフレームについて定義されていなければ 不定。

PREV_INPTS

直前の入力 PTS

PREV_OUTPTS

直前の出力 PTS

いくつかの例:

# 0から PTS を数え始める
setpts=PTS-STARTPTS

# ファーストモーション
setpts=0.5*PTS

# スローモーション
setpts=2.0*PTS

# 固定レート 25 fps
setpts=N/(25*TB)

# 固定レート 25 fps および多少の揺れ
setpts='1/(25*TB) * (N + 0.05 * sin(N*2*PI/25))'

19.27 setsar

フィルター出力映像のサンプル(ピクセル)アスペクト比を設定する。

このフィルターを適用する結果として、出力の画面アスペクト比も以下の 等式にしたがって変更される: DAR = HORIZONTAL_RESOLUTION / VERTICAL_RESOLUTION * SAR

このフィルターで設定されたサンプルアスペクト比は、フィルターチェーンの より後の方にあるフィルターによって変更されるかもしれない、例えば 他の "setsar" や "setdar" が適用されることによって。

このフィルターは望みのサンプルアスペクト比を表すパラメータの文字列を 受け取る。 このパラメータは浮動小数点数の文字列か、num:den の形をした 文字列である。ただし num および den はアスペクト比の 分子と分母である。 このパラメータが指定されていなければ、値 "0:1" が仮定される。

例えば、サンプルアスペクト比を 10:11 に変更するには、以下を指定すること:

setsar=10:11

19.28 settb

出力フレームのタイムスタンプに用いる timebase を設定する。 主に timebase の構成をテストするために便利である。

入力に有理数を表す算術表現をとる。この表現には定数 "PI"、"E"、"PHI"、"AVTB"(既定の timebase)および "intb"(入力の timebase) を含めることができる。

入力のための既定の値は "intb"。

以下にいくつか例を挙げる。

# timebase を1/25にする
settb=1/25

# timebase を1/10にする
settb=0.1

# timebase を1001/1000にする
settb=1+0.001

# timebase を intb の2倍にする
settb=2*intb

# 既定の timebase の値にする
settb=AVTB

19.29 showinfo

各入力映像フレームについてのいろいろな情報を含む行を表示する。 入力映像は変更されない。

表示される行は key:value の形をしたキー/値の組の列を 含む。

表示される各パラメーターの説明は以下のとおり:

n

その入力フレームの番号、0から始まる

pts

その入力フレームのプレゼンテーションタイムスタンプ、時刻の基本単位の 数字として表現される。時刻の基本単位はフィルター入力パッドに依存する。

pts_time

その入力フレームのプレゼンテーションタイムスタンプ、秒単位の数字として 表現される

pos

入力ストリームでのそのフレームの位置、この情報が得られない、もしくは 意味がない(例えば合成映像の)場合は-1

fmt

ピクセルフォーマットの名前

sar

その入力フレームのサンプルアスペクト比、num/den の形で 表現される

s

その入力フレームのサイズ、widthxheight の形で 表現される

i

インターレースのモード("プログレッシブ" なら "P"、トップフィールドが先頭なら "T"、ボトムフィールドが先頭なら "B")

iskey

そのフレームがキーフレームなら1、さもなくば0

type

その入力フレームの画像の種類(I-フレーム なら "I"、P-フレームなら "P"、 B-フレームなら "B"、不明な種類なら "?")。 AVPictureType の enum、および ‘libavutil/avutil.h’ で 定義されている av_get_picture_type_char 関数のドキュメンテーションも 確認すること。

checksum

その入力フレームの全ての平面の Adler-32 チェックサム

plane_checksum

その入力フレームの各平面の Adler-32 チェックサム、"[c0 c1 c2 c3]" の形で表現される

19.30 slicify

入力映像のイメージを複数のスライスとして次の映像フィルターに 渡す。

./avconv -i in.avi -vf "slicify=32" out.avi

このフィルターはスライスの高さをパラメーターとして受け取る。 このパラメーターが指定されていなければ、16という既定値を使う。

フィルターの連鎖の最初にこれを追加すると、メモリーキャッシュを より良く使ってフィルタリングがより速くなる。

19.31 split

入力映像をいくつかの同一の出力に分けます。

このフィルターは出力の数を指定するための1つのパラメーターを受け取ります。 指定されていなければ、既定では2です。

例えば

avconv -i INPUT -filter_complex split=5 OUTPUT

は入力映像の5つのコピーを作成します。

19.32 transpose

入力映像で行を列で置き換え、場合によっては反転させる。

これは整数値を表す1つのパラメータを受け取り、それは以下の値を 仮定します:

0

90°反時計回りに回転し、かつ垂直に反転する(既定値)、つまり:

L.R     L.l
. . ->  . .
l.r     R.r
1

90°時計回りに回転する、つまり:

L.R     l.L
. . ->  . .
l.r     r.R
2

90°反時計回りに回転する、つまり:

L.R     R.r
. . ->  . .
l.r     L.l
3

90°時計回りに回転し、かつ垂直に反転する、つまり:

L.R     r.R
. . ->  . .
l.r     l.L

19.33 unsharp

入力映像をシャープにする、またはぼやけさせる。

次のパラメータを受けつける: luma_msize_x:luma_msize_y:luma_amount:chroma_msize_x:chroma_msize_y:chroma_amount

量を負の値にすると入力映像をぼやけさせ、正の値にするとシャープにする。 全てのパラメータは省略可能であり、既定の値は文字列 ’5:5:1.0:5:5:0.0’ と 同等である。

luma_msize_x

luma matrix 水平サイズを設定する。3から13までの整数で、 既定値は5。

luma_msize_y

luma matrix 垂直サイズを設定する。3から13までの整数で、 既定値は5。

luma_amount

luma effect 強度を設定する。-2.0から5.0までの浮動小数点数で、 既定値は1.0。

chroma_msize_x

chroma matrix 水平サイズを設定する。3から13までの整数で、 既定値は5。

chroma_msize_y

chroma matrix 垂直サイズを設定する。3から13までの整数で、 既定値は5。

chroma_amount

chroma effect 強度を設定する。-2.0から5.0までの浮動小数点数で、 既定値は0.0。

# luma sharpen effect パラメータを強くする
unsharp=7:7:2.5

# luma および chroma パラメータを両方強くぼやけさせる
unsharp=7:7:-2:7:7:-2

# avconv とともに既定値を使う
./avconv -i in.avi -vf "unsharp" out.mp4

19.34 vflip

入力映像を垂直に反転する。

./avconv -i in.avi -vf "vflip" out.avi

19.35 yadif

入力映像のインターレースを外す(yadif は "yet another deinterlacing filter" である)。

これは省略可能なパラメータを受け取る: mode:parity:auto

mode は採用するインターレースのモードを指定する、以下の値の1つを 受け取る:

0

各フレームについて1フレームを出力

1

各フィールドについて1フレームを出力

2

0と同じだが空間的インターレースチェックをスキップする

3

1と同じだが空間的インターレースチェックをスキップする

既定値は0。

parity は入力のインターレースされる映像に対して仮定される ピクチャーフィールドパリティを指定する:

0

上部フィールドが最初と仮定

1

下部フィールドが最初と仮定

-1

自動検出を有効にする

既定値は-1。 インターレースが不明だったりデコーダがこの情報をエクスポートしていない場合、 「上部フィールドが先頭」を仮定する。

auto はデインターレーサーがインターレーストフラグを信用し、インターレース されているとマークされているフレームだけをデインターレースするかどうかを指定する

0

全てのフレームをデインターレースする

1

インターレーストとマークされているフレームだけをデインターレースする

既定値は0。

20 映像ソース

以下が現在利用できる映像ソースの説明です。

20.1 buffer

映像フレームをバッファし、かつそれらをフィルターチェーンで利用できるようにします。

このソースは主にプログラミング用に、特に ‘libavfilter/vsrc_buffer.h’ で定義されているインターフェイスを通じて使うことを意図されています。

これは次のパラメータを受け取ります: width:height:pix_fmt_string:timebase_num:timebase_den:sample_aspect_ratio_num:sample_aspect_ratio.den

全てのパラメータが明示的に定義される必要があります。

以下が受け取るパラメータのリストです。

width, height

バッファされる映像フレームの幅と高さを指定します。

pix_fmt_string

バッファされる映像フレームのピクセルフォーマットを表す文字列です。 あるピクセルフォーマットの対応する数字、もしくはピクセルフォーマットの 名前になります。

timebase_num, timebase_den

バッファされたフレームのタイムスタンプによって仮定される timebase の分子と分母を指定します。

sample_aspect_ratio.num, sample_aspect_ratio.den

映像フレームに仮定されるサンプルアスペクト比の分子および分母を 指定します。

例えば:

buffer=320:240:yuv410p:1:24:1:1

とすると、サイズが320x240で、フォーマットが"yuv410p"、タイムスタンプの timebase として1/24を仮定し、正方形のピクセル(1:1 のサンプルアスペクト比)の映像フレーム を受け取るソースを指示します。 名前"yuv410p"をもつピクセルフォーマットは数字6に対応する (‘libavutil/pixfmt.h’ にある enum AVPixelFormat の定義を確認してください) ので、この例は次と同じです:

buffer=320:240:6:1:24

20.2 color

一様に色付けされた入力を提供します。

これは次のようなパラメータを受け取ります: color:frame_size:frame_rate

受け取るパラメータの説明は以下の通りです。

color

ソースの色を指定します。色の名前(大文字小文字を区別しないマッチ)か アルファ値の指定を最後につけることができる 0xRRGGBB[AA] の形の列です。 既定の値は"black"です。

frame_size

ソースとなる映像のサイズを指定します。widthxheight という 形の文字列か、サイズの略称となる名前になります。 既定の値は"320x240"です。

frame_rate

ソースとなる映像のフレームレートを指定します。秒間に生成されるフレーム数 です。frame_rate_num/frame_rate_denという形の文字列か、 整数、浮動点数小数、または適切な映像フレームレートの略称です。 既定の値は"25"です。

例えば、以下のグラフ描写は透明度0.2をもつ赤のソースで、サイズ"qcif"、 フレームレートを10パーセカンドを生成します。そして識別子"in"をもつ 詰めものに結び付けられたソースの上にそれがオーバーレイされます。

"color=red@0.2:qcif:10 [color]; [in][color] overlay [out]"

20.3 movie

動画コンテナから映像ストリームを読み取ります。

このソースは標準入力のパスをバイパスするハックであることに注意してください。 任意のフィルターグラフをサポートしていないアプリケーションで有用になりますが、 サポートしているアプリケーションでは推奨されません。特に avconv では このフィルターは使うべきでなく、‘-filter_complex’ オプションが完全に これを置き換えます。

次の構文を受け取ります: movie_name[:options]、 ただし movie_name は読み取るリソースの名前(必ずしもファイルで なくてもよく、デバイスや何らかのプロトコルでアクセスできるストリーム もあり得ます)で、options は省略可能で、":"で区切られた key=value というペアの列です。

以下は受け取れるオプションの説明です。

format_name, f

読み取る動画がもっているはずの形式を指定します。コンテナまたは 入力デバイスの名前になります。指定されていなければ、その形式は movie_name または中身を調べることで推測されます。

seek_point, sp

秒単位でのシークポイントを指定します。フレームはこのシークポイント から出力が開始され、パラメータは av_strtod によって評価 されるので数値のあとに IS 接尾辞をつけることができます。 既定の値は"0"です。

stream_index, si

読み取る映像ストリームのインデックスを指定します。この値が-1なら、 最適な映像ストリームが自動的に選択されます。既定の値は"-1"です。

このフィルターによって、以下に示すフィルターグラフの主な入力の上に第2の 映像を重ねることができます:

input -----------> deltapts0 --> overlay --> output
                                    ^
                                    |
movie --> scale--> deltapts1 -------+

以下はいくつかの例です:

# avi ファイル in.avi の最初から3.2秒スキップし、それを
# "in"とラベルがついた入力の上に重ねます。
movie=in.avi:seek_point=3.2, scale=180:-1, setpts=PTS-STARTPTS [movie];
[in] setpts=PTS-STARTPTS, [movie] overlay=16:16 [out]

# video4linux2 デバイスから読み取り、それを"in"とラベルがついた
# 入力の上に重ねます。
movie=/dev/video0:f=video4linux2, scale=180:-1, setpts=PTS-STARTPTS [movie];
[in] setpts=PTS-STARTPTS, [movie] overlay=16:16 [out]

20.4 nullsrc

Null 映像ソースは画像を一切返しません。主にテンプレートとして有用で、 分析やデバッギングのツールで使われるものです。

省略可能なパラメータとして width:height:timebase という形の文字列を受け取ります。

widthheight は設定されるソースの大きさを指定します。 widthheight の既定値は(CIF サイズ形式に対応して) それぞれ352と288です。

timebase は timebase を表す算術表現を指定します。この表現には 定数 "PI"、"E"、"PHI"、"AVTB"(既定の timebase)を含めることができ、 既定では値 "AVTB" になります。

20.5 frei0r_src

frei0r ソースを提供します。

このフィルターのコンパイルを有効にするには、frei0r ヘッダをインストールし Libav を –enable-frei0r つきで configure する必要があります。

このソースは次の構文をサポートします:

size:rate:src_name[{=|:}param1:param2:...:paramN]

size は生成される映像のサイズで、widthxheight の形の 文字列か、フレームサイズの略語です。 rate は生成される映像のレートで、num/den の形の 文字列か、フレームレートの略語です。 src_name はロードされる frei0r ソースの名前です。frei0r に関する 更なる情報やどのようにパラメータを設定するかについては、映像フィルターの説明にある セクション frei0r を読んでください。

いくつかの例:

# frei0r partik0l ソースをサイズ 200x200 およびフレームレート10で生成し、
# overlay フィルターの主な入力の上に重ねる。
frei0r_src=200x200:10:partik0l=1234 [overlay]; [in][overlay] overlay

20.6 rgbtestsrc, testsrc

rgbtestsrc ソースは RGB 対 BGR の問題を検出するのに便利な RGB テストパターンを生成します。上から下へ赤、緑、青の縞模様が 見えるはずです。

testsrc はテスト映像パターンを生成し、それは色のパターン、 スクロールするグラデーション、およびタイムスタンプを表示します。 これは主にテストの目的としているものです。

どちらのソースも省略可能な ":" で区切られた key=value の組の列を 受け取ります。受け取るオプションの説明は以下のとおりです。

size, s

ソースになる映像のサイズを指定します。widthxheight の形をした文字列、 またはサイズの略称です。既定値は "320x240" です。

rate, r

ソースになる映像のフレームレートを、毎秒生成されるフレーム数で指定します。 frame_rate_num/frame_rate_den の形をした文字列か、整数値、 浮動小数点数、あるいは有効な映像のフレームレートの略称です。 既定値は "25" です。

sar

ソースになる映像のサンプルアスペクト比を設定します。

duration

ソースになる映像の時間を設定します。受け取る構文は次のとおりです:

[-]HH[:MM[:SS[.m...]]]
[-]S+[.m...]

av_parse_time() 関数も参照してください。

指定されていない、もしくは表現された時間が負の値なら、映像は際限なく生成される ものとします。

例えば、以下の

testsrc=duration=5.3:size=qcif:rate=10

は、サイズが176x144で、毎秒10フレームのフレームレートで5.3秒間持続する映像を 生成します。

21 映像シンク

以下が現在利用可能な映像シンクの説明です。

21.1 buffersink

映像フレームをバッファリングし、フィルターグラフの末尾でそれらを利用できる ようにします。

このシンクは ‘libavfilter/buffersink.h’ で定義されているインターフェイス を通じてプログラム的に使うためのものです。

21.2 nullsink

Null 映像シンクは、入力映像について全く何もしません。主にテンプレートとして 有用であり、分析やデバッギングのツールで使われるものです。

22 メタデータ

Libav はメディアファイルからメタデータを INI のような単純な UTF-8 エンコード されたテキストファイルにダンプすることができ、そしてそれをメタデータ muxer/demuxer を使ってロードすることができます。

このファイルフォーマットは次のようなものです:

  1. 1つのヘッダと、各々1つの行になるセクションに分けられるメタデータタグ(複数) からなります。
  2. ヘッダは ’;FFMETADATA’ という文字列と、それに続く1つのバージョン番号(現在は1) です。
  3. メタデータタグは ’key=value’ という形です。
  4. ヘッダの直後にグローバルメタデータが続きます。
  5. グローバルメタデータの後に per-stream/per-chapter メタデータとともに セクションがある場合があります。
  6. セクションはブラケット(’[’、’]’)で囲まれた大文字でのセクションの名前 (例えば STREAM または CHAPTER)で始まり、次のセクションもしくは EOF で終わります。
  7. chapter セクションの最初には、開始/終了の値のために用いられる省略可能な タイムベースがあります。これは ’TIMEBASE=num/den’ という形でなくてはならず、 ただし num とden は整数です。タイムベースがない場合には開始/終了の時刻は ミリ秒と仮定されます。 次に chapter セクションは開始および終了の時刻を ’START=num’、’END=num’ という形で含まなければなりません。ただし num は正の整数です。
  8. 空行、および ’;’ もしくは ’#’ で始まる行は無視されます。
  9. メタデータのキーまたは値に含まれる特殊な文字(’=’、’;’、’#’、’\’ および改行)は バックスラッシュ ’\’ でエスケープしなければなりません。
  10. メタデータの中の空白文字(例えば、foo = bar)はタグの一部と見なされます (この例ではキーが ’foo ’ で値が ’ bar’ です)。

ffmetadata ファイルはこのような感じです:

;FFMETADATA1
title=bike\\shed
;this is a comment
artist=Libav troll team

[CHAPTER]
TIMEBASE=1/1000
START=0
#chapter ends at 0:01:00
END=60000
title=chapter \#1
[STREAM]
title=multi\
line