日本語字幕の精度を高めるために私たちがやっていること

技術2025年2月28日

多くのAI文字起こしツールは英語ベースのモデルを使用しており、日本語のニュアンスや文脈を十分に捉えきれないことがあります。Clipaでは、日本語に特化した独自のアプローチで字幕精度の向上に取り組んでいます。

課題：日本語字幕はなぜ難しいのか

汎用的な多言語モデルではなく、日本語の音声データで集中的にファインチューニングしたモデルを使用しています。

一般的な音声認識は短い音声区間ごとに処理しますが、Clipaでは前後の文脈を広く参照することで、同音異義語の解消精度を向上させています。

音声認識の出力に対して、句読点の自動挿入、不自然な繰り返しの除去、フィラーの処理、読みやすい改行位置の自動決定を行います。

ユーザーが字幕を修正した場合、その修正データ（匿名化済み）を学習に活用しています。これにより、モデルは日々改善されます。

現在、話者識別とジャンル別の辞書機能の開発を進めています。ゲーム、美容、ビジネスなど、ジャンルごとに最適化された辞書を適用することで、さらなる精度向上を目指しています。