サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
Wikipedia
www.techno-edge.net
AI作曲サービスのトップを競い合っている、大手レコード会社に訴訟され仲間であるSunoとUdioが相次いで機能強化を発表しました。 まず、Sunoに、ステム分離機能が追加されました。 ステム分離とは、楽器のパートごとにトラックを分ける機能。UVR5などの単独アプリや、Logic ProなどのDAWに組み込まれている例もあります。AI作曲サービスでもSonautoは早くから実装していました。 無料ソフトのUVR5では、ボーカル、ドラム、ベース、その他の4種類に分離でき、Logic ProのStem Splitterも同様。Sonautoも同じです。 ■Sunoのステム分離機能はボーカルとそれ以外Sunoのステム分離はそれに比べると単純で、ボーカルとその他を分けるだけ。つまり、ボーカルキャンセルと同じことなのですが、それなりに使い道はあります。 例えば、AIで作った曲のボーカルを自分や他の誰か
X (旧Twitter) が、独自絵文字セットの「ピストル」を一般的な水鉄砲から、実銃のグラフィックに置き換えました。 現在、モバイルアプリでは各社それぞれの絵文字セットによりおおむね明るい色の水鉄砲やオモチャの銃として表示されますが、ウェブのx.com では黒灰の銃身に茶のグリップを備えた拳銃のグリフになっています。 ピストルの絵文字は2016年にAppleがiOSで水鉄砲に書き換えてから各社が追従し、2010年代末にはプラスチックの玩具を思わせる明るい色で、実際の拳銃とは離れたデザインが一般的になっていました。 Twitter の担当エンジニアによれば、この変更は「あるべき姿の復旧」。独自の絵文字グリフを実銃に戻すことで、いわばAppleに取り上げられた武装権を回復したといえます。 絵文字、もしくは汎用規格のUnicodeとしての Emoji にはテキストによる抽象的な定義と参考の画像
コレクター向けオークションサービスの Goldin が、史上もっとも貴重なNES (海外版ファミコン)ソフトのひとつとして知られるNintendo World Championships 1990 ゴールドカートリッジ の競売を予告しました。 ニンテンドーワールドチャンピオンシップスは、7月に発売されたばかりのNintendo Switch版『Nintendo World Championships ファミコン世界大会』の元となった大会イベント。 1990年に北米で開催された第一回は、スーパーマリオやテトリスほかNESソフトのミニゲーム版を時間制限付きでプレイしハイスコアを競う内容でした。(トップの画像は復刻開催した2017年大会) のちにコレクターの聖杯とまで言われる『Nintendo World Championships 1990』は、この1990年大会のために作られた特別なNESカ
ポストSoraというか、ビフォーSoraというか、新世代の動画生成AIも老舗であるRunway Gen-3登場以降、目新しいニュースがなかったのですが、Luma AIのDream Machineがちょっとした新機能を追加しました。 ループ機能です。 Dream Machineは2つの画像の中割りができたり、動画を5秒単位で伸ばしていけたりと、便利な機能を持っていますが、そのオプションとして「Loop」が加わりました。このチェックボックスを入れておくと、指定したリファレンス画像とプロンプトから、ループする動画を作成できます。 (▲Loopオプションが追加された) ■Loop機能を使ってみた西川善司さん講師で7月26日に開催する自作PCオンラインワークショップのサムネ画像をループ画像にしてみました。 今回はトラブルに見舞われる人多数のDDR5問題を中心に語ってもらうので、プロンプトも、a gi
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 OpenAIは7月18日、安くて軽量なマルチモーダル大規模言語モデル「GPT-4o mini」をリリースしました。テキストや画像に対応し、Gemini FlashやClaude Haiku、GPT-3.5 Turboより精度が高く高速、それでいて安価なのが特徴です。 DeepLは、言語翻訳ならびに文章校正の特化型大規模言語モデルを実装したことを発表しました。言語専門家の評価では、Google翻訳よりも1.3倍、ChatGPT-4よりも1.7倍、Microsoft翻訳よりも2.3倍、DeepLの翻訳出力が好ましいと回答したといいます。 さて、この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第56回)では、AIとユー
仮想的なシステムであり、実際の普及は想定されていない。 言語学習や異文化コミュニケーションのツールとしての可能性がある。 結論ローマ字運動とJaphalbetは、どちらも日本語の表記をラテン文字化する試みという点で共通していますが、その目的、アプローチ、そして想定される使用範囲に大きな違いがあります。ローマ字運動が日本の近代化と識字率向上を主眼としていたのに対し、Japhalbetは国際的な日本語学習とコミュニケーションの促進を目指しています。 また、ローマ字運動が日本語の文法構造をほぼそのまま維持したのに対し、Japhalbetはより大胆な文法の簡略化を提案しています。これは、Japhalbetが非日本語話者にとっての理解のしやすさを重視しているためです。 結果として、ローマ字運動は日本社会に一定の影響を与え、特に技術分野での応用を見出しましたが、Japhalbetは現時点では理論的な提
日本でも、6月28日に発売されたAppleのVision Pro。テクノエッジではこれまで2回、このVision Proユーザーが集まるパーティを開催してきました。
現役グラビアカメラマンでありエンジニアでもある西川和久氏による生成AIグラビア連載の第28回は、Stable Diffusion 3 Mediumの方針転換と、Kolors など非SD系の新 txt2imgモデルについて。 『生成AIグラビアをグラビアカメラマンが作るとどうなる?連載』記事一覧』 連載27回にSD3 Mediumは、ライセンス問題やクオリティ問題があり、失速している的なことを書いたが、7月5日に劇的な発表があった。ざっくり焦点は以下の2つ。 研究、非商用、商用のいずれの用途でも無料。年間収益が100万米ドルを超え、商用製品またはサービスでStability AIモデルを使用する場合のみ、有料のエンタープライズライセンスが必要 SD3 Medium はまだ開発中で、今後数週間以内に、大幅に改善されたバージョンをリリースする予定 筆者が指摘した部分が大きく変わった。改善版が実際
Apple Vision Proを買いました。 Vision Proは今年初めに米国での購入を断念し、次は国内発売されたものの、Apple Intelligence搭載の対象外となったことで見送っていました。 その代わりにCopilot+ PCを買おうとDell Inspironを発注までしたのですが、出荷遅れで1カ月先となってキャンセル。その後の実機レビューを見ると、Copilot+ PCオンリーのAI機能が期待外れという評価もあり、結果的にそれで良かったのかもしれません。 新しい何かを買いたい気持ちを鎮めながら、本体を持ってもいないのに、第3回Vision Proパーティ feat.『日経空間版』の司会役も無事に終え、一息ついていたところで、AI研究家の清水亮さんから「松尾さんやっぱVision Pro買った方がいいよ。松尾さん向け製品と言える。松尾専用デバイス」とのメッセージ。 (▲
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第55回)では、1枚の完成したイラスト絵を入力に、そのイラストの制作過程のタイムラプス動画を生成する「PaintsUndo」や、画像とテキストをペアにした1コマを入力に、続きの物語を生成する「SEED-Story」などを取り上げます。 生成AI論文ピックアップ 1枚の画像から3Dキャラクターを1分で生成するモデル「CharacterGen」 音声と静止画の顔を入力に、話している動画を生成するAI「EchoMimic」 漫画の1コマを入力に、続きのコマを作り出す物語生成AI「SEED-Story」 3次元データを活用した新しい画像マッチング技術「MASt3R」 イラス
慶應義塾大学卒業後、新卒で出版社の宝島社に入社。独立後はケータイジャーナリスト/ライターとして幅広い媒体で執筆、コメントなどを行う。ケータイ業界が主な取材テーマ。 ライバルとして通信事業でしのぎを削るドコモとソフトバンクですが、その子会社のバイク(自転車)シェアリングサービスも競合関係にあります。 ドコモはドコモ・バイクシェア、ソフトバンクはOpenStreetという会社が、それぞれサービスを展開しています。 ドコモ・バイクシェアは現在、累計利用回数が1億回を突破。トータルの走行距離は2億4000万kmに達しています。これに対し、OpenStreetが展開するHELLO CYCLINGは、走行距離で1億5000万kmとドコモ・バイクシェアを追い上げています。 このようにバチバチの争いを繰り広げていると思われがちな2社ですが、この2社が7月10日に業務提携を行うことを発表しました。 (▲画像
このところ、AIを使った簡単プログラミング環境の進化が著しいです。Claude Artifacts、ChatGPT-Artifacts、Poe Previews。そこに大元のClaudeが、「Publish Artifact」という新機能を投入してきました。
このところプログラミングの楽しみを覚えて毎日Claude ArtifactsとChatGPT Artifactsで遊んでいる筆者ですが、またまた新しいツールに出会ってしまいました。 それは、PoeのPreviewsという新機能。 Poeは、ChatGPT、Claude、Gemini、Mistralといった複数の最新LLM(大規模言語モデル)を呼び出して対話ができる総合窓口的AIエージェントサービスです。AIアグリゲーターという人もいます。似たようなサービスに、先ごろソフトバンクが利用者に1年間無料で提供し始めたPerplexityがありますね。 個別のLLMと契約をしなくても、Poeと月額契約(3000円から)を結ぶと、それぞれの最新モデルが使えるというメリットもあります。 そんなPoeが投入したPreviewsは、Claude 3.5 Sonnetで使えるようになったプログラミングコンパ
さて、この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第54回)では、KLINGを開発した快手が、画像内のキャラクターの顔を自在に動かす技術「LivePortrait」を発表しました。従来の類似技術と異なり、顔の表情や頭部の動きの1フレームを12.8ミリ秒で生成できる高速さが特徴です。動きの精度も高く、調和のとれた合成映像を生成します。 生成AI論文ピックアップ 静止画内の顔の表情や頭部をリアルに動かすAI「LivePortrait」、1フレーム0.01秒で動作を生成 “10億の人格”を活用して大規模合成データを生成する手法をテンセントが開発 ナレッジグラフを用いて回答精度を向上させる、マイクロソフト開発のLLM拡張技術「GraphRAG」がGitHubに登場 プロンプトの複雑さに応じ、強いLLMか弱いLLMかを自動選択するモデル「RouteLLM」 ソ
この問題を解決するにはどうしたら良いか? ChatGPTにもGeminiにも毎月お布施をしているし、彼らも同レベルの機能を持っているのだから、Claudeの休眠期間中はそっちを使えばいいのではないか。 そう考えていたところ、良い助け舟が。 ChatGPTにArtifacts機能を追加しますよ、というソフトの開発者からメンションが飛んできました。 このソフトはGitHubで公開されているので、普段使っているM1 iMacにインストールしてみました。git cloneしてNode.jsをインストールしてという、自分にとってはなかなかハードルの高いインストール方法でしたがなんとか動くようになりました。 使うにはOpenAIのAPI Keyが必要です。つまりChatGPT-Artifactsという名前ではありますが、実際はAPIで呼び出しているわけです。ChatGPTっぽいプロンプト操作でGPT-
45年前に発売された革命的デバイス、ウォークマン。そのアニバーサリーにふさわしいエポックメイキングなアプリが登場しました。 初代ウォークマン「TPS-L2」が発売されたのは45年前、1979年7月1日。当時、発売すぐに新製品を購入し、今はメルカリで買った別個体を修理してもらい完動する初代ウォークマンをたまに持ち歩いて当時のカセットを聴いています。 超軽量ヘッドフォン「MDR-3L2」はオレンジ色のイヤーパッドが経年劣化で存在しないため、似たようなものを買ってきて組み合わせています。あと5年で半世紀というデバイスが今も動いているというのは奇跡です。 (▲初代ウォークマンと、付属ヘッドフォンに似たパチモン) 大学2年生の夏休み。筆者が帰省して高校時代の友人たちに自慢したのがこの初代ウォークマンです。そしたら、友人の一人が「俺もウォークマン持っとる」と見せたのが、録音機能付きモノラル再生機のプレ
現役グラビアカメラマンでありエンジニアでもある西川和久氏による生成AIグラビア連載の第27回は、前回に続いて最新の画像生成AIモデル Stable Diffusion 3 Medium について。 『生成AIグラビアをグラビアカメラマンが作るとどうなる?連載』記事一覧』 前回に引き続きStable Diffusion 3 Mediumの話連載第26回にSD3 Medium(以降SD3 Medium)の話を書いたが、今回はその続きとなる。 前回の記事ではSD3 Mediumの特徴として Baseモデルなのに高画質。そして日本人含むアジア系もOK 商用利用不可。個人レベルでの商用利用は、クリエイターライセンス($20/月)を契約 結構な頻度で致命的な問題が発生する Promptで左右など、位置関係が指示でき再現可能。文字もOK(英語のみ) 生成環境は現状でComfyUI(系)のみ。基本Work
ソニーから独立10周年を迎えたVAIOが、初のモバイルディスプレイ『VAIO Vision+ 14』を発売しました。
ノンプログラマーな自分が、大規模言語モデル(LLM)の助力で、初めてまともに動くプログラムを完成させることができました。
Googleがオープンな言語モデル「Gemma 2」を開発者向けに公開しました。90億パラメータと270億パラメータの2サイズを提供しています。 さて、この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第53回)では、生成する動画時間の延長や無音ビデオに適した音を生成するなど動画AIに関する内容が盛りだくさんです。 生成AI論文ピックアップ 既存のAIが生成する動画の時間を長くするモデル「ExVideo」、Stable Video Diffusion生成動画を5倍以上の長さに拡張 言語より視覚に重きを置く、オープンなマルチモーダル大規模言語モデル「Cambrian-1」はGPT-4VやGemini Proと同等レベル イベントカメラを使用するAIビデオ超解像技術「EvTexture」、特にテクスチャ領域で画質向上 長い動画を理解できるオープンソースなAIモ
現時点で一般に使える最高レベル動画生成AI、Luma AIの「Dream Machine」に新しい機能「Keyframes」が投入されました。プロンプトでの指定以外に、2枚の参照画像を入力し、それを始点と終点にできる、ある意味モーフィング的な機能です。 Dream Machineは高性能ではあるのですが、学習データが欧米に偏っているためか、日本人の画像を元にしても途中で欧米人に変身しがちという問題がありました。このため、欧米化する直前のところまでしか使えず、5秒間やそれをExtendした10秒といった長尺の動画は絵に描いた餅状態でした。 こうした「別人化」「欧米化」問題がこれで解消するか、実際に検証してみました。 ■2枚の銀塩写真から動画を作る同じときに撮影したこの2枚の写真をキーフレームの始点と終点にします。最初の画像を入力すると、End Frameの入力が可能になります。 (▲最初の画
Xbox Game Passにはアマゾンがドラマ化して高い評価を得た『フォールアウト』のシリーズ作品も収録済み。10月になれば、人気シリーズ Call of Duty最新作 Black Ops 6が一般発売と同時に遊べることになります。 Xbox クラウドゲームは、定額遊び放題サービス Xbox Game Pass の全部入りプラン Ultimate 加入で使える機能。 ゲームをローカルのゲーム機やPCで動かすかわりにクラウドサーバ上で走らせ、操作の結果を映像としてストリーミングすることで遊ぶ仕組みです。 コントローラ信号とゲーム映像がインターネットを行き交う原理的に遅延があるため、特にネット回線の品質が高くない場合、一瞬の反応を争う対人戦などには不向き。 逆に回線品質が良ければ、またはゲームによっては、手元のゲーム機で動いているとしか思えないほど自然にプレイできることも。 ゲームはクラウ
いずれ起きるかなと思っていた、米音楽業界団体からAI作曲サービスへの訴訟がついに来ました。 RIAA(全米レコード協会)が発表したもので、原告はSony Music Entertainment、UMG Recordings、Warner Recordsというレコード会社の大手3社を含む多数の音楽出版会社。 訴えられたのはSunoとUdioの2社。アーティスト名や楽曲名をプロンプトに入れ放題なSonautoなどは対象となっていません。 Sunoへの訴状をGoogle NotebookLMにまとめてもらうとこんな感じです。 この訴訟は、UMGレコーディングス、キャピタルレコーディングス、ソニーミュージックエンタテインメント、アトランティックレコーディングコーポレーション、およびその他の原告として挙げられているレコード会社によって提起されました。 原告は、Sunoとその生成AIサービスが原告の著
電動マイクロモビリティのシェアリングサービス Luupが、新たな特定小型原付『電動シートボード』を発表しました。 電動シートボードは、電動キックボードに座席とカゴがついたようなデザイン。 LUUPデジタルコード(3時間パス) - Eメールタイプ (Amazon) 立ったまま乗る電動キックボードや、漕ぐ力が必要な電動アシストサイクルでは足腰に不安がある場合や、買い物など荷物を持って移動したいニーズに応える新たな車種として、この冬以降にシェアリングサービスで提供予定です。 Luupによれば、電動シートボードの特徴は座席つきで疲れない・カゴ付きで大きな荷物の積載が可能・特定小型原付なので漕ぐ必要がない完全電動・既存のLuupポートに停められる小型、そして自転車に誤認されにくいデザイン。 特定小型原付は2023年7月から交通ルールがかわり、16歳以上であれば免許不要で乗れるようになりました。 同じ
以前見学させていただいた「マイコン博物館」が6月22日に正式オープンしました。 1日の利用が大人1000円で、動態保存してあるマイコンを利用できるオプションが3000円。全て予約制で、水曜日が休館日。開館時刻は12時~18時。最終入館時刻は17時となっています。突然の訪問はできません。詳細はこちら。 筆者は正式オープン前に伺ったのでまだ整理されていない状態でしたが、展示のために集められたマシンたちは実に素晴らしいものでした。 マイコン博物館プレオープン訪問記の後編をまだ書いていなかったので、個人的な過去の体験を交えながらここに書いておきます。以下に登場する記述や写真はプレオープン時のもので、今は収まるべきところに、正しい説明とともに収蔵されているはずです。 1981年冬のマイコンフェアが青梅に再現されていたここを訪れた後、思い出した場所があります。それは五反田TOCのどこか。1981年冬の
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 AnthropicがClaudeファミリーの新モデル「Claude 3.5 Sonnet」をリリースしました。このモデルは、各種ベンチマークで同ファミリーの旧最上位モデルClaude 3 OpusやOpenAIのGPT-4を上回る性能を示しています。ユーザーの間でも様々な使用事例が共有され、その高性能ぶりが話題となっています。 一方、GoogleやNVIDIAから資金調達を受けているAIベンチャー「Runway」は、新しい動画生成AIモデル「Gen-3 Alpha」を発表しました。前モデルGen-2と比較して、忠実度、一貫性、モーションの面で大幅な改善が見られるとのことです。公開されているサンプル動画からも、その高精度が確認できます。 国内では、カ
ARグラスのXREALが、専用アクセサリの新製品 XREAL Beam Proを日本国内向けに発表しました。
リップシンクは動画生成AIサービスが多く手掛けてきましたし、オープンソースソフトもいくつかありますが、満足できるものがなかなかないというのが現状です。 筆者が現在リップシンクでメイン使いしているのは、HeyGenです。Sad TalkerはAUTOMATIC1111のプラグインとして無料で使えますが、リップシンクが不自然で、商用サービスとして先行してたD-IDも不自然さが目立ちました。 HeyGenは1曲まるごとのリップシンクができるうえに、PikaやRunwayのリップシンクでは口を開けた際に下の歯だけ見えるなど不自然さがあるのに対して、口を開けても違和感が少ないのは大きなメリットです。 しかし、髪の毛のボリュームがあるとその部分が固定されて見えてしまい、不自然さが目立ってしまいます。このため、リップシンクを使うときにはショートヘアにするなどの工夫をしていました。 こうした問題点を解消で
ロジクール / Logitech がワイヤレスコンパクトキーボードの新製品 Keys-to-Go 2を発売しました。 厚さ8.9~4.3mm、重さ222gと薄型軽量で、ロジクール史上もっともコンパクトなキーボードを謳います。 主な特徴と仕様は、Windows / Mac / Android / iPhone / iPad / ChromeOS等々で使えるマルチOS対応、Bluetooth Low Energy接続、3台までのデバイスをペアリングして素早く切り替えられるEasy-Switch、コイン型電池CR2032 x2枚で最大36か月駆動など。 キーは18mmピッチのパンタグラフ式。先代のKeys-to-Goはキーが1枚の樹脂で覆われた構造でしたが、新製品Keys-to-Go 2は保護カバーが付属します。 通常版とiPad版があり、微妙にレイアウトやショートカットが異なります。 通常版は
次のページ
このページを最初にブックマークしてみませんか?
『テクノエッジ TechnoEdge』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く